ENZH

后 Agent 时代的商业、组织形式和 SaaS 的未来

📊 幻灯片

一笔账。

一家中小企业,记账这件事真实成本是什么?QuickBooks 一年大概 $10K。QuickBooks 不会自己跑——还得请会计,$120K。工具花了 $10K,用工具的人花了 $120K。比例 1:12。

红杉最近引用更宏观数字:企业每花 $1 买软件,就花 $6 买服务。整个经济体的软件支出和劳动力支出之间,差一个数量级。

如果 AI 能直接把账做完——不是给更好记账界面,直接交付一本做好账——它面对市场不是 QuickBooks 那 $10K,是那 $120K。

Copilot 抢 $1 工具市场。Autopilot 抢 $6 服务市场。不是同一场仗。


红杉同周发两篇长文。Julien Bek 写产品形态,Jack Dorsey 和 Roelof Botha 写组织架构。表面两话题,底层同一论点:当 AI 能交付结果,所有围绕"工具+人"搭建商业结构都要重写。

Bek 核心框架是把所有工作拆两层:intelligence 和 judgement。

Intelligence 是有规则可循工作——复杂、繁琐,本质上确定性。会计准则、税务条款、保险费率计算、合同模板、代码生成。Judgement 是需要经验、直觉、上下文决策——法律策略、管理咨询、产品方向、招聘判断。

AI 先吃 intelligence。已在发生。

这框架只说"先后",没说"快慢"。快慢差异,比先后差异大得多。


工作在变:边界移动速度取决于领域

Bek 说了很关键一句:今天 judgement 会逐渐变明天 intelligence。

对的。省略更重要问题:转化在不同领域速度差几个数量级。速度取决于一件事:领域有没有可验证"正确答案"。

代码最快。程序能不能编译、测试过不过、性能达不达标——全是二元判定。写完跑一遍就知道对不对。软件工程第一个过线——红杉数据显示开发者 AI 工具使用率超 50%。自己体感完全对上:3 人干 15 人活,不是更聪明,大量 intelligence 层工作被 Agent 接管。《You Are the Manager》写过。

会计也快。GAAP 就是明确规则集。借贷必须平衡,折旧有公式,税务有条款。一笔账对不对,审计师翻准则判断。ICD-10 医疗编码同理。

保险开始慢。精算模型确定——给定风险因子,费率有公式。核保不是纯公式。海边餐厅火灾险,精算能算基准费率,核保员还要判断:消防设施怎么样?当地消防队响应速度?之前有没有可疑理赔记录?依赖不单规则,商业直觉和关系网。边界模糊了。

法律更慢。法律对抗性——同一套事实,原告被告推导完全相反结论。管辖区特定,同一问题加州和德州答案不同。就算"标准"合同,每条条款具体措辞取决于这笔交易特定商业背景。法律策略好坏,最终看官司输赢、谈判结果,反馈周期几个月到几年。

管理咨询最慢。输出质量完全依赖对客户具体情况理解。同一战略建议,A 公司对 B 公司错。没通用验证标准,连"这建议好不好"共识都难建立。

排列:代码→会计/编码→保险→法律→咨询。从左到右,"正确答案"越来越模糊,反馈周期越来越长,judgement→intelligence 转化越慢。

不是线性。代码可能两三年大部分 intelligence 被自动化。法律可能十年后还在 copilot 阶段。咨询可能二十年后还是人类主导。

推论:选创业方向看线。靠左领域竞争白热化——做代码 copilot 公司几百家。靠右领域看 TAM 更大,落地周期也长得多,评估基础设施还不存在。中间地带——保险、税务、医疗账单——可能是当下最好窗口。


Bek 的 judgement→intelligence 转化论有没展开推论:转化靠什么驱动?

靠数据。更具体说,靠标注好、高质量判断数据。这类数据从哪来?copilot 使用过程。

律师用 Harvey 起草合同,AI 生成初稿,律师花二十分钟修改。每次修改——删条款、改写措辞、加限定语——极高质量训练信号。比任何人工标注数据集精准,反映真实业务场景真实判断。会计也一样。AI 生成报表,会计师发现分类错误并纠正。纠正本身在告诉模型:这具体情境下,正确判断是什么。

copilot 不单是过渡产品形态。copilot 阶段就是 autopilot 训练阶段。 每个 copilot 产品都是隐形数据采集管道。用户以为在用工具,实际也在教工具。

这认知改创业策略。从 copilot 做起不是"退而求其次",在积累最核心战略资产——判断数据。Bek 说外包市场切入策略和 copilot-first 策略不矛盾,前后两步:先用 copilot 进市场、积累数据,再用数据驱动向 autopilot 进化。

有个暗礁。纠正数据归谁?律师修改 AI 合同过程,数据是律所还是 AI 公司?大多 SaaS 服务条款有"我们有权使用服务过程产生数据改进产品"。以前"改进产品"优化界面、修 bug。现在"改进产品"训练模型——你的专业判断在喂竞争对手 AI。目前几乎没人认真讨论。会变大问题。


autopilot TAM 是 copilot 六倍,具体市场在哪?

Bek 给了实际进入策略:先替代已经外包工作。 三原因:预算存在(不需说服客户花新钱),买方已习惯为结果付费(不是为工时),质量标准相对清晰(外包合同本身就是 SLA)。

具体市场:保险经纪($140-200B)、会计审计、医疗账单、税务申报、法律文书、IT 托管服务、招聘。每个同样模式——规则复杂但确定,人力成本高,客户要结果不是过程。

低估的过渡形态。不是直接从 copilot 跳 autopilot,中间还有层:AI 在业务规则定义边界内自主执行,遇超出边界情况自动 escalate 给人。 不是纯自动驾驶,L3——有限条件下自主驾驶,需人类必要时接管。对应产品形态:AI 处理 90% 常规保险报价,遇异常推人工;AI 生成 95% 标准合同条款,遇非标需求标记律师审核。大多数公司未来三到五年可能就停这状态。不是不想全自动,信任基础设施还没建好。


为什么信任基础设施建不起来?不是技术问题。责任归属问题。

Copilot 模式,法律关系清晰。AI 是工具,跟 Word、Excel 没区别。律师用 AI 起草合同,最终签字是律师。出问题客户找律师,律师承担专业责任。整条责任链和 AI 出现前一样。

Autopilot 模式,链断了。具体场景:AI autopilot 为商业地产生成保险报价,定价偏低——系统低估某风险因子。客户买了保险。半年后出事故,赔付远超保费收入。谁赔?三方互指:客户说"我信你们系统"。AI 服务公司说"模型输出不在完全控制范围"。模型提供商说"我们提供通用能力,不为特定业务决策负责"。保险公司说"系统决定,不是核保员做的"。

责任链目前完全没定义。没法律先例,没行业标准,连讨论这问题监管框架都不存在。

看类比知多难。自动驾驶技术上 L4 级别限定场景早能跑。Waymo 旧金山运营好几年。法律框架呢?出事故谁负责——车主、车厂、软件公司、传感器供应商?保险怎么定价——按司机驾驶记录还是按算法版本?每州法律不一样。每次重大事故法规方向可能反转。从"技术能跑"到"法律框架就位",自动驾驶花十年,到现在还没完全解决。

AI autopilot 面对同样困局,更复杂。自动驾驶只涉及物理世界——车、路、人,出事有现场证据。AI 做知识工作——法律意见、保险报价、税务申报,出错了可能几月甚至几年后发现,系统早更新好几版本。不是技术能解决。需立法、行业协会、保险产品创新、大量案例积累。形成速度不跟摩尔定律走。


责任链断裂根源?连"AI 做得对不对"都没可信评估标准。

说"评估"容易。落地要回答具体问题:对不对由谁定义?用什么标准?标准多久更新?谁来审计?不同领域评估基础设施成熟度完全不同。

会计最成熟。GAAP 提供全球认可规则集。四大提供审计能力。财报对不对,明确判断标准,专业机构认证,法律后果。这套基础设施花大半世纪才建起来。正因为它存在,会计领域 AI 自动化推进最快——可明确说"这份账对了"或"错了"。

医疗编码类似。ICD-10 上万条编码规则,每个诊断对应明确编码。编码对不对,翻手册就知。医疗编码可高度自动化。诊断本身不行——同样症状,不同医生可能不同诊断,"正确性"往往等治疗结果出来才回判。编码评估基础设施完善,诊断不完善。同医疗体系内,两种工作自动化进度截然不同。

法律几乎没等价评估基础设施。没"法律 GAAP"。合同好不好、法律策略对不对,取决于管辖区、法官、对手律师水平、客户具体商业诉求。最终"评估"是客户赢没赢官司,反馈等几个月到几年。前只能靠同行评议——本质上主观。

保险核保介于间。精算定价有标准——给定风险因子费率可算。核保判断好坏最终看保单组合表现——赔付率是否在预期范围。反馈周期年级别。核保决策对不对,可能三到五年后知。

规律:评估基础设施越完善领域,copilot→autopilot 转化越快。越薄弱越卡 copilot。 巨大机会:谁先在某个垂直领域建可信评估标准——相当于那领域"GAAP"——谁就掌握从 copilot 到 autopilot 入口。 不是纯技术创业。需行业认可、监管配合、够多案例积累证明标准有效。靠时间和信任累积,不靠融资堆。正因如此,一旦建立先发优势极强。


组织在变:层级制是两千年路由协议

工作本身在变。承载工作组织呢?

Dorsey 和 Botha 那篇讲正是这个。角度比 Bek 更激进。核心论点:层级制本质不是权力结构,是信息路由协议。 从罗马军团百人队到普鲁士参谋部,美国铁路系统到泰勒科学管理,曼哈顿计划到麦肯锡矩阵组织——两千年组织创新,解决同一问题:一个人认知带宽有限,信息传不太远,需中间层做路由。

经理核心功能不是"管人"。把上面战略翻译给下面,下面状态汇报给上面。路由器。

AI 第一次提供替代方案。

Block(Square 和 Cash App 母公司)是目前最激进实验者。搭四层架构:能力原子(最小粒度功能单元)、世界模型(公司状态实时全局视图)、智能层(自动组合能力原子响应信号)、界面(人和系统交互层)。

具体例子:Square 商户税务申报到期,同时 Cash App 刚批这人贷款。以前两信息分属两事业部,可能永不会碰头,除非某 PM 恰好想到做这功能。现在智能层自动发现信号,把税务工具和信贷能力组合推给商户。没任何 PM 做这决策。系统自己发现需求。

组织角色也变。Block 定三种角色:IC(个人贡献者)、DRI(直接责任人,90 天任期)、player-coach(同时写代码同时带人)。没永久性中层管理岗。Roadmap 不是 PM 写年度计划驱动,failure signal 驱动——智能层无法自动组合出解决方案地方,就是下一产品方向。


这套方案听起来很美。Block 条件极其特殊。

Block"世界模型"靠支付数据。每笔交易是结构化事件——金额、商户、品类、时间戳、买方、卖方。商业领域信噪比最高数据。

典型 B2B SaaS 公司对比:客户交互数据是什么?点击事件、停留时长、功能使用次数。用这些数据建"世界模型",建出来大概稍微聪明一点仪表盘,不是能自主发现需求智能层。差距不在模型。差距在数据结构化程度和信号密度。

Mio 学到很深教训:上下文质量决定智能上限,不是模型本身。 GPT-4、Claude、Gemini 智能水平差距在缩小,谁上下文更丰富、更精准、积累更久,谁就更有用。

Block failure-driven roadmap 也有前提:智能层失败必须是有意义信号。 模型够强、数据够密,一次失败能精确定位到"这能力原子不存在"或"这俩能力组合路径没被定义"——有用产品方向信号。模型弱、数据稀疏呢?每次失败原因都是"数据不够"或"模型不够聪明"。不是产品信号,基础能力不足。failure-driven roadmap 退化成"给我更多数据"循环。

Block 架构里,可迁移和不可迁移要分开看。可迁移:三种角色定义,failure-driven roadmap 思路,消灭永久性中层岗。组织设计层面选择,不依赖数据质量。任何公司可学。不可迁移:世界模型、智能层自主组合能力。依赖 Block 特有高密度结构化支付数据。大多数公司没等价数据资产。

判断:大多数公司停混合态——AI 处理 80% 信息路由,人类保留异常处理和最终责任。 组织可以变扁,不会变平。中间层压缩,不消失。


SaaS 不会死,分化成四类

回到开头问题:SaaS 还需要吗?答案不是"需要"或"不需要",是"看哪类"。

第一类:纯 intelligence 工具——被替代。 QuickBooks 式产品。规则复杂但确定,AI 能直接做完整件事。用户不再需"帮你记账工具",直接要"记好账"。已有公司在做:Crosby 做 NDA 自动生成,WithCoverage 做保险报价自动化。这类 SaaS 商业模式从卖许可证变卖结果,或被 autopilot 服务商吃掉。

第二类:judgement 密集型——变成 copilot。 法律策略、管理咨询、创意设计。Harvey 在法律领域做就是这个——AI 做大量辅助工作,最终决策需人判断。这类产品活下来,形态变——从"功能丰富工具"变"增强人类判断力助手"。专业人士留下,工具换代。

第三类:基础设施型——反而受益。 云计算、数据库、支付管道、API 网关。Autopilot 需调用更多基础设施,处理更多请求,存储更多上下文。更多 AI Agent 意味更多 API 调用、更多计算需求、更多数据存储。这类公司 usage 随着 autopilot 普及增长。

第四类:新品类——上下文基础设施。 最有意思想象、目前最空白。

包含四方向:授权管理——谁允许 AI 做什么?不是传统 RBAC,是"这 AI Agent 可代表公司签署低于 $50K 合同吗?可批准低于 $10K 报销吗?"全新权限体系,粒度比传统 IAM 细得多,且需动态调整。评估框架——AI 输出对不对?会计有 GAAP,保险报价、法律策略、招聘推荐连"什么算正确答案"都没共识标准。审计追踪——出问题怎么回溯?AI 看了什么数据、做什么推理、哪个节点做什么决定、中间有没有 hallucination?传统审计看人操作日志。AI 审计看推理链路。这能力几乎不存在。上下文资产管理——AI 在客户、行业积累领域知识,怎么存储、迁移、定价?客户换服务商,上下文跟着走吗?还是变服务商资产?

四方向加起,构成 AI autopilot 时代"信任基础设施"。目前市面上没成熟产品覆盖。连产品品类都还没命名。


从卖工具变卖结果,商业基础要重定义。

定价。 按席位收费逻辑崩了。AI 做 90% 工作,还按"几个人用"收费?结果导向定价——按做完账本数、处理保险单数、生成合同数收费——变主流。对 SaaS 公司财务模型巨大冲击:从可预测订阅收入变波动交易收入。华尔街怎么给这模型估值?ARR 故事不好讲。

壁垒。 传统 SaaS 壁垒是功能丰富度和切换成本。Autopilot 时代壁垒是上下文资产——在客户、行业积累多少领域知识和评估数据。跟 《The Agent Economy》讨论数字分身逻辑一致:真正护城河不是能力,是理解。功能可复制,理解不能。

保险行业服务三年 AI autopilot,积累几十万笔核保决策反馈数据——哪些定价准、哪些赔付超预期、哪些风险因子低估。构成活的、不断校准行业知识。后来者即使有同样模型能力,也需同样时间积累。时间壁垒,不是技术壁垒。


判断:

红杉看到方向对。Intelligence 层被 autopilot 替代是确定趋势。从卖工具到卖结果不可逆。层级制信息路由功能被 AI 大幅压缩。

过渡期比乐观想长得多。不是技术问题。制度问题。

评估标准谁定?质量怎么校准?多久更新?出事谁担责?AI 用人判断学到东西归谁?每个需行业共识,行业共识形成速度不是靠技术加速。

印刷机故事——技术瞬间改信息分发成本结构,围绕新技术制度框架(版权法、出版审查、学术同行评议)花上百年才成型。

大多数企业未来几年现实状态是混合态:AI 在规则边界内执行,人处理异常和承担责任。不是 L5 全自动,L3 有条件自动。

对创业者,机会不在"做最强模型"或"最酷 Agent"。机在三层面:

第一,靠左领域(代码、会计)做 autopilot——评估基础设施已存在,竞争但可落地。

第二,中间地带(保险、税务、医疗账单)做 copilot-to-autopilot——用 copilot 阶段积累判断数据,同时推动评估标准建立。

第三,做上下文基础设施本身——授权、评估、审计、上下文资产管理。最难,壁垒最深。

三层面共同点:都不是纯技术问题。都需理解行业、理解制度、理解信任怎么建立。

AI 随想Part 1 of 23
← PrevNext →

© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0