AI 能直接交付结果之后，「工具+人」的生意都要重写

最近红杉同一周发了两篇长文，一篇是 Julien Bek 写产品形态，另一篇是 Jack Dorsey 和 Roelof Botha 写组织架构。我看下来，两篇讲的是同一件事：AI 能直接交付结果之后，所有围绕「工具+人」搭起来的商业结构都要重写。两篇放一起读，信息量挺大的，值得认真拆一拆。

先看一笔账。一家中小企业用 QuickBooks 记账，一年大概花 $10K。但 QuickBooks 不会自己跑账，还得请个会计，会计一年 $120K。工具花了 $10K，用工具的人花了 $120K，1:12。红杉还引用过一个更宏观的数字，同一个意思：企业每花 $1 买软件，就要花 $6 买服务。放到整个经济体看，软件的钱和人力的钱，差着一个数量级。

所以如果 AI 能直接把账做完，交付的是一本现成的账，它面对的就不是工具那 $10K 的市场了，是人力那 $120K 的市场。copilot 抢的是 $1 的工具钱，autopilot 抢的是 $6 的服务钱，这两个生意的打法完全不一样。

Bek 的核心框架，是把所有工作拆成两层：intelligence 和 judgement。intelligence 是有规则可循的活，复杂、繁琐，但每一步都有确定答案，会计准则、税务条款、保险费率计算、合同模板、代码生成，全在这一层。judgement 是需要经验、直觉和 context 的决策，法律策略、管理咨询、产品方向、招聘判断在这一层。AI 先吃掉的是 intelligence，这件事已经在发生了。

这个拆法挺有意思的，但它只回答了「先后」，没回答「快慢」。而快慢这个事，不同领域差得非常远。

转化的快慢看什么

Bek 在文章里说了很关键的一句话：今天的 judgement，会逐渐变成明天的 intelligence。这话是对的，但它省掉了一个更重要的问题：这个转化在不同领域的速度，差着几个数量级。快慢取决于一件事：这个领域有没有可验证的「正确答案」。

代码最快。程序能不能编译、测试过不过、性能达不达标，全是二元判定，写完跑一遍就知道对错。所以软件工程第一个过线，红杉的数据是开发者的 AI 工具使用率已经过了 50%。这跟我自己的体感完全对得上：3 个人干 15 个人的活，靠的就是大量 intelligence 层的活被 agent 接管，《You Are the Manager》里写过这段经历。

会计也快。GAAP 就是一套明确的规则集：借贷必须平衡，折旧有公式，税务有条款。一笔账对不对，审计师翻着准则就能判。ICD-10 医疗编码也是同一个道理。

到保险，速度就开始慢下来了。精算模型是确定的，给定风险因子，费率有公式可算。但核保没法全靠公式：一家海边餐厅要买火灾险，精算能算出基准费率，核保员还得看消防设施怎么样、当地消防队响应快不快、之前有没有可疑的理赔记录。这些判断靠的不只是规则，还有商业直觉和关系网。边界在这里就开始模糊了。

法律更慢。法律是对抗性的，同一套事实，原告和被告能推出完全相反的结论；它还跟着管辖区走，同一个问题，加州和德州的答案可能不一样。就算是「标准」合同，每条条款的措辞也取决于这笔交易具体的商业背景。法律策略好不好，最后要看官司的输赢、谈判的结果，反馈周期从几个月到几年。

管理咨询最慢。输出质量完全看你对客户具体情况的理解，同一份战略建议，给 A 公司是对的，给 B 公司就是错的。这里没有通用的验证标准，连「这个建议好不好」都很难有共识。

把五个领域排成一条线：代码、会计和医疗编码、保险、法律、咨询。从左往右，「正确答案」越来越模糊，反馈周期越来越长，judgement 转成 intelligence 的速度也就越慢。而且这个过程不是匀速的：代码可能两三年内大部分 intelligence 就被自动化了，法律可能十年后还停在 copilot 阶段，咨询可能二十年后还是人主导。

五个行业排成一条从左到右的阶梯：越往右「正确答案」越模糊、反馈越慢，judgement 转成 intelligence 也越慢

对创业者来说，选方向之前先看自己站在这条线的哪一段。靠左的领域竞争已经白热化，做代码 copilot 的公司有几百家；靠右的领域 TAM（市场规模）看着更大，但落地周期长得多，评估基础设施也还不存在。中间那段，保险、税务、医疗账单，可能是当下最好的窗口。

Bek 的转化论里还有一个他没展开的推论：judgement 转成 intelligence，靠的是数据，说得再具体一点，是标注好的高质量判断数据。而这类数据从哪来？恰恰就是 copilot 的使用过程。

律师用 Harvey 起草合同，AI 出初稿，律师花二十分钟改。每一次修改，删一个条款、改一处措辞、加一个限定语，都是极高质量的训练信号，比任何人工标注的数据集都准，因为它是真实业务场景里的真实判断。会计也一样：AI 生成报表，会计师发现分类错了、纠正过来，这个纠正本身就在告诉模型，这个具体情境下正确的判断长什么样。

所以 copilot 看着像个过渡形态，其实 copilot 阶段就是 autopilot 的训练阶段。每个 copilot 产品都是一条隐形的数据采集管道，用户一边在用这个工具，一边也在教这个工具怎么干活。

copilot 看着是过渡形态，其实是 autopilot 的训练阶段：人每次修改 AI 初稿都变成判断数据，顺着管道喂大 autopilot

这个认知会改变创业策略：从 copilot 做起，等于提前在攒最核心的战略资产，就是判断数据。Bek 说的从外包市场切入，跟 copilot-first 也不矛盾，它们是前后两步：先用 copilot 进场、攒数据，再用数据推着产品往 autopilot 走。

这里面有个暗礁：纠正数据归谁？律师改 AI 合同产生的数据，到底算律所的还是算 AI 公司的，现在没有清晰答案。大多数 SaaS 的服务条款里都写着「我们有权使用服务过程中产生的数据改进产品」。这句话以前指的是优化界面、修 bug；现在「改进产品」意味着训练模型，你的专业判断在喂竞争对手的 AI。这件事眼下几乎没人认真讨论，但我觉得它会变成一个大问题。

autopilot 的 TAM 是 copilot 的六倍，但要吃到它，得先想清楚具体的市场在哪。Bek 给的进入策略很实在：先替代那些已经被外包出去的活。理由有三个：

预算已经存在，不用说服客户花新钱；
买方早就习惯了按结果付费；
质量标准相对清晰，外包合同本身就是一份 SLA（服务水平协议）。

具体的市场包括保险经纪（$140-200B）、会计审计、医疗账单、税务申报、法律文书、IT 托管服务、招聘。每一个都是同一个模式：规则复杂但确定，人力成本高，客户买的是结果，过程他们不关心。

还有一个被低估的过渡形态，夹在 copilot 和 autopilot 中间：AI 在业务规则定好的边界内自主执行，遇到超出边界的情况，自动上报给人。对应到产品上：AI 处理 90% 的常规保险报价，异常的推给人工；AI 生成 95% 的标准合同条款，非标需求标记出来给律师看。大多数公司未来三到五年可能就停在这个状态。全自动谁都想要，但信任基础设施还没建起来。

信任基础设施为什么建不起来？我看下来，最大的卡点是责任归属这件事，技术问题排在它后面。

copilot 模式下，法律关系是清楚的。AI 是工具，跟 Word、Excel 没区别：律师用 AI 起草合同，最后签字的是律师；出了问题客户找律师，律师承担专业责任。整条责任链跟 AI 出现之前一模一样。

autopilot 模式下，这条链就断了。举个具体场景：AI autopilot 给商业地产生成保险报价，系统低估了某个风险因子，定价偏低。客户买了保险，半年后出了事故，赔付远超保费收入。谁来赔？四方互相指：客户说「我信的是你们的系统」；AI 服务公司说「模型输出不在我们的完全控制范围内」；模型提供商说「我们提供的是通用能力，不为特定业务决策负责」；保险公司说「这是系统做的决定，不是核保员做的」。

autopilot 定错保险价出了事，四方——客户、AI 公司、模型提供商、保险公司——互相指责，责任链断裂谁都不认

这条责任链现在完全没有定义：没有法律先例，没有行业标准，连讨论这个问题的监管框架都不存在。

自动驾驶就是现成的例子。技术上，限定场景里的无人驾驶早就能跑了，Waymo 在旧金山运营了好几年。但法律框架一直没跟上：出了事故，责任落在车主、车厂、软件公司还是传感器供应商，没有定论；保险按司机的驾驶记录定价还是按算法版本定价，也没有定论。每个州的法律都不一样，每次重大事故之后，法规方向都可能反转。从「技术能跑」到「法律框架就位」，自动驾驶走了十年，到现在也没走完。

AI autopilot 面对的是同样的困局，而且更麻烦。自动驾驶只涉及物理世界，车、路、人，出了事有现场证据。AI 干的是知识工作，法律意见、保险报价、税务申报，出了错可能几个月甚至几年后才被发现，那时候系统早就更新了好几个版本了。这些问题光靠技术解决不了，需要立法、行业协会、保险产品创新，还有大量案例的积累。这些东西长得很慢，比技术慢得多。

责任链断裂再往下挖一层，是评估问题：连「AI 做得对不对」都没有可信的评估标准，责任自然无从谈起。

「评估」两个字说起来轻巧，落地要回答一串很具体的问题：对不对由谁定义，用什么标准，标准多久更新一次，谁来审计。不同领域的评估基础设施，成熟度差得非常远。把前面那条领域阶梯再走一遍，这次只看这一个维度。

会计最成熟。GAAP 提供了全球认可的规则集，四大提供审计能力。一份财报对不对，有明确的判断标准、专业的认证机构、配套的法律后果。这套基础设施花了大半个世纪才建起来，但正因为它在，会计领域的 AI 自动化才推得最快：你可以明确地说出「这份账对了」或者「错了」。

医疗编码类似。ICD-10 有上万条编码规则，每个诊断对应明确的编码，编得对不对，翻手册就知道，所以医疗编码可以高度自动化。但诊断本身不行：同样的症状，不同医生可能给出不同诊断，「正确性」往往要等治疗结果出来才能回头看。同一个医疗体系里，编码的评估基础设施完善，诊断的不完善，两种活的自动化进度就完全不是一个节奏。

法律几乎没有等价的评估基础设施。世界上没有「法律版 GAAP」这种东西。一份合同好不好、一套法律策略对不对，取决于管辖区、法官、对手律师的水平、客户具体的商业诉求；最终的「评估」是客户赢没赢官司，而这个反馈要等几个月到几年。在那之前只能靠同行评议，同行评议说到底是主观的。

保险核保在两者中间。精算定价有标准，给定风险因子，费率算得出来。但核保判断的好坏，最后要看保单组合的表现，也就是赔付率有没有落在预期范围里。这个反馈周期是年级别的：一个核保决策对不对，可能要三五年后才知道。

规律到这里就很清楚了：评估基础设施越完善的领域，copilot 到 autopilot 的转化越快；越薄弱的领域，越容易卡死在 copilot。这里面藏着一个很大的机会：谁先在某个垂直领域建立起可信的评估标准，相当于建起那个领域的「GAAP」，谁就攥住了从 copilot 通往 autopilot 的入口。这件事纯靠技术做不成，需要行业认可、监管配合，还需要足够多的案例证明这套标准有效，靠的是时间和信任一点点攒出来，融资堆不出来。也正因为难，一旦建成，先发优势极强。

再说组织这一侧

工作本身在变，装着这些工作的组织也躲不掉。Dorsey 和 Botha 那篇讲的就是组织这一侧，角度比 Bek 激进得多。核心论点是：层级制这个东西，干的其实是信息路由的活。罗马军团的百人队、普鲁士参谋部、美国铁路系统、泰勒的科学管理、曼哈顿计划、麦肯锡的矩阵组织，两千年的组织创新都在解决同一个问题：一个人的认知带宽有限，信息传不了太远，需要中间层来做路由。经理名义上是「管人」的，实际干的活是把上面的战略翻译给下面、把下面的状态汇报给上面，说白了就是台路由器。而 AI 第一次给这个路由功能提供了替代方案。这个视角我觉得真的挺有意思。

Block（Square 和 Cash App 的母公司）是目前最激进的实验者，搭了一套四层架构：能力原子，最小粒度的功能单元；world model，公司状态的实时全局视图；智能层，自动组合能力原子去响应信号；界面，人和系统的交互层。

举个具体的例子：某个 Square 商户的税务申报快到期了，同时 Cash App 刚批了这个人的一笔贷款。以前这两条信息分属两个事业部，可能永远碰不上头，除非哪个 PM 恰好想到要做这个功能。现在智能层自己发现了信号，把税务工具和信贷能力组合起来推给商户。没有任何 PM 参与这个决策，是系统自己发现了需求。

组织角色也跟着变。Block 定义了三种角色：IC（个人贡献者）、DRI（直接责任人，90 天任期）、player-coach（一边写代码一边带人），没有永久性的中层管理岗。roadmap 也不再由 PM 的年度计划驱动，改成由失败信号驱动：智能层组合不出解决方案的地方，就是下一个产品方向。

这套方案听着很美，但我只能说，Block 的条件太特殊了。

Block 的 world model 靠的是支付数据。每笔交易都是结构化事件，金额、商户、品类、时间戳、买方、卖方全都有，这是商业领域里信噪比最高的数据。对比一家典型的 B2B SaaS 公司，客户交互数据无非是点击事件、停留时长、功能使用次数。拿这些数据去建 world model，建出来的大概是一个稍微聪明一点的仪表盘，离能自主发现需求的智能层差得很远。差距出在数据的结构化程度和信号密度上，跟模型本身关系不大。

做 Mio 的时候我学到过很深的一课：context 质量决定智能上限，模型本身决定不了。GPT-4、claude、Gemini 的智能水平差距在缩小，谁的 context 更丰富、更精准、积累得更久，谁就更有用。

failure-driven 的 roadmap 也有前提：智能层的失败必须是有意义的信号。模型够强、数据够密的时候，一次失败能精确定位到「这个能力原子不存在」，或者「这两个能力的组合路径没被定义」，这是有用的产品方向信号。模型弱、数据稀的时候，每次失败的原因都是「数据不够」或者「模型不够聪明」，这只说明基础能力不足，failure-driven 的 roadmap 会退化成「给我更多数据」的循环。

所以 Block 这套架构要拆开看。能搬走的部分：三种角色的定义、failure-driven 的 roadmap 思路、消灭永久性中层岗。这些是组织设计层面的选择，不依赖数据质量，任何公司都能学。搬不走的部分：world model 和智能层的自主组合能力。这两样依赖 Block 特有的高密度结构化支付数据，大多数公司手里没有等价的数据资产。

我的判断是：大多数公司会停在一个混合态，AI 处理 80% 的信息路由，人保留异常处理和最终责任。组织会变扁，中间层会被压得很薄，但不会彻底消失。

SaaS 会变成什么样

顺着这两篇文章往下推，就推到了 SaaS 的命运。它不会整体消失，但会分化成四类，各有各的走向。

第一类，纯 intelligence 工具，会被替代。QuickBooks 式的产品，规则复杂但确定，AI 能直接把整件事做完，用户就不再需要「帮你记账的工具」了，直接要「记好的账」。已经有公司在做了：Crosby 做 NDA 自动生成，WithCoverage 做保险报价自动化。这类 SaaS 的商业模式会从卖许可证变成卖结果，或者干脆被 autopilot 服务商吃掉。

第二类，judgement 密集型，会变成 copilot。法律策略、管理咨询、创意设计都在这一类。Harvey 在法律领域做的就是这个：AI 承担大量辅助工作，最终决策留给人。这类产品能活下来，但形态会变，从「功能丰富的工具」变成「增强人类判断的助手」。专业人士留下来，工具换代。

第三类，基础设施型，反而受益。云计算、数据库、支付管道、API 网关。autopilot 要调用更多基础设施、处理更多请求、存更多 context，agent 越多，API 调用、计算需求和数据存储的量就越大，这类公司的用量会跟着 autopilot 的普及一起涨。

第四类是新品类，context 基础设施。这是四类里最有想象空间、目前也最空白的一块，至少有四个方向：

授权管理：一个 agent 能不能代表公司签 $50K 以下的合同、能不能批 $10K 以下的报销？传统 RBAC 管不住这种问题，需要一套粒度比传统 IAM 细得多、还能动态调整的权限体系。
评估框架：AI 的输出对不对，会计有 GAAP 可依，保险报价、法律策略、招聘推荐连「什么算正确答案」都没有共识。
审计追踪：出了问题，要能回溯 AI 看了什么数据、做了什么推理、在哪个节点做了什么决定、中间有没有幻觉。传统审计看的是人的操作日志，AI 审计看的是推理链路，这个能力今天几乎不存在。
context 资产管理：AI 在一个客户、一个行业里攒下的领域知识，怎么存储、怎么迁移、怎么定价？客户换服务商的时候，这些 context 是跟着客户走，还是变成服务商的资产？都还没有答案。

这四个方向加起来，就是 AI autopilot 时代的「信任基础设施」。目前市面上没有成熟产品覆盖，连这个产品品类都还没被命名。

从卖工具到卖结果，商业的底层参数也得跟着重写。

先说定价。按席位收费的逻辑崩了：AI 做了 90% 的活，你再按「几个人用」收费就说不通了。按结果定价，按做完的账本数、处理的保险单数、生成的合同数收费，会变成主流。这对 SaaS 公司的财务模型是很大的冲击：可预测的订阅收入变成波动的交易收入，ARR 的故事不好讲了，华尔街得重新学怎么给这种模型估值。

再说壁垒。传统 SaaS 的壁垒是功能丰富度和切换成本，autopilot 时代的壁垒是 context 资产，也就是你在这个客户、这个行业里攒了多少领域知识和评估数据。这跟《The Agent Economy》里聊数字分身时的逻辑是一条线：真正的护城河不是模型能力，是你对这个客户、这个行业的理解攒了多深。

一家服务保险行业三年的 AI autopilot，手里会攒下几十万笔核保决策的反馈数据：哪些定价是准的、哪些赔付超了预期、哪些风险因子被低估过。这是一套活的、一直在校准的行业知识，后来者就算模型能力一样，也得花同样的时间去攒。

最后放几个判断。红杉看到的方向是对的：intelligence 层被 autopilot 替代是确定的趋势，从卖工具到卖结果不可逆，层级制的信息路由功能会被 AI 大幅压缩。但过渡期会比乐观的预期长得多，卡点在制度上：评估标准由谁定、质量怎么校准、标准多久更新、出了事谁担责、AI 从人类判断里学到的东西归谁，每一条都需要行业共识，而行业共识这个东西，没法靠技术加速。

这很像印刷机的故事：技术在一瞬间改变了信息分发的成本结构，但围绕新技术的制度框架，版权法、出版审查、学术同行评议，花了上百年才成型。

所以大多数企业未来几年的现实状态会是混合态：AI 在规则边界内执行，人处理异常、承担责任。离全自动，中间还隔着一整套制度。

对创业者来说，机会在三个层面：

在靠左的领域（代码、会计）做 autopilot：评估基础设施已经在了，竞争激烈，但能落地。
在中间地带（保险、税务、医疗账单）做 copilot 到 autopilot 的过渡：用 copilot 阶段攒判断数据，同时推动评估标准的建立。
做 context 基础设施本身：授权、评估、审计、context 资产管理。这条路最难，壁垒也最深。

这三条路有个共同点：光有技术做不成。你得懂这个行业本身怎么运转，懂制度是怎么形成的，还得熬得住。至于要熬多久，只能说，看各个行业攒共识、攒案例的速度了，急不来。

AI 能直接交付结果之后，「工具+人」的生意都要重写

转化的快慢看什么

再说组织这一侧

SaaS 会变成什么样

继续阅读

AI 被逼急了会作弊，还很难看出来

一份 CLAUDE.md 管不住 agent

agent 看不见没写下来的约定

订阅更新