把 AI 当工具用，瓶颈永远是发起的人

一个人握着缰绳，身前是一匹由机械和电路构成、正在向前奔跑的骏马——人掌舵，机器出力

硅谷101 最近这期，泓君请了 Creao 的三个创始人，聊怎么把一家公司改造成一个 AI 主导的组织。我反复听了两遍，感觉它把一件我一直觉得别扭、但一直没说清楚的事情给讲清楚了。

他们是一家二十五个人的公司，CTO Peter 说 99% 的代码是 AI 写的。节奏大概长这样：一个功能上午十点写出来，中午跑 A/B 测试，下午三点根据数据砍掉一半，五点又重写了一个更好的版本。放在以前的开发流程里，这一圈大概要六周。不过得说清楚，99% 也好，每天部署三到八次也好，二十万用户也好，全是 Creao 自己报的，没有第三方审过他们的代码库和部署日志，这些数字当营销听就行，打个折。不知道能信几成，但我只能说，数字打完折，背后那个逻辑还是成立的。

真正让我倒回去听了三遍的，是 CEO 程凯的一个说法。他说行业现在卡在两个坑里：一个是人还在一步一步操作 AI 工具，这样生产力会撞到天花板；另一个是造工具的还只有人，所以真正的 AI 革命还没开始。这两句话把事情切得很干净。

把 AI 当工具用，瓶颈永远是发起的人

大多数人现在用 AI，是把它当一个更快的工具：写代码有补全，写文档有起草，做图一次出几版。每个人手里多了一个外挂，效率确实涨了一点。但工具的逻辑是这样的：人发起一件事，AI 帮你加速，做完了人再发起下一件。瓶颈始终是那个发起的人。一天就 24 小时，你手再快，能同时盯的活也就几件，哪怕每件事都提速十倍，你整个人的产出上限还是被锁死的。Creao 那边的说法是，工具用户的提速天花板大概就是十倍。

这条线我自己踩过。两个月里我把自己的 AI 工作流推倒重来了四次，最早就是裸着用：主线程读文件、改文件、跑测试，活稍微大一点 context 就塞满了。后来想明白，问题不在工具不好，在我自己还坐在发起的位置上，所有事都得过我这一道。真正的解放是从不再亲手发起每一件事开始的：五个 agent 同时干活，我不再是那个一行行操作的人，变成看结果、定方向的人。到了这个形态，产出就不是十倍的问题了。这其实就是程凯说的第一个坑：只要你还在一步步操作，产出就挂死在你自己的时间上。

难的不是模型，是模型外面那层系统

那怎么跳出来？播客里反复提到一个词，harness（挽具），就是套在马身上、引导和约束它的那套装备。这个词最近在硅谷确实很火，不过得先替清醒的人说一句：它没那么新。test harness、eval harness 这些说法老早就有了，再往上还有中间件、平台工程，讲的其实是同一件事——围绕一个会动的核心，搭一套合理的工程环境。有个叫 Stuart Miller 的工程师说得挺直接，harness 这股热度会过去，可能十八个月之后就换成另一个词，但这门老手艺一直在。我觉得他说得对，但这不妨碍底下那件事是真的。

证据里最硬的是 LangChain 做的实验：模型完全不动，只改外面那层系统，同一个 agent 在 Terminal-Bench 上从 52.8% 涨到 66.5%，接近十四个点。靠的不是更聪明的模型，是更好的系统设计。OpenAI 自己也发过一篇工程博客，标题就叫 harness engineering：五个月、零行手写代码，搭起来一个内部产品，一百万行代码、一千五百个 PR，背后只有三个工程师在驱动 codex。文章里有一句话我抄了下来，意思是人掌舵，agent 执行。还有一句意思更直接：难的不是 agent，是 agent 外面那层系统。

这才是「把 AI 当系统」的意思。调模型 API 谁都会，难的是围绕它建一套会自愈、会自己迭代的系统。这跟我之前折腾的那种 solo dev 工具层 harness还不是一个量级——那个说到底是给我一个人提速，这个是把整家公司的工作流整个重做一遍。

把 AI 当工具的人被 24 小时锁死、封顶十倍；把 AI 当系统的人退后只给意图审产出，机器满负荷跑，才够得着百倍

人退到哪里去：给意图，审产出

系统转起来之后，人去哪了？播客里的说法是，人的角色要从 AI 工具的使用者，变成 AI 产出的审核者，再加上给出 high-level 意图的人。这不是 Creao 一家的想法。Karpathy 去年在 YC 那场演讲讲得挺透的：哪怕 AI 瞬间给他吐一万行代码，他自己还是瓶颈，因为他得确认这些代码没引入 bug、没有安全问题、做的是对的事。所以他说，AI 在做生成，人在做验证，你要做的是让这个生成-验证的循环转得越快越好。他还给了一个很具体的操作建议：别让 AI 一次性吐一万行，把它拴在一个你看得过来的节奏上，他原话用的词是 leash，拴狗那根绳。拿这个循环去套前面那两个坑也是成立的。还把 AI 当工具用的人，等于自己亲手泡在生成循环里，24 小时就是这么被吃掉的。跳出来的人干的是另一件事：生成整个交给 AI 去占满，自己守在验证那一头，给意图，收结果。

Ethan Mollick 讲的是同一件事的另一面：以后的核心技能不再是写 prompt，是委派和编排——定义任务、划边界、给材料、然后验证产出。Peter 那句更直白，他是物理 PhD 出身，说 PhD 教会他最有用的东西不是写代码，是质疑假设、压力测试论点、找出缺了什么。所以他的判断是，质疑 AI 的能力，会比生产代码的能力更值钱。

这跟我之前写的道升术降是同一条线往下走：那篇说术在贬值、道在升值，这篇等于把道落到了具体的位置——你能不能给出好的意图，以及你能不能审出 AI 的错。我也一直觉得未来人更像是在管 AI，不是替 AI 干活。Anthropic 的工程文章还给了一个特别具体的注脚：长任务 agent 有个失败模式，叫 declare victory early，过早宣布胜利，跟你说搞定了，其实没搞定。人在这套系统里最不可替代的价值，可能就是当那个不被假胜利骗过去的人。

验证这道关正在被淹没

不过这套逻辑有个代价，得讲清楚，不然就成了又一篇 AI 爽文。人退到审核位之后，审核这道关自己先被淹没了。Faros AI 跟踪了一万多个开发者：高强度用 AI 的团队，确实多完成了 21% 的任务，合并的 PR 差不多翻倍；但单个 PR 的体积涨了 154%，评审的中位时间涨了 91%，bug 多了 9%，最后真正交付的速度指标没动。到 2026 年的跟进数据，评审时间涨到了 441%，连成熟团队都没躲过去。也就是说，生成端被 AI 加速了几倍，验证端还是人脑读代码的速度，这个差距还在拉大。

生成端被 AI 加速了几倍，验证端还是人脑读代码的速度，代码越积越多，把守在审核位的人淹没

安全这块更难看。Veracode 拿八十个编码任务、一百多个模型测下来，接近一半的代码没通过安全测试，Java 最惨，失败率 72%。他们的结论挺扎眼的：模型越做越大，写出来的代码语法更对了，但安全性几乎没改善。也就是说，换更强的模型救不了这一关，只能靠人，或者靠人设计的另一道验证系统。

还有一个更打脸的数据。METR 去年做过一个随机对照实验，找了十六个资深开发者干真实的活，结果用 AI 的那组实际慢了 19%；但他们事前预测自己会快 24%，干完了还觉得自己快了 20%。这个感知和现实的差距，我觉得才是真正要警惕的：包括 Creao 在内，所有自报的百倍提速，底层都站在这种不太可靠的自我感觉上。诚实补一句，METR 今年的跟进数据反转了，回流的开发者现在显示更快。所以真正站得住的结论不是「AI 让你更慢」，是这个感知差距真实存在，以及瓶颈确实从生成挪到了验证。

真 AI-First 和假 AI-First

最后说组织这层，这才是这期播客的题眼。市面上一堆公司在喊 AI-First，里头其实分两种，差别大到不能放一起说。

一种是真的在重构。Shopify 的 CEO 发过内部信，要求加人之前先证明这活 AI 干不了，AI 熟练度还进了绩效考核。这家没裁员，反而把实习生项目从七十五个扩到一千个的目标，理由是实习生最会创造性地用 AI。IBM 用 AI 自动化了 94% 的例行 HR 工作，砍了大概两百个岗位，但总人数反而涨了，省下来的三十多亿美元生产力收益投回了工程和销售。

另一种是拿 AI 当裁员的理由。Klarna 是最经典的反面教材：客服机器人当年吹能干几百个客服的活、省下几千万美元，两年后 CEO 自己承认，成本被当成了压倒一切的评价标准，换来的是更低的质量，只好又把人请回来。Forrester 直接管它叫「糟糕 AI 部署的活教材」。Gartner 的预测是，到 2027 年，一半因为 AI 裁员的公司会重新把人招回来，而且经常还要给那个人安一个管 AI 的新头衔。这跟当年一窝蜂把外包当万灵药、最后返工成本更高，是同一个剧本。

这两种的差别，其实还是程凯说的系统和工具那个差别。真在重构的公司，是把工作流重新设计了一遍，省下来的人力挪去干更值钱的事。另一种就是拿 AI 当裁员理由，砍完发现质量崩了，再花钱把人请回来。所以看一家公司是不是真的 AI-First，别听它喊得多响，看它省下来的人力去了哪，是投回了增长，还是直接落进了利润表。

判断真假 AI-First 的分岔：省下来的人力要么投回增长，要么落进利润表——落进利润表的那条路最后又得把人重新招回来

回到开头那两个坑。工具那条路我自己走过，提速是真的，天花板也是真的，一天就 24 小时摆在那。系统那条路才有机会摸到百倍的量级，但它没有播客里听起来那么爽：harness 这个词会过时，自报的数字要打折，验证这道关正在被淹没。我只能说，恰恰因为验证跟不上，人退后去做的那两件事——给意图、审产出——反而越来越值钱。生成快要不值钱了，这个我现在挺确定的；审这道关自己怎么也跟着提速，我还没看到谁讲清楚。

把 AI 当工具用，瓶颈永远是发起的人

把 AI 当工具用，瓶颈永远是发起的人

难的不是模型，是模型外面那层系统

人退到哪里去：给意图，审产出

验证这道关正在被淹没

真 AI-First 和假 AI-First

继续阅读

员工手册就是给人写的 system prompt

道的重要性提高很多，术降低很多

教育的瓶颈从谁来教搬到了想不想学

订阅更新