ENZH

把 AI 当工具的人,还在和 24 小时死磕

一个人握着缰绳,身前是一匹由机械和电路构成、正在向前奔跑的骏马——人掌舵,机器出力一个人握着缰绳,身前是一匹由机械和电路构成、正在向前奔跑的骏马——人掌舵,机器出力

硅谷101 最近这期,泓君请来 Creao 三个创始人,聊怎么把一家公司改造成 AI 主导的组织。反复听了两遍。

钩子很猛。二十五个人的公司,CTO Peter 说 99% 代码是 AI 写的。一个功能上午十点写出来,中午跑 A/B 测试,下午三点根据数据砍掉一半,五点又重写了更好的版本。放以前的开发流程,六周。

最扎我的不是这些数字。


先把话说前头。99%、每天部署三到八次、二十万用户,全是 Creao 自己报的,没有第三方审过代码库和部署日志。当营销听,打个折。

真正扎我的是另一句话。CEO 程凯说,行业现在卡在两个坑里,一个是人还在一步步操作 AI 工具,生产力会撞到天花板;另一个是造工具的还只有人,真正的 AI 革命还没开始。

这句话倒回去听了三遍。把一件一直觉得别扭、却没说清楚的事,一刀切开了。

大多数人现在用 AI,是当更快的工具。写代码补全,写文档起草,做图出几版。每人手里多了一个外挂,效率确实涨了点。

这套用法有个上限,低得吓人。


把 AI 当工具,就在跟 24 小时死磕

工具的逻辑:人发起一件事,AI 帮人加速,做完人再发起下一件。瓶颈始终是那个发起的人。

一天只有 24 小时。手再快,能同时盯的活就几件。哪怕每件事提速十倍,整个人产出上限还是被这具肉身锁死。Creao 那边说法是,工具用户的提速天花板大概就是十倍。

自己踩过这条线。两个月里把 AI 工作流推倒重来四次,最早裸着用——主线程读文件、改文件、跑测试,稍大点的活就把上下文塞满了。问题不在工具不好,在我还坐在发起的位置上,所有事得过我这一道。

后来真正解放是从不再亲手发起每件事开始。五个 agent 同时干活,不再是那个一行行操作的人,变成那个看结果、定方向的人。产出就不是十倍的问题了。

这就是程凯说的第一个坑和第二个坑的区别。坑里人跟 24 小时较劲,坑外人已经不跟时间较劲了。


难的从来不是模型,是模型外面那层系统

怎么跳出坑?播客里反复提到一个词,harness,挽具,套在马身上引导和约束的那套装备。

这词最近硅谷确实火。得替清醒的人说句话,没那么新。早就有人指出,test harness、eval harness 这些说法老早就有,往上还有中间件、平台工程,讲的是同一件事——围绕一个会动的核心,搭一套合理的工程环境。有个叫 Stuart Miller 的工程师说得挺狠,harness 这股热度会过去,可能十八个月后换成另一个词,但这门老手艺一直在。

他是对的。不妨碍底下那件事是真的。

最硬的证据来自 LangChain 做的实验。模型完全不动,只改外面那层系统,同一个 agent 在 Terminal-Bench 上从 52.8% 涨到 66.5%。涨了近十四个点,靠的不是更聪明的模型,是更好的系统设计。

OpenAI 自己也发过一篇工程博客,标题就叫 harness engineering。五个月、零行手写代码搭起一个内部产品,一百万行代码、一千五百个 PR,背后只有三个工程师在驱动 Codex。文章里有句话抄了下来,Humans steer, agents execute,人掌舵,AI 划桨。还有一句意思更直接——难的不是 agent,是外面那层系统。

这才是程凯说的"把 AI 当系统"的意思。模型谁都能调 API,难的是围绕它建一套会自愈、会自己迭代的系统。这跟之前折腾的那种 solo dev 工具层 harness不是一个量级——那是给一个人配引擎,这是把整家公司变成一台引擎。


人往后退一步,手里只剩两件事

系统转起来后,人去哪了?

最值得单聊的部分。人的角色,要从 AI 工具的使用者,变成 AI 产出的审核者,加上给出高层意图的人。

不是 Creao 一家的想法。Karpathy 去年在 YC 那场演讲讲得最透。他说哪怕 AI 瞬间吐出一万行代码,他还是瓶颈,得确认没引入 bug、没安全问题、做的是对的事。然后说了句分量很重的话——AI 在做生成,人在做验证,让这个生成-验证的循环转得越快越好。

又是两个循环。工具用户活在生成循环,亲手生成,受困于 24 小时。系统编排者活在验证循环的出口,AI 占满生成,人只给意图、收结果。

Karpathy 还给了更具体的说法,keep the AI on the leash,别让它一次性吐一万行,拴在一个看得过来的节奏上。Ethan Mollick 说的是同一件事另一面——以后核心技能不再是写提示词,是委派和编排,定义任务、划定边界、给材料、然后验证产出。

Peter 那句话更直白。物理 PhD 出身,他说 PhD 教会他最有用的不是写代码,是质疑假设、压力测试论点、找出缺了什么。所以他下了判断,质疑 AI 的能力,会比生产代码的能力更值钱。

之前聊的道升术降是同一件事往下走。那篇说的是术在贬值、道在升值。这篇要说的是,道具体落哪——落在能不能给出好意图,以及能不能审出 AI 的错。也一直觉得,未来人更像是在管 AI,不是替 AI 干活

Anthropic 的工程文章给了人这个新位置一个特别具体的落点。长任务的 agent 有个失败模式,叫 declare victory early,过早宣布胜利。跟你说搞定了,其实没搞定。人在系统里最不可替代的价值,可能就是当那个不被假胜利骗过去的人。


可"审产出"这道关,正在被自己淹没

讲到这得停一下,讲这套逻辑的代价。不讲代价,就成了又一篇 AI 鸡汤。

人退到审核位,听着很美。问题是审核这道关本身正在被淹没。

Faros AI 跟踪了一万多个开发者。高强度用 AI 的团队,确实多完成 21% 的任务、多合并了将近一倍的 PR。代价是单个 PR 体积涨了 154%,评审中位时间涨了 91%,bug 多了 9%,最后真正交付的速度指标没动。到 2026 年跟进数据,评审时间飙到涨 441%,连成熟团队都没躲过。

生成端被 AI 加速了几倍,验证端还是用人脑读代码的速度。水越灌越快,闸门没变宽。

安全更是硬骨头。Veracode 拿八十个编码任务、一百多个模型测下来,将近一半代码没通过安全测试,Java 最惨,失败率 72%。最刺人的是这句结论——模型越做越大,写出来的代码语法更对了,安全性几乎没改善。换更强的模型救不了这一关,只能靠人,或者靠人设计的另一道验证系统。

还有更打脸的。METR 去年做过随机对照实验,找十六个资深开发者干真实活。结果用了 AI 的,实际慢了 19%。可事前预测自己会快 24%,干完了还觉得自己快了 20%。

包括 Creao 在内,所有自报的百倍提速,底层都站在这种不太可靠的自我感觉上。感知鸿沟,才是真正该警惕的。

诚实补一句,METR 自己今年跟进数据反转了,回流开发者现在显示更快。真正站得住结论不是"AI 让你更慢",是那个感知鸿沟,以及瓶颈从生成挪到了验证。


真重构和拿 AI 当遮羞布,差的就是这一步

最后说组织这层,这才是播客的题眼。

市面上一堆公司在喊 AI-First,里头分两种,差别大到不能放一起说。

一种是真重构。Shopify 的 CEO 发过内部信,要求加人之前先证明 AI 干不了这活,AI 熟练度还进了绩效。这家没裁员,反把实习生项目从七十五个扩到一千个目标,因为实习生最会创造性用 AI。IBM 用 AI 自动化了 94% 的例行 HR 工作、砍了大概两百个岗,总人数反而涨了,省下的三十多亿美元生产力收益投回了工程和销售。

另一种是拿 AI 当遮羞布。Klarna 是最经典的反面教材。客服机器人当年吹能干几百个客服的活、省下几千万美元,两年后 CEO 自己承认,成本被当成压倒一切的评价标准,换来的是更低质量,只好又把人请回来。Forrester 直接叫它"糟糕 AI 部署的活教材"。

这两种的差别,恰好就是程凯说的系统和工具的差别。真 AI-First 是重新设计工作流,让省下的人力做更高价值的事;假 AI-First 把 AI 当裁员理由,砍完发现质量崩了再花钱补。

后面这种正在大规模发生。Gartner 预测,到 2027 年,一半因为 AI 裁员的公司会重新招人,常常还给那人安个管 AI 的新头衔。跟当年一窝蜂把外包当万灵药、最后返工成本更高,同一个剧本。

所以判断一家公司是不是真的 AI-First,别看喊多响,看省下来的人力投回了增长还是直接落进利润表。


把 AI 当工具的人,还在和 24 小时死磕,速度上限十倍。把 AI 当系统的人,重构了整条工作流,这才是百倍往上的入口。

这条路没有播客里听上去那么爽。harness 会过时,自报数字要打折,验证这道关正在被自己淹没。恰恰因为这些,人往后退的那一步才更不可替代——当生成变得几乎免费,当模型写不出安全代码,当 agent 笑着说搞定了其实没有,那个能给出好意图、能审出错、能说不对的人,成了系统里最贵的零件。

碰撞回响Part 4 of 7
← PrevNext →

© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0