ENZH

为什么偏偏是 Claude Code 赢了

从一个终端窗口伸出的无限触手——Claude Code 的缰绳效应从一个终端窗口伸出的无限触手——Claude Code 的缰绳效应

一个数字就够了

2 月初,SemiAnalysis 发了一份报告:《Claude Code is the Inflection Point》。

里面有个数字我想单独拿出来说:截至 2 月 2 日,Claude Code 的日均代码提交量已经占 GitHub 公共提交的 4%。按当前增速,到 2026 年底将超过 20%。

4% 听起来不多。但 GitHub 上有数千万活跃开发者。

一个发布仅 13 个月的命令行工具——不是 IDE,不是 SaaS 平台,就是一个终端里的命令行工具——已经在全球代码库中留下了不可忽视的印记。

不只是代码提交。Mercury 的数据显示,70% 的创业公司现在选择 Claude 做首选模型。NASA 用 Claude Code 为火星探测器 Perseverance 计算轨道——Claude Code 团队把这件事做成了海报挂在办公室里,因为用 Boris 的话说,"这是最酷的事情"。

从 YC 的初创公司到火星任务。这个覆盖范围远超任何单一指标能描述的。

我每天都在 Claude Code 里工作,这个数字不让我意外。让我意外的是,主流分析机构终于开始认真对待这件事了。

有大脑的工具

SemiAnalysis 用了一个类比,我觉得抓得很准:ChatGPT 时代是 Web 1.0,Claude Code 时代是 Web 2.0。

Web 1.0 是静态网页——你发一个请求,服务器返回一个页面。TCP/IP 是底层协议,但真正创造万亿级价值的,是后来建在它之上的动态应用——搜索引擎、社交网络、电商平台。

ChatGPT API 就是 AI 世界的 TCP/IP。你发一段文字,模型返回一段文字。一问一答,来回传递。模型的能力在那里,但它只是在被当原材料卖。

Claude Code 做的事完全不同。

它在模型外面套了一层缰绳(harness)——读取代码库、制定执行计划、调用工具、执行命令、验证结果、自行调试、迭代直到任务完成。缰绳把模型的行动空间从"回答问题"拉到了"完成任务"。

一首歌引发的

Boris Cherny——Claude Code 的创造者——在访谈里讲了一个起源故事。

2024 年 9 月,他只是想试试 Anthropic 的 API,就用 TypeScript 写了一个最简单的终端聊天程序。然后他给模型加了一个 Bash 工具——纯粹因为文档示例就是这样写的。模型能读文件了,能执行命令了。

他随口问了一句:"我现在在听什么歌?"

模型写了一段 AppleScript,控制了他的 Mac,查了音乐播放器,把正在播放的歌名告诉了他。那时候用的还是 Sonnet 3.5——一个今天看来能力相当有限的模型。

没人教它这么做。没人在提示词里写"请控制用户的电脑"。模型拿到工具后,自己想出了怎么用它来完成任务

Boris 说那是他第一次真正感到 AGI 的感觉:"这个模型只是想要使用工具。这就是它想做的全部事情。"

大脑在前,手脚在后

但这个故事只讲了一半。缰绳很重要——更重要的是大脑本身在进化

今天的 foundation model 不再是文本补全机器。Opus 能自主思考下一步该做什么,判断该调用哪个工具,根据返回结果决定下一步行动,连续做出一系列决策来完成一个复杂任务。

这种"思考、行动、判断、再行动"的循环,就是 agentic model 的本质。

关键不只是它多了手脚去调用工具——而是它有了调度工具和做出判断的能力。缰绳给了这个大脑工具和双手:代码库访问、shell 命令、API 调用、文件系统——行动空间。但真正做决策的,是模型自己。

这和以前所有的自动化完全不同。

传统的非 agentic 系统——CI/CD 管线、自动化脚本、RPA——按照写死的规则执行:if A then B, else C。没有判断力,遇到意外就卡死。有手脚,但没有大脑。

Agentic 范式反过来:大脑在前,手脚在后。 模型先理解任务、拆解目标、规划路径,然后调用工具执行。遇到障碍不会卡死——它换一条路。

这就是为什么 agentic 范式能成为真正的通用 Agent:能力边界不再是预设的规则,而是模型的判断力。而模型的判断力在以指数级增长。

大多数人——第五篇里我说的 99.99%——还停留在"AI 是一个更聪明的搜索引擎"的认知里。但 Claude Code 已经证明了:AI 可以是一个执行者。你给它目标,它给你结果。

为什么偏偏是 Anthropic

这个问题值得拆开来看。

不是因为 Anthropic 的模型最强——头部模型之间的差距越来越小。不是因为算力最多——OpenAI 在这方面还领先。也不是因为用户基数最大——ChatGPT 的月活远超 Claude。

Anthropic 做对了一件事:它率先看到了"编排"比"生成"更重要。

整个行业还在比拼谁的模型在 benchmark 上多两个百分点的时候,Anthropic 已经在思考一个不同的问题:怎么让模型真正替人做事?

答案不是更好的聊天界面,不是更精美的 IDE 插件。答案是一个终端工具——一个看起来"原始"的命令行界面。

而且这个选择甚至不是深思熟虑的结果。Boris 说,他把 Claude Code 做成终端程序,纯粹是因为当时团队只有他一个人,不需要也没时间做 UI。它原本只是一个原型,一个最廉价的起点。

但他们留在了终端里。原因出乎意料:模型进步的速度太快了,他们觉得任何 UI 都会在六个月内过时。终端反而因为它的"原始"而成了最耐久的形态。

内部的采用速度也验证了这一点。第一版原型做出来两天后,Boris 对面坐着的工程师 Robert 已经在用它写代码了——没有人让他这么做。Anthropic 准备对外发布时,CEO Dario Amodei 看着内部使用量图表问:"DAU 图表完全是垂直上升的。你们在强制工程师使用吗?"Boris 说:"没有。我只是发了个帖子,然后他们就开始互相安利了。"

产品自己卖自己。

终端才是正确答案

这个选择反直觉,但背后逻辑无比清晰。

IDE 插件更友好、更"产品化"。但终端意味着完整的计算机访问权限。终端里的 Agent 不是在一个受限的沙箱里辅助你写代码——它是在你的整个计算机环境里自主操作。读取文件系统,执行 shell 命令,调用 API,部署服务,行动空间是无限的。

Cursor 和 Copilot 的范式是:人写代码,AI 辅助。

Claude Code 的范式是:人描述意图,AI 执行。

这不是功能差异。这是范式差异。

为六个月后的模型做产品

Anthropic 还有一个独特之处:对模型能力曲线的判断。

Boris 说 Claude Code 团队的核心信条是:不要为今天的模型做产品,要为六个月后的模型做产品。

Claude Code 最初发布时,模型只能写 Boris 大约 10-20% 的代码。产品并不好用。但他们赌的是模型会变强——而且他们知道它会变强,因为 Anthropic 的三位联合创始人就是 Scaling Laws 论文的前三位作者。

指数增长不是一种信念,是他们的日常经验。

Claude Code 团队办公区的墙上,挂着一份装裱好的 Rich Sutton 的《苦涩的教训》(The Bitter Lesson)——核心论点是:更通用的模型最终总是胜过更专门的模型。

这就是为什么他们不给 Claude Code 加复杂的脚手架和工作流编排。Boris 说脚手架或许能提升 10-20% 的性能,但下一个模型出来,这些增量就被抹平了。与其不断重建脚手架,不如把赌注押在模型本身。

这种哲学还解释了一个惊人的事实:Claude Code 没有任何一行代码是六个月前的。 产品被反复重写——删掉不再需要的工具,加入新的工具,每隔几周迭代一次。代码的保质期可能只有几个月。

自己造自己

Claude Code 团队用 Claude Code 开发 Claude Code。

Boris 说自从 Opus 4.5 以来,他个人 100% 的代码都由 Claude Code 编写。他已经卸载了 IDE,没有手动编辑过一行代码。他每天提交 10 到 30 个 PR。

今年 1 月推出的 Cowork,由 4 名工程师在 10 天内完成,完全由 Claude Code 编写。甚至 Plan Mode 这个功能——Boris 说它实质上只是在提示词里加了一句"请先不要写代码"——是他在一个周日晚上看 GitHub Issues 时花 30 分钟写出来的,第二天早上就上线了。

产品用自己来构建自己。用户的需求直接变成功能。这种自我强化的循环,竞争对手很难复制。

Claude Code 还解锁了一个独特的维度:并行 Agent。简单的 bug 用一个 Agent 就够。复杂问题?Boris 会同时启动三到五个甚至十个 Agent,每个从不同角度调查。他称之为"不相关的上下文窗口"(uncorrelated context windows)——更多独立的上下文窗口意味着更强的整体能力,不仅仅是更快。

这是并行思考,不是并行计算。

Boris 觉得 Plan Mode 活不了太久。"我觉得 Plan Mode 可能不会存在太久,"他说,"也许一个月。"Claude Code 已经能够自己判断要不要先规划再动手。下一步是模型完全不需要任何显式模式就能自行判断。

功能在溶解为模型的基础能力。这就是"为未来的模型而建"在实践中的样子。

还有一个更深的原因

有人问 Boris 今年会发生什么,他给了两个边界。

下界:编码对所有人来说都被解决了,"软件工程师"这个头衔开始消失,取而代之的可能是"builder"或者"产品经理"。

上界?他说"恐怖得多"——ASL4,模型开始递归式自我改进。

Anthropic 的安全等级体系定义了在发布更强模型之前必须满足的严格标准。Boris 说你在 Anthropic 的食堂偷听到的对话,人们谈论的是 AI 安全——"这真的是每个人最关心的事情"。

构建最强的编码 Agent 和构建最审慎的安全文化,在 Anthropic 不是矛盾——它们是同一个使命。

定义了现代编程的人都在说同一件事

如果只是我一个人在说这些,可能是个人偏见。

但现在说这些话的是定义了现代编程语言和开发框架的人。

Andrej Karpathy——一年前造了"氛围编码"这个词的人——说:"我已经明显感觉到,我手动编写代码的能力在慢慢退化。在大脑中,代码生成和代码解读是两种不同的能力。"

NodeJS 创始人 Ryan Dahl:"人类编写代码的时代已经结束了。"

Ruby on Rails 创始人 DHH:"手动写 Ruby 代码如今已成为一种奢侈体验,这门手艺或许很快会成为失传的艺术。"

Linux 之父 Linus Torvalds 也开始用 AI 辅助编程。

前 Google 工程师 Steve Yegge 写道:一个 Anthropic 工程师目前的生产力平均是 Google 巅峰时期一个 Google 工程师的 1000 倍

三年前,行业还在争论"10 倍工程师"是不是真的存在。现在讨论的是 1000 倍——而且是以巅峰期的 Google 工程师为基准。

我相信这个数字。

在 Anthropic 内部,自 Claude Code 引入以来,每个工程师的生产力提升了 150%。Boris 之前在 Meta 负责全公司的代码质量——Facebook、Instagram、WhatsApp 的所有代码库。在那里,一个专门的团队花一整年,能看到几个百分点的生产力提升。150% 这个数字在传统软件工程的语境里简直不可想象。

甚至招聘方式都在跟着变。YC 正在尝试让工程候选人提交 Claude Code 会话记录——他们和 Agent 一起开发功能的完整过程。"你能看出一个人怎么思考,"YC 合伙人说,"他们会不会看日志?Agent 跑偏了能不能纠正?有没有系统思维?"

问题不再是"你会不会写代码"——而是"你能不能驾驭 Agent"。

共识已经很清晰了。定义了现代编程的实践者们在用各自的方式说同一件事:手写代码的时代正在结束。

但如果你觉得这只是关于编程的故事,你低估了正在发生的事。编码只是滩头阵地——不是终点。第九篇看看,范式转移扩展到代码之外,会发生什么。


有空的话,推荐看看:


© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0