为什么偏偏是 Claude Code 赢了

从一个终端窗口伸出的无限触手——Claude Code 的缰绳效应从一个终端窗口伸出的无限触手——Claude Code 的缰绳效应

一个数字就够了

2 月初，SemiAnalysis 发了一份报告：《Claude Code is the Inflection Point》。

里面有个数字我想单独拿出来说：截至 2 月 2 日，Claude Code 的日均代码提交量已经占 GitHub 公共提交的 4%。按当前增速，到 2026 年底将超过 20%。

4% 听起来不多。但 GitHub 上有数千万活跃开发者。

一个发布仅 13 个月的命令行工具——不是 IDE，不是 SaaS 平台，就是一个终端里的命令行工具——已经在全球代码库中留下了不可忽视的印记。

不只是代码提交。Mercury 的数据显示，70% 的创业公司现在选择 Claude 做首选模型。NASA 用 Claude Code 为火星探测器 Perseverance 计算轨道——Claude Code 团队把这件事做成了海报挂在办公室里，因为用 Boris 的话说，"这是最酷的事情"。

从 YC 的初创公司到火星任务。这个覆盖范围远超任何单一指标能描述的。

我每天都在 Claude Code 里工作，这个数字不让我意外。让我意外的是，主流分析机构终于开始认真对待这件事了。

有大脑的工具

SemiAnalysis 用了一个类比，我觉得抓得很准：ChatGPT 时代是 Web 1.0，Claude Code 时代是 Web 2.0。

Web 1.0 是静态网页——你发一个请求，服务器返回一个页面。TCP/IP 是底层协议，但真正创造万亿级价值的，是后来建在它之上的动态应用——搜索引擎、社交网络、电商平台。

ChatGPT API 就是 AI 世界的 TCP/IP。你发一段文字，模型返回一段文字。一问一答，来回传递。模型的能力在那里，但它只是在被当原材料卖。

Claude Code 做的事完全不同。

它在模型外面套了一层缰绳（harness）——读取代码库、制定执行计划、调用工具、执行命令、验证结果、自行调试、迭代直到任务完成。缰绳把模型的行动空间从"回答问题"拉到了"完成任务"。

一首歌引发的

Boris Cherny——Claude Code 的创造者——在访谈里讲了一个起源故事。

2024 年 9 月，他只是想试试 Anthropic 的 API，就用 TypeScript 写了一个最简单的终端聊天程序。然后他给模型加了一个 Bash 工具——纯粹因为文档示例就是这样写的。模型能读文件了，能执行命令了。

他随口问了一句："我现在在听什么歌？"

模型写了一段 AppleScript，控制了他的 Mac，查了音乐播放器，把正在播放的歌名告诉了他。那时候用的还是 Sonnet 3.5——一个今天看来能力相当有限的模型。

没人教它这么做。没人在提示词里写"请控制用户的电脑"。模型拿到工具后，自己想出了怎么用它来完成任务。

Boris 说那是他第一次真正感到 AGI 的感觉："这个模型只是想要使用工具。这就是它想做的全部事情。"

大脑在前，手脚在后

但这个故事只讲了一半。缰绳很重要——更重要的是大脑本身在进化。

今天的 foundation model 不再是文本补全机器。Opus 能自主思考下一步该做什么，判断该调用哪个工具，根据返回结果决定下一步行动，连续做出一系列决策来完成一个复杂任务。

这种"思考、行动、判断、再行动"的循环，就是 agentic model 的本质。

关键不只是它多了手脚去调用工具——而是它有了调度工具和做出判断的能力。缰绳给了这个大脑工具和双手：代码库访问、shell 命令、API 调用、文件系统——行动空间。但真正做决策的，是模型自己。

这和以前所有的自动化完全不同。

传统的非 agentic 系统——CI/CD 管线、自动化脚本、RPA——按照写死的规则执行：if A then B, else C。没有判断力，遇到意外就卡死。有手脚，但没有大脑。

Agentic 范式反过来：大脑在前，手脚在后。 模型先理解任务、拆解目标、规划路径，然后调用工具执行。遇到障碍不会卡死——它换一条路。

这就是为什么 agentic 范式能成为真正的通用 Agent：能力边界不再是预设的规则，而是模型的判断力。而模型的判断力在以指数级增长。

大多数人——第五篇里我说的 99.99%——还停留在"AI 是一个更聪明的搜索引擎"的认知里。但 Claude Code 已经证明了：AI 可以是一个执行者。你给它目标，它给你结果。

为什么偏偏是 Anthropic

这个问题值得拆开来看。

不是因为 Anthropic 的模型最强——头部模型之间的差距越来越小。不是因为算力最多——OpenAI 在这方面还领先。也不是因为用户基数最大——ChatGPT 的月活远超 Claude。

Anthropic 做对了一件事：它率先看到了"编排"比"生成"更重要。

整个行业还在比拼谁的模型在 benchmark 上多两个百分点的时候，Anthropic 已经在思考一个不同的问题：怎么让模型真正替人做事？

答案不是更好的聊天界面，不是更精美的 IDE 插件。答案是一个终端工具——一个看起来"原始"的命令行界面。

而且这个选择甚至不是深思熟虑的结果。Boris 说，他把 Claude Code 做成终端程序，纯粹是因为当时团队只有他一个人，不需要也没时间做 UI。它原本只是一个原型，一个最廉价的起点。

但他们留在了终端里。原因出乎意料：模型进步的速度太快了，他们觉得任何 UI 都会在六个月内过时。终端反而因为它的"原始"而成了最耐久的形态。

内部的采用速度也验证了这一点。第一版原型做出来两天后，Boris 对面坐着的工程师 Robert 已经在用它写代码了——没有人让他这么做。Anthropic 准备对外发布时，CEO Dario Amodei 看着内部使用量图表问："DAU 图表完全是垂直上升的。你们在强制工程师使用吗？"Boris 说："没有。我只是发了个帖子，然后他们就开始互相安利了。"

产品自己卖自己。

终端才是正确答案

这个选择反直觉，但背后逻辑无比清晰。

IDE 插件更友好、更"产品化"。但终端意味着完整的计算机访问权限。终端里的 Agent 不是在一个受限的沙箱里辅助你写代码——它是在你的整个计算机环境里自主操作。读取文件系统，执行 shell 命令，调用 API，部署服务，行动空间是无限的。

Cursor 和 Copilot 的范式是：人写代码，AI 辅助。

Claude Code 的范式是：人描述意图，AI 执行。

这不是功能差异。这是范式差异。

为六个月后的模型做产品

Anthropic 还有一个独特之处：对模型能力曲线的判断。

Boris 说 Claude Code 团队的核心信条是：不要为今天的模型做产品，要为六个月后的模型做产品。

Claude Code 最初发布时，模型只能写 Boris 大约 10-20% 的代码。产品并不好用。但他们赌的是模型会变强——而且他们知道它会变强，因为 Anthropic 的三位联合创始人就是 Scaling Laws 论文的前三位作者。

指数增长不是一种信念，是他们的日常经验。

Claude Code 团队办公区的墙上，挂着一份装裱好的 Rich Sutton 的《苦涩的教训》（The Bitter Lesson）——核心论点是：更通用的模型最终总是胜过更专门的模型。

这就是为什么他们不给 Claude Code 加复杂的脚手架和工作流编排。Boris 说脚手架或许能提升 10-20% 的性能，但下一个模型出来，这些增量就被抹平了。与其不断重建脚手架，不如把赌注押在模型本身。

这种哲学还解释了一个惊人的事实：Claude Code 没有任何一行代码是六个月前的。 产品被反复重写——删掉不再需要的工具，加入新的工具，每隔几周迭代一次。代码的保质期可能只有几个月。

自己造自己

Claude Code 团队用 Claude Code 开发 Claude Code。

Boris 说自从 Opus 4.5 以来，他个人 100% 的代码都由 Claude Code 编写。他已经卸载了 IDE，没有手动编辑过一行代码。他每天提交 10 到 30 个 PR。

今年 1 月推出的 Cowork，由 4 名工程师在 10 天内完成，完全由 Claude Code 编写。甚至 Plan Mode 这个功能——Boris 说它实质上只是在提示词里加了一句"请先不要写代码"——是他在一个周日晚上看 GitHub Issues 时花 30 分钟写出来的，第二天早上就上线了。

产品用自己来构建自己。用户的需求直接变成功能。这种自我强化的循环，竞争对手很难复制。

Claude Code 还解锁了一个独特的维度：并行 Agent。简单的 bug 用一个 Agent 就够。复杂问题？Boris 会同时启动三到五个甚至十个 Agent，每个从不同角度调查。他称之为"不相关的上下文窗口"（uncorrelated context windows）——更多独立的上下文窗口意味着更强的整体能力，不仅仅是更快。

这是并行思考，不是并行计算。

Boris 觉得 Plan Mode 活不了太久。"我觉得 Plan Mode 可能不会存在太久，"他说，"也许一个月。"Claude Code 已经能够自己判断要不要先规划再动手。下一步是模型完全不需要任何显式模式就能自行判断。

功能在溶解为模型的基础能力。这就是"为未来的模型而建"在实践中的样子。

还有一个更深的原因

有人问 Boris 今年会发生什么，他给了两个边界。

下界：编码对所有人来说都被解决了，"软件工程师"这个头衔开始消失，取而代之的可能是"builder"或者"产品经理"。

上界？他说"恐怖得多"——ASL4，模型开始递归式自我改进。

Anthropic 的安全等级体系定义了在发布更强模型之前必须满足的严格标准。Boris 说你在 Anthropic 的食堂偷听到的对话，人们谈论的是 AI 安全——"这真的是每个人最关心的事情"。

构建最强的编码 Agent 和构建最审慎的安全文化，在 Anthropic 不是矛盾——它们是同一个使命。

定义了现代编程的人都在说同一件事

如果只是我一个人在说这些，可能是个人偏见。

但现在说这些话的是定义了现代编程语言和开发框架的人。

Andrej Karpathy——一年前造了"氛围编码"这个词的人——说："我已经明显感觉到，我手动编写代码的能力在慢慢退化。在大脑中，代码生成和代码解读是两种不同的能力。"

NodeJS 创始人 Ryan Dahl："人类编写代码的时代已经结束了。"

Ruby on Rails 创始人 DHH："手动写 Ruby 代码如今已成为一种奢侈体验，这门手艺或许很快会成为失传的艺术。"

Linux 之父 Linus Torvalds 也开始用 AI 辅助编程。

前 Google 工程师 Steve Yegge 写道：一个 Anthropic 工程师目前的生产力平均是 Google 巅峰时期一个 Google 工程师的 1000 倍。

三年前，行业还在争论"10 倍工程师"是不是真的存在。现在讨论的是 1000 倍——而且是以巅峰期的 Google 工程师为基准。

我相信这个数字。

在 Anthropic 内部，自 Claude Code 引入以来，每个工程师的生产力提升了 150%。Boris 之前在 Meta 负责全公司的代码质量——Facebook、Instagram、WhatsApp 的所有代码库。在那里，一个专门的团队花一整年，能看到几个百分点的生产力提升。150% 这个数字在传统软件工程的语境里简直不可想象。

甚至招聘方式都在跟着变。YC 正在尝试让工程候选人提交 Claude Code 会话记录——他们和 Agent 一起开发功能的完整过程。"你能看出一个人怎么思考，"YC 合伙人说，"他们会不会看日志？Agent 跑偏了能不能纠正？有没有系统思维？"

问题不再是"你会不会写代码"——而是"你能不能驾驭 Agent"。

共识已经很清晰了。定义了现代编程的实践者们在用各自的方式说同一件事：手写代码的时代正在结束。

但如果你觉得这只是关于编程的故事，你低估了正在发生的事。编码只是滩头阵地——不是终点。第九篇看看，范式转移扩展到代码之外，会发生什么。

有空的话，推荐看看：