所有 AI 问题，拆到底都是算力问题

算力是一棵大树的根——智能的两条路径都从这里生长算力是一棵大树的根——智能的两条路径都从这里生长

我是 Compute Labs 的联合创始人兼 CTO。我们做 GPU 基础设施融资——帮客户采购 GPU 集群、搭建数据中心、把算力变成金融资产。

工作之外，我自己瞎搞，两个月造了六个 AI 产品玩，从 AI 陪伴到算命到珠宝推荐。纯粹好奇心驱动，不为赚钱。

一个是创业，一个是爱好。看起来毫不相关。

但我越折腾越觉得，它们是同一件事。

产品做到瓶颈的时候，有时候是模型不够聪明——我当然想要更强的模型。有时候是推理太贵——明明技术上能做，成本撑不住。但不管是哪种，拆到底，挡路的都是同一个东西：算力。更强的模型需要更多训练算力，更便宜的推理需要更高效的推理算力。

造的东西越多，这个感觉越清楚。今天试着把它写下来。

智能的基础是算力

以前我们觉得"智能"是一个很神秘的词。理解、推理、创造——这些能力似乎只属于碳基生命，不可解释，不可复制。

现在不是了。

不是因为我们"破解"了智能的本质——意识是什么、涌现怎么来的，这些问题还远没答案。但对于造产品来说，有一个事实越来越清楚：

智能在两条路上同时推进：模型更强，推理更便宜。两条路都需要更多更好的算力。

模型在变强——两年前做不到的推理、理解不了的上下文、犯的低级错误，新模型确实解决了。但训一个前沿模型要烧上亿美金的算力（Sam Altman 透露 GPT-4 训练成本"超过一亿美元"，Epoch AI 估计纯算力约 7800 万）。模型变聪明不是魔法，是算力堆出来的。

推理在变便宜——同样的任务，成本两年降了一到两个数量级。但便宜的推理来自更高效的芯片、更好的编译器、更聪明的模型蒸馏。本质上还是算力的进步。

两条路，同一个根。

举个我自己的例子。做 AI 陪伴产品的时候，我想让角色真正记住用户说过的话，根据过去的对话调整语气和反应。技术上完全可行——把历史对话塞进上下文窗口就行。

问题是，每次对话都要处理几万 token 的历史。乘以用户数，乘以对话频率，成本直接爆炸。

不是不会做。是做不起。

后来两件事同时发生：新模型更聪明了（同样质量的回复，prompt 更简洁），推理成本也砍了一个零。这个功能才上线。

这就是我说的"智能是个计算问题"——不是说只有成本重要，而是说模型变强和推理变便宜都需要算力。一条路是训练算力（造更聪明的模型），一条路是推理算力（让聪明的模型跑得起）。两条路一起推，可能性的边界才真正扩大。

成本决定可能性的边界

大多数人看 AI 趋势，看的是模型发布会。谁出了新模型，谁的 benchmark 更高，谁的上下文窗口更长。

但我越来越觉得，真正决定什么会发生、什么时候发生的，是算力——模型能力和推理成本两条线交叉的那个点。

模型不够聪明？训练算力还没堆够。推理太贵？推理算力还没高效到那个程度。不管你卡在哪条线上，答案都一样：更多更好的算力。

你回头看过去两年每一个 AI 大趋势，拆到底，都是算力在某个维度上跨过了一个阈值：

Agent 为什么现在才爆发？ 两件事一起到位了。一是模型的工具调用和规划能力真的变强了——2023 年的模型根本做不好多步骤任务。二是推理便宜了。一个 Agent 执行一个任务要跑几十次推理，2023 年 GPT-4 输入一百万 token 要 $30（输出 $60），成本撑不住。Andrew Ng 算过，GPT-4 的综合 token 价格从 $36/百万降到 17 个月后的 $4，年降幅 79%。a16z 把这种现象叫 "LLMflation"：同等性能的推理成本每年下降约 10 倍。

能力到位 + 成本到位，两条线同时跨过阈值，Agent 才爆了。

AI 陪伴为什么可行了？ 因为个性化的成本降了。给每个用户维持一个持久的记忆和性格，需要持续不断地跑推理。这在以前是烧钱行为。现在是月费订阅的一部分。

SaaS 为什么在松动？ 因为定制方案变便宜了。一个不会写代码的人，用 Claude Code 花一个下午给自己搓一个工具，这个过程要烧几百次推理调用。两年前想都别想。现在是日常。我在《软件变成日抛品了》里写过：代码变成日抛品，SaaS 的锁定逻辑就不成立了。

超级个体为什么成为可能？ 因为并行执行便宜了。一个人同时跑十个 Agent 线程，就是十倍推理。只有 token 便宜到一定程度，这件事才划算。我在《未来属于会指挥 AI 的人》里说过，关键技能从"写代码"变成了"指挥 AI"——指挥本身的算力成本几乎为零，但被指挥的那些 AI 在后面烧 token。

"人人都是开发者"这件事为什么正在发生？ 因为迭代便宜了。一个非技术人员通过对话跟 AI 反复修改一个工具，每一轮都是推理调用。这在 2023 年的价格下不可能发生。我在《印刷术时刻》里写过这个判断。

你看，我写了快两百篇文章，聊的是各种各样的话题。但拆到底，全是一个根变量：算力。不只是"够不够便宜"——是"够不够多、够不够好"。

这不是相关性，是因果链：更多更好的算力 → 模型更强 + 推理更便宜 → 更多事情变得可能 → 需求爆发 → 更多投资砸进算力。一个飞轮。

而且这个飞轮还有一个很多人没意识到的瓶颈：GPU 依然严重短缺。

数字很直观：Meta 囤了 35 万颗 H100，计划年底达到 130 万颗 GPU；微软持有约 50 万颗 H100 等效加速器；Nvidia 在 2022-2024 年间总共售出约 300 万颗 H100 级芯片（Epoch AI），但 Blackwell 系列已售罄至 2026 年中，积压订单达 360 万颗。数据中心级 GPU 的交货周期是 36-52 周。

Jensen Huang 在上周 GTC 2026 上说，他看到的订单需求已达一万亿美元——比一年前翻了一倍。他原话："如果他们能拿到更多算力，就能生成更多 token，收入就会涨。"芯片比电力更先成为瓶颈。

小公司和 neocloud 的处境更难——面对的是几个月的等待名单和极其有限的配额。算力不只是价格问题——供应量本身就是约束。谁能拿到足够的 GPU，谁就有先发优势。

模型在贬值，基建在升值

2023 年 3 月，GPT-4 是最前沿的东西。所有人都在讨论它，所有产品都在接它的 API。

2024 年 7 月，开源的 Llama 3-405B 在 MMLU 上已经超过了它。价格只有百分之一的模型，在大部分日常任务上追上了它。

2026 年，它已经过时了。

模型有半衰期。有学术研究测算过，前沿模型的同等性能成本每年下降 5-10 倍；完全商品化的性能层级下降更快，40 到 900 倍不等。这个半衰期越来越短。

但跑模型的基础设施——芯片、数据中心、电力、网络、散热——不会这么贬值。今天建的数据中心，明天跑的是新模型。当年训 GPT-4 的 A100 集群，现在给一百个小模型跑推理，还在创造价值。

而且 GPU 本身只是冰山一角。行业分析显示，GPU 只占大型集群总成本的约 40%，其余 60% 是网络、电力、冷却和设施。一项 5 年 TCO 模型显示，100 颗 H100 采购价 300 万美元，但实际总拥有成本是 860 万美元——GPU 只占三分之一。基础设施的价值远比芯片本身持久。

硬件是平台，模型是应用。赌某一个模型，就像 1998 年赌某一个网站。赌算力基建，是赌互联网骨干网。

这就是我们公司做 GPU 基础设施融资的逻辑。不是因为 GPU 本身多酷——是因为不管 AI 怎么变，它都得跑在硬件上。

淘金热的时候，卖铲子的人不需要猜哪条河有金子。

但这里有一个更深的结构性变化。

以前，价值集中在应用层。Microsoft Office、Salesforce、Oracle——软件吃世界。

AI 时代，价值在重新分配。两端在升值：底层的算力基建，和顶层的关系积累（AI 跟用户相处越久，对用户越了解，这份认知不可复制）。

被挤压的是中间层：代码、SaaS 产品、以及大部分中低端模型。开源模型在日常任务上已经追平了两年前的前沿，但顶级前沿模型（Opus 4.6 这个级别的复杂推理能力）依然有明显优势和定价权。只是"前沿"这条线在不断被重新划——今天的前沿，18 个月后就是商品。

模型在贬值，关系在升值，算力在两端都是刚需。

芯片之争的本质

芯片战争看起来是商业竞争。GPU vs TPU vs ASIC，Nvidia vs Google vs 一堆新玩家。

但如果你仔细看，每种芯片架构背后是一个关于智能本质的哲学赌注。

GPU（Nvidia）的赌注是：智能还在变。 我们不知道下一个突破长什么样，所以硬件必须足够灵活，什么架构来了都能跑。CUDA 生态的锁定意味着即使有更好的芯片，切换成本也让人不敢动。这个赌注说的是——智能是发散的，未来不确定，灵活性是唯一安全策略。

TPU（Google）的赌注是：矩阵运算就是 ML 的核心计算。 有意思的是，Google 2016 年发布 TPU v1 的时候，"Attention Is All You Need" 论文要到 2017 年 6 月才发表。他们赌的不是 Transformer，是矩阵运算本身。Transformer 后来成为主流，恰好验证了这个赌注。既然赌对了方向，就往死里优化——定制互联、超大规模、系统级协同。这个赌注说的是——智能是收敛的，核心计算模式已定，剩下的是效率问题。

ASIC（Groq 等）的赌注是：推理是主战场，而且模式已知。 推理和训练是两回事，值得专门造硬件。这个赌注最激进——它假设计算模式已经稳定，不会再大变。

每种芯片架构编码了一种世界观。

我自己的判断：短期 GPU 赢面最大，因为生态锁定太深，灵活性最值钱。自 2017 年 "Attention Is All You Need" 发表以来，Transformer 架构已统治 AI 近十年——这在技术迭代极快的领域堪称异数。如果再持续三五年，TPU 的路径会越来越实。ASIC 风险最高——虽然当前范式比大多数人以为的稳定，但一旦出现真正的范式转移，专用芯片就废了。

详细分析见《TPU 凭什么挑战英伟达》。这里只说一个判断：芯片战争的胜负不在实验室，在生态。

一根线穿起所有文章

写到这里我自己有点恍惚。

过去两个月写了近两百篇文章，聊陪伴 AI、聊 Agent 经济、聊 SaaS 颠覆、聊超级个体、聊半人马窗口、聊可穿戴、聊日抛软件。每一篇看起来都是不同的话题。

但把线一拉，全是同一个话题。

《软件变成日抛品了》——可能，因为生成代码变成了廉价计算。

《纯聊天注定无聊》——天花板要打破，一半靠新的交互形态（可穿戴、环境感知），一半靠多模态推理成本再降一个量级。

《印刷术时刻》——由推理足够便宜驱动，非技术人员才能反复迭代。

《未来属于会指挥 AI 的人》——存在的前提是并行 Agent 执行的成本在承受范围内。

《阿马拉悖论》——那条曲线的形状，由算力曲线决定。模型够强 + 推理够便宜，越来越多领域里纯 AI 会追上人机协作。

《龙虾热》——热的燃料是"算力变便宜"这个叙事，即使算力还没真正兑现承诺。

《TPU 凭什么挑战英伟达》——直接讨论怎么把算力做得更便宜更快。

所有文章，一个根变量。

如果你理解算力在往哪走——模型能力和推理成本这两条线分别到了什么位置——你就能大致判断哪些 AI 应用快要爆发了。

算力曲线不能预测所有事——能力突破（新架构、新训练方法）是另一个维度，很难提前看到。但在能力已经够用的领域，算力曲线几乎能告诉你什么时候会爆发。

为什么我既做基建又造产品

有人问过我：你做算力基建的 CTO，自己又跑去搓一堆 AI 小产品，不觉得精神分裂吗？

恰恰相反。正是因为两头都摸，我才对算力有一种直觉上的确信。

做 Compute Labs，我看到成本曲线在往哪走——哪些芯片在迭代、哪些厂商在打价格战、推理需求以什么速度增长。

自己造东西，我知道成本曲线到底意味着什么——一个功能做不做得起、一个想法是不是太早了、还是刚好到了它该出现的时候。

创业给我宏观视角，爱好给我地面真相。两个合在一起，才是完整的图。

那接下来三五年会怎样？

模型会继续变强——训练算力还在指数级增长。推理会继续变便宜——芯片在迭代，蒸馏在进步，价格战在加剧。

Deloitte 预测，2026 年推理将占总算力的三分之二，推理芯片市场从 200 亿美元涨到 500 亿以上。全球 AI 数据中心资本开支将达到 4000-4500 亿美元。

但 GPU 的短缺短期内不会消失。谁能拿到算力、谁能高效使用算力，就是最实在的竞争优势。

算力是根，应用是叶。

根往下扎多深，叶子就能伸多远。所有关于 AI 未来的争论——模型谁最强、哪个赛道最火、Agent 能不能替代人——拆到底，答案都在同一个地方：

算力够不够多，够不够好。