ENZH

所有 AI 问题,拆到底都是算力问题

📊 幻灯片

算力是一棵大树的根——智能的两条路径都从这里生长算力是一棵大树的根——智能的两条路径都从这里生长

我是 Compute Labs 的联合创始人兼 CTO。我们做 GPU 基础设施融资——帮客户采购 GPU 集群、搭建数据中心、把算力变成金融资产。

工作之外,我自己瞎搞,两个月造了六个 AI 产品玩,从 AI 陪伴到算命到珠宝推荐。纯粹好奇心驱动,不为赚钱。

一个是创业,一个是爱好。看起来毫不相关。

但我越折腾越觉得,它们是同一件事。

产品做到瓶颈的时候,有时候是模型不够聪明——我当然想要更强的模型。有时候是推理太贵——明明技术上能做,成本撑不住。但不管是哪种,拆到底,挡路的都是同一个东西:算力。更强的模型需要更多训练算力,更便宜的推理需要更高效的推理算力。

造的东西越多,这个感觉越清楚。今天试着把它写下来。

智能的基础是算力

以前我们觉得"智能"是一个很神秘的词。理解、推理、创造——这些能力似乎只属于碳基生命,不可解释,不可复制。

现在不是了。

不是因为我们"破解"了智能的本质——意识是什么、涌现怎么来的,这些问题还远没答案。但对于造产品来说,有一个事实越来越清楚:

智能在两条路上同时推进:模型更强,推理更便宜。两条路都需要更多更好的算力。

模型在变强——两年前做不到的推理、理解不了的上下文、犯的低级错误,新模型确实解决了。但训一个前沿模型要烧上亿美金的算力(Sam Altman 透露 GPT-4 训练成本"超过一亿美元",Epoch AI 估计纯算力约 7800 万)。模型变聪明不是魔法,是算力堆出来的。

推理在变便宜——同样的任务,成本两年降了一到两个数量级。但便宜的推理来自更高效的芯片、更好的编译器、更聪明的模型蒸馏。本质上还是算力的进步。

两条路,同一个根。

举个我自己的例子。做 AI 陪伴产品的时候,我想让角色真正记住用户说过的话,根据过去的对话调整语气和反应。技术上完全可行——把历史对话塞进上下文窗口就行。

问题是,每次对话都要处理几万 token 的历史。乘以用户数,乘以对话频率,成本直接爆炸。

不是不会做。是做不起。

后来两件事同时发生:新模型更聪明了(同样质量的回复,prompt 更简洁),推理成本也砍了一个零。这个功能才上线。

这就是我说的"智能是个计算问题"——不是说只有成本重要,而是说模型变强和推理变便宜都需要算力。一条路是训练算力(造更聪明的模型),一条路是推理算力(让聪明的模型跑得起)。两条路一起推,可能性的边界才真正扩大。

成本决定可能性的边界

大多数人看 AI 趋势,看的是模型发布会。谁出了新模型,谁的 benchmark 更高,谁的上下文窗口更长。

但我越来越觉得,真正决定什么会发生、什么时候发生的,是算力——模型能力和推理成本两条线交叉的那个点。

模型不够聪明?训练算力还没堆够。推理太贵?推理算力还没高效到那个程度。不管你卡在哪条线上,答案都一样:更多更好的算力。

你回头看过去两年每一个 AI 大趋势,拆到底,都是算力在某个维度上跨过了一个阈值:

Agent 为什么现在才爆发? 两件事一起到位了。一是模型的工具调用和规划能力真的变强了——2023 年的模型根本做不好多步骤任务。二是推理便宜了。一个 Agent 执行一个任务要跑几十次推理,2023 年 GPT-4 输入一百万 token 要 $30(输出 $60),成本撑不住。Andrew Ng 算过,GPT-4 的综合 token 价格从 $36/百万降到 17 个月后的 $4,年降幅 79%。a16z 把这种现象叫 "LLMflation":同等性能的推理成本每年下降约 10 倍。

能力到位 + 成本到位,两条线同时跨过阈值,Agent 才爆了。

AI 陪伴为什么可行了? 因为个性化的成本降了。给每个用户维持一个持久的记忆和性格,需要持续不断地跑推理。这在以前是烧钱行为。现在是月费订阅的一部分。

SaaS 为什么在松动? 因为定制方案变便宜了。一个不会写代码的人,用 Claude Code 花一个下午给自己搓一个工具,这个过程要烧几百次推理调用。两年前想都别想。现在是日常。我在《软件变成日抛品了》里写过:代码变成日抛品,SaaS 的锁定逻辑就不成立了。

超级个体为什么成为可能? 因为并行执行便宜了。一个人同时跑十个 Agent 线程,就是十倍推理。只有 token 便宜到一定程度,这件事才划算。我在《未来属于会指挥 AI 的人》里说过,关键技能从"写代码"变成了"指挥 AI"——指挥本身的算力成本几乎为零,但被指挥的那些 AI 在后面烧 token。

"人人都是开发者"这件事为什么正在发生? 因为迭代便宜了。一个非技术人员通过对话跟 AI 反复修改一个工具,每一轮都是推理调用。这在 2023 年的价格下不可能发生。我在《印刷术时刻》里写过这个判断。

你看,我写了快两百篇文章,聊的是各种各样的话题。但拆到底,全是一个根变量:算力。不只是"够不够便宜"——是"够不够多、够不够好"。

这不是相关性,是因果链:更多更好的算力 → 模型更强 + 推理更便宜 → 更多事情变得可能 → 需求爆发 → 更多投资砸进算力。一个飞轮。

而且这个飞轮还有一个很多人没意识到的瓶颈:GPU 依然严重短缺。

数字很直观:Meta 囤了 35 万颗 H100,计划年底达到 130 万颗 GPU;微软持有约 50 万颗 H100 等效加速器;Nvidia 在 2022-2024 年间总共售出约 300 万颗 H100 级芯片(Epoch AI),但 Blackwell 系列已售罄至 2026 年中,积压订单达 360 万颗。数据中心级 GPU 的交货周期是 36-52 周。

Jensen Huang 在上周 GTC 2026 上说,他看到的订单需求已达一万亿美元——比一年前翻了一倍。他原话:"如果他们能拿到更多算力,就能生成更多 token,收入就会涨。"芯片比电力更先成为瓶颈。

小公司和 neocloud 的处境更难——面对的是几个月的等待名单和极其有限的配额。算力不只是价格问题——供应量本身就是约束。谁能拿到足够的 GPU,谁就有先发优势。

模型在贬值,基建在升值

2023 年 3 月,GPT-4 是最前沿的东西。所有人都在讨论它,所有产品都在接它的 API。

2024 年 7 月,开源的 Llama 3-405B 在 MMLU 上已经超过了它。价格只有百分之一的模型,在大部分日常任务上追上了它。

2026 年,它已经过时了。

模型有半衰期。有学术研究测算过,前沿模型的同等性能成本每年下降 5-10 倍;完全商品化的性能层级下降更快,40 到 900 倍不等。这个半衰期越来越短。

但跑模型的基础设施——芯片、数据中心、电力、网络、散热——不会这么贬值。今天建的数据中心,明天跑的是新模型。当年训 GPT-4 的 A100 集群,现在给一百个小模型跑推理,还在创造价值。

而且 GPU 本身只是冰山一角。行业分析显示,GPU 只占大型集群总成本的约 40%,其余 60% 是网络、电力、冷却和设施。一项 5 年 TCO 模型显示,100 颗 H100 采购价 300 万美元,但实际总拥有成本是 860 万美元——GPU 只占三分之一。基础设施的价值远比芯片本身持久。

硬件是平台,模型是应用。赌某一个模型,就像 1998 年赌某一个网站。赌算力基建,是赌互联网骨干网。

这就是我们公司做 GPU 基础设施融资的逻辑。不是因为 GPU 本身多酷——是因为不管 AI 怎么变,它都得跑在硬件上。

淘金热的时候,卖铲子的人不需要猜哪条河有金子。

但这里有一个更深的结构性变化。

以前,价值集中在应用层。Microsoft Office、Salesforce、Oracle——软件吃世界。

AI 时代,价值在重新分配。两端在升值:底层的算力基建,和顶层的关系积累(AI 跟用户相处越久,对用户越了解,这份认知不可复制)。

被挤压的是中间层:代码、SaaS 产品、以及大部分中低端模型。开源模型在日常任务上已经追平了两年前的前沿,但顶级前沿模型(Opus 4.6 这个级别的复杂推理能力)依然有明显优势和定价权。只是"前沿"这条线在不断被重新划——今天的前沿,18 个月后就是商品。

模型在贬值,关系在升值,算力在两端都是刚需。

芯片之争的本质

芯片战争看起来是商业竞争。GPU vs TPU vs ASIC,Nvidia vs Google vs 一堆新玩家。

但如果你仔细看,每种芯片架构背后是一个关于智能本质的哲学赌注。

GPU(Nvidia)的赌注是:智能还在变。 我们不知道下一个突破长什么样,所以硬件必须足够灵活,什么架构来了都能跑。CUDA 生态的锁定意味着即使有更好的芯片,切换成本也让人不敢动。这个赌注说的是——智能是发散的,未来不确定,灵活性是唯一安全策略。

TPU(Google)的赌注是:矩阵运算就是 ML 的核心计算。 有意思的是,Google 2016 年发布 TPU v1 的时候,"Attention Is All You Need" 论文要到 2017 年 6 月才发表。他们赌的不是 Transformer,是矩阵运算本身。Transformer 后来成为主流,恰好验证了这个赌注。既然赌对了方向,就往死里优化——定制互联、超大规模、系统级协同。这个赌注说的是——智能是收敛的,核心计算模式已定,剩下的是效率问题。

ASIC(Groq 等)的赌注是:推理是主战场,而且模式已知。 推理和训练是两回事,值得专门造硬件。这个赌注最激进——它假设计算模式已经稳定,不会再大变。

每种芯片架构编码了一种世界观。

我自己的判断:短期 GPU 赢面最大,因为生态锁定太深,灵活性最值钱。自 2017 年 "Attention Is All You Need" 发表以来,Transformer 架构已统治 AI 近十年——这在技术迭代极快的领域堪称异数。如果再持续三五年,TPU 的路径会越来越实。ASIC 风险最高——虽然当前范式比大多数人以为的稳定,但一旦出现真正的范式转移,专用芯片就废了。

详细分析见《TPU 凭什么挑战英伟达》。这里只说一个判断:芯片战争的胜负不在实验室,在生态。

一根线穿起所有文章

写到这里我自己有点恍惚。

过去两个月写了近两百篇文章,聊陪伴 AI、聊 Agent 经济、聊 SaaS 颠覆、聊超级个体、聊半人马窗口、聊可穿戴、聊日抛软件。每一篇看起来都是不同的话题。

但把线一拉,全是同一个话题。

《软件变成日抛品了》——可能,因为生成代码变成了廉价计算。

《纯聊天注定无聊》——天花板要打破,一半靠新的交互形态(可穿戴、环境感知),一半靠多模态推理成本再降一个量级。

《印刷术时刻》——由推理足够便宜驱动,非技术人员才能反复迭代。

《未来属于会指挥 AI 的人》——存在的前提是并行 Agent 执行的成本在承受范围内。

《阿马拉悖论》——那条曲线的形状,由算力曲线决定。模型够强 + 推理够便宜,越来越多领域里纯 AI 会追上人机协作。

《龙虾热》——热的燃料是"算力变便宜"这个叙事,即使算力还没真正兑现承诺。

《TPU 凭什么挑战英伟达》——直接讨论怎么把算力做得更便宜更快。

所有文章,一个根变量。

如果你理解算力在往哪走——模型能力和推理成本这两条线分别到了什么位置——你就能大致判断哪些 AI 应用快要爆发了。

算力曲线不能预测所有事——能力突破(新架构、新训练方法)是另一个维度,很难提前看到。但在能力已经够用的领域,算力曲线几乎能告诉你什么时候会爆发。

为什么我既做基建又造产品

有人问过我:你做算力基建的 CTO,自己又跑去搓一堆 AI 小产品,不觉得精神分裂吗?

恰恰相反。正是因为两头都摸,我才对算力有一种直觉上的确信。

做 Compute Labs,我看到成本曲线在往哪走——哪些芯片在迭代、哪些厂商在打价格战、推理需求以什么速度增长。

自己造东西,我知道成本曲线到底意味着什么——一个功能做不做得起、一个想法是不是太早了、还是刚好到了它该出现的时候。

创业给我宏观视角,爱好给我地面真相。两个合在一起,才是完整的图。

那接下来三五年会怎样?

模型会继续变强——训练算力还在指数级增长。推理会继续变便宜——芯片在迭代,蒸馏在进步,价格战在加剧。

Deloitte 预测,2026 年推理将占总算力的三分之二,推理芯片市场从 200 亿美元涨到 500 亿以上。全球 AI 数据中心资本开支将达到 4000-4500 亿美元。

但 GPU 的短缺短期内不会消失。谁能拿到算力、谁能高效使用算力,就是最实在的竞争优势。

算力是根,应用是叶。

根往下扎多深,叶子就能伸多远。所有关于 AI 未来的争论——模型谁最强、哪个赛道最火、Agent 能不能替代人——拆到底,答案都在同一个地方:

算力够不够多,够不够好。


© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0