TPU 凭什么挑战英伟达

GPU 是一千个大厨，TPU 是一条流水线——两种计算哲学 GPU 是一千个大厨，TPU 是一条流水线——两种计算哲学

前几天听了一期硅谷101的播客，嘉宾是一位前谷歌 TPU 工程师 Henry，在谷歌干了六年，深度参与了 V7（Ironwood）和 V8 的研发。

我对硬件一直有兴趣但不算深入。听完这两个小时，脑子里很多模糊的认知一下子清晰了。

不是"TPU 更好还是 GPU 更好"这种简单的问题。是两套完全不同的哲学。

GPU 是一千个大厨，TPU 是一条流水线

Henry 打了一个特别好懂的比方。

GPU 的架构叫 SIMT——Single Instruction Multiple Threading。你可以想象一个厨房里塞了一千个大厨，每个人独立思考，独立从冰箱拿食材，独立做菜，独立上菜。并行能力极强。

TPU 不一样。TPU 是一条流水线。第一个人从冰箱取菜，做完递给第二个人，第二个人加工完递给第三个人。每个人只干一件事，但中间没有等待，没有调度开销。

这个差异带来一个直接后果：GPU 的每个大厨经常在等食材从冰箱搬过来的过程中闲着。TPU 的流水线不会闲，因为软件已经把每一步的数据搬运提前安排好了。

GPU 的硬件很聪明，TPU 的硬件很蠢——但 TPU 的软件很聪明。

这句话我觉得是理解 TPU 最核心的一个切入点。

定制芯片的代价：赌对了是神器，赌错了是废铁

TPU 本质上是一款 ASIC——专用集成电路。它为矩阵计算而生，为 Transformer 而优化。

这有一个巨大的优势：当你的 workload 确定的时候，定制芯片可以把利用率拉到接近满载。Henry 说，TPU 的软件（XLA 编译器）会在全局层面做算子融合、内存管理、数据搬运规划。相当于上帝视角安排每一个计算单元每一秒该干什么。

但代价也很明确：你得赌对方向。

V4、V5 时代，TPU 的主力 workload 还是谷歌内部的推荐系统和排序算法——稀疏矩阵计算。ChatGPT 出来之后，大模型对稠密矩阵计算的需求暴涨，TPU 团队在纸面参数上一度被 GPU 拉开距离。

直到 V6、V7，他们把重心彻底转向大模型训练，参数才追了上来。

这里有个有意思的细节。Henry 说谷歌之所以能赌对 Transformer，是因为 Transformer 本身就是谷歌发明的。他们比行业外更早知道这个架构的 workload 长什么样。先发优势来自 insider knowledge。

但他也坦言自己的担忧：万一下一个范式不是 Transformer 呢？GPU 的通用性意味着它可以快速适应新算法。TPU 一旦方向错了，两到三年的芯片设计周期意味着你根本追不上。

MOE 的故事：硬件追着算法跑

一个特别能说明问题的例子是 MOE（Mixture of Experts）。

早期 TPU 用的是 2D Torus 网络拓扑——每个芯片只能跟相邻芯片通信。MOE 需要把不同的 token 路由到不同的专家，而专家分布在不同芯片上。在 2D Torus 下，你想找一个不相邻的专家，中间要经过很多跳，拥堵严重。

所以 MOE 在早期 TPU 上跑不起来。

V4 的时候，TPU 团队搞了一个 3D Torus + OCS（光纤交换机）。通过软件可编程的方式重新配置通信路径。MOE 的效率一下子上来了。

芯片设计周期两到三年，算法迭代周期六个月。 这中间的时间差，就是 ASIC 最大的风险。

真正的护城河不是芯片，是系统

听完整期播客，我最大的感受是：TPU 的竞争力不在单芯片性能，在系统。

英伟达卖的是一张一张的卡。你买了卡，还得买 NVLink、NV-Switch 这些交换机来组网。这些 infrastructure 的成本巨高。

TPU 从一开始就是按集群设计的——TPU Pod。芯片之间用铜线直连，只在关键节点用光纤交换机。用户感觉到的是"一张卡的性能"，实际上背后是几千张芯片在协同。

这带来两个直接好处：

通信成本低。不用买昂贵的交换机。
训练效率高。整个系统级的优化，而不是单卡优化。

Henry 的说法是：同样训练一个 Gemini 级别的模型，TPU 的总拥有成本（TCO）比 GPU 更低。前提是你的软件栈能充分利用 TPU 的特性。

软件生态：CUDA 的护城河到底有多深

这大概是整个播客里最让我思考的部分。

CUDA 生态有多强大不用多说。全世界的 AI 研究者、工程师，默认就是 PyTorch + CUDA。成千上万的算子、库、工具链，都是围绕 CUDA 建的。

TPU 呢？你得用 JAX + XLA。

XLA 是一个静态编译器。它的好处是能做全局优化——知道整个计算图长什么样，然后在系统层面做最优调度。坏处是它是个黑盒。出了 bug，你很难 debug。

Henry 说得很直白：外部开发者很难独立修 XLA 的 bug，必须找谷歌的工程师。 这跟 CUDA 的开放生态形成了鲜明对比。

Anthropic 能用好 TPU，一个重要原因是他们的很多工程师本身就是从谷歌出来的，对 JAX + XLA 非常熟悉。苹果能用好 TPU，是因为庞若鸣（Apple Intelligence 的负责人之一）直接从谷歌把整套软件栈带过去了。

不是谁都能用好 TPU 的。你得有对的人。

如果直接在谷歌云上用 TPU 呢？Henry 给了一个让我吃惊的数字：可能只能跑到 50%-60% 的利用率。 但你付的是 100% 的钱。

这意味着，对于大多数公司来说，用谷歌云上的 TPU，性价比未必比 GPU 好。只有像 Anthropic 这种直接买 TPU 机架、有工程师能深入调优的公司，才能真正吃到 TPU 的红利。

Anthropic 的 100 万颗 TPU：内循环的力量

Anthropic 拿下 100 万颗 TPU 的订单，价值数百亿美元。这是一个巨大的数字。

但 Henry 的分析很冷静。他指出几个关键因素：

第一，Anthropic 和谷歌是深度绑定的关系。谷歌是 Anthropic 的重要投资方。这是内循环，不是纯市场行为。

第二，Anthropic 的工程团队有能力直接在 TPU 上做深度优化。据 Henry 所知，Anthropic 是目前唯一一家直接从 Broadcom 购买 TPU 机架的外部客户。其他公司——苹果、Midjourney、Meta——都还是通过谷歌云。

第三，Claude 的 API 价格大幅下降（67%），媒体把功劳归功于 TPU 训练带来的推理成本优势。

我的感受是：TPU 的外部生态扩张，目前还是高度依赖"人脉"——从谷歌出来的工程师带着知识和关系去到新公司。 这不是一个可规模化的增长模式。

Groq 的故事：另一条路

播客里还聊到了 Groq，这家公司被英伟达收购了。Groq 的创始人 Jonathan Ross 之前是 TPU 编译器团队的。

Henry 的评价很到位：Groq 本质上是一家编译器公司，不是芯片公司。 它的硬件比 TPU 还"蠢"，但它的编译器可以精确到每一个时钟周期安排每个计算单元的工作。

Groq 踩准了三个时间节点：推理市场爆发、ASIC 兴起、Agent 元年。Agent 对延迟极其敏感——你的 Agent 调用链如果每一步都慢几百毫秒，整体延迟就会被拉到无法接受。Groq 的低延迟特性正好适合这个场景。

这给了我一个启发：芯片市场不会一统天下，而是会分层。 大规模训练和高吞吐推理归 GPU 和 TPU，低延迟推理和本地部署归 Groq 这类玩家，端侧归另一批。

供应链：谁也绕不开的瓶颈

一个让我特别有感触的部分是供应链。

HBM（高带宽内存）被三家公司垄断：SK Hynix、三星、Micron。英伟达是最大客户，产能提前一到两年锁定。TPU 一直是 secondary customer。

CoWoS（TSMC 的先进封装）产能也是瓶颈。谷歌做不了，Broadcom 做不了，只有 TSMC 能做。

还有良率问题。TPU 因为强调芯片间通信，对一致性要求极高。GPU 良率不好可以降级——H100 可以阉割成低配版。TPU 不行，因为每张芯片的架构是定制的，一旦不合格就报废。

再好的芯片设计，卡在供应链上就是零。

我的结论

听完这期播客，我的看法是：

TPU 不会取代 GPU，但 GPU 的垄断正在被打破。

TPU 在特定场景下——大规模部署、已知 workload、有能力做深度软件优化的团队——确实比 GPU 性价比更高。Gemini 3 用 TPU 训练登顶排行榜，不是偶然。

但 TPU 的扩张有三个硬约束：

软件生态。JAX + XLA 的学习曲线太陡，debug 太难。没有 CUDA 那样的开放社区。
供应链。HBM 和 CoWoS 产能被英伟达锁定了大部分。
通用性。一旦算法范式变了，两到三年的芯片设计周期意味着你可能跟不上。

对我们这些做应用层的人来说，最实际的 takeaway 是：未来的 AI 基础设施会是多元的。 GPU、TPU、Groq 这类定制芯片，各有各的生态位。不要 all-in 任何一个平台的假设。

最后，感谢硅谷101 第 228 期，主持人泓君和嘉宾 Henry 的精彩对谈。如果你对 AI 硬件感兴趣，这期值得完整听一遍。