ENZH

HBM:把内存架在芯片头顶

HBM 的"带宽"不是从单个芯片上压榨出来的。把多个 DRAM 芯片像千层饼一样叠在一起,用 TSV 打穿层层连接。每一层 DRAM 的数据总线并联——N 层堆叠,带宽就是单个芯片的 N 倍。

再把整个堆叠放在 GPU 旁边——不是几厘米外的 PCB 上——放在同一个硅中介层上。物理距离缩到几毫米,互连总线可以开到 1024 位宽。传统 GDDR 内存是 32 位总线,HBM 是 1024 位。位宽差 32 倍,带宽直接起飞。


TSV:垂直穿孔连线

TSV(Through-Silicon Via)——穿过硅片的垂直连线。每层 DRAM 芯片打磨到几十微米薄,激光打孔,填满铜,再堆下一层。每个 TSV 是垂直方向的一条导线。8 层堆叠就有 8 层芯片通过几千个 TSV 并联通信。

TSV 的良率是 HBM 最大的成本瓶颈。穿过 8 层芯片,每个 TSV 要对齐到微米级别。几千个 TSV,坏一个整芯报废。HBM 良率远低于普通 DRAM——这是它贵的第一性原因。


硅中介层:连接 GPU 和 HBM 的桥梁

GPU 芯片和 HBM 芯片都安装在一个硅中介层上。中介层内部有微米级的金属互连线,连接 GPU 的存储器接口和 HBM 的 I/O 接口。

传统 PCB 方案:数据从 GPU 封装出来走到内存条——几厘米。信号衰减、串扰、有限引脚。硅中介层方案:数据在中介层内部走——几毫米。硅的介电性能远优于 PCB 材料,信号完整性高得多。1024 位宽的总线只能在硅中介层上实现。

代价:硅中介层自己是一整片硅晶圆,制造成本很高。面积要覆盖 GPU + 多个 HBM 堆叠——一块 NVIDIA H100 的中阶层面积超过 2000 平方毫米。按晶圆成本和良率算,中介层本身成本就上百美元。


HBM3e:当前的最优解

H100 用 HBM3。H200 和 B200 用 HBM3e。HBM3e 单堆叠带宽 1.2 TB/s,八层堆叠容量 24-36 GB。一张 B200 配 8 个 HBM3e 堆叠,总带宽 8 TB/s,总容量 192 GB。

Nvidia 旗舰 GPU 的物料成本里,HBM 占 50-60%。B200 整卡物料成本约 25,00030,000,光HBM25,000-30,000,光 HBM 就 15,000 以上。不是你买的 GPU 贵——是你买的 HBM 贵,附赠 GPU。


SK 海力士的垄断地位

HBM 市场目前几乎是 SK 海力士的天下。HBM3 初期,海力士份额接近 90%。三星在追赶,美光在追赶,但差距没缩小。

海力士先发优势在哪?TSV 工艺积累最早——2013 年就和 AMD 合作了第一代 HBM。堆叠良率最高,量产能力最大。跟 Nvidia 绑得最深——Nvidia 的 HBM 需求占全球总量的 70% 以上。

一个容易被忽略的护城河:HBM 需要跟 GPU 一起做联合验证和封装。海力士跟 Nvidia 走完了几代产品的磨合,后来者即使生产出同等质量的 HBM,也要重新走一遍联合验证。这过程要一到两年。在此期间,市场已被下一代 HBM 占满。


HBM 的极限

堆叠层数不能无限增加。TSV 良率随层数指数下降,散热问题——DRAM 堆在 GPU 旁边,热量互相加热。HBM4 计划堆 16 层,但业界对可行性存在争议。

更大的问题:HBM 产能完全跟不上 AI 需求。全球 HBM 产能 2024 年全部被预定,2025 年大部分已有订单。新进入者(特斯拉、微软自研芯片)排不上 HBM 供货——这是他们转向 GDDR 或自研架构的重要原因之一。

HBM 很贵,以后会更贵。但算力需求在指数增长。这个矛盾是接下来五年半导体行业最核心的博弈。


© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0