ENZH

存储超周期:算力飞轮的另一面

HBM 这个细分市场正在经历一场少见的爆发。2024 年全球规模约 50 亿美元,2027 年预计超过 400 亿。三年八倍。

这个数字背后是被整个 AI 叙事忽略的转换:AI 的重心正在从训练转向推理。 训练造模型,推理用模型。造一个模型几亿、几十亿美元——但训练发生一次。模型造出来之后,全世界的每次调用都在做推理。

Deloitte 预测 2026 年推理会占据总算力的三分之二。推理芯片市场从两百亿美元跳到五百亿以上。推理需要的不只是 GPU 算力——需要内存。模型越大,推理需要的内存越多。


推理为什么是内存密集型任务

训练 GPT-4 级别模型需要访问整个模型参数、激活值、梯度、优化器状态。一个训练 batch 同时处理几千个 token。

推理不同。每个用户请求独立处理——一次一个 token 自回归生成。GPU 的并行计算核心大量闲置,但模型参数每个 token 都要读一遍。小 batch 推理是 memory-bound——计算能力富余,带宽成为唯一瓶颈。

越大模型,这个矛盾越突出。GPT-5 级别的模型有数万亿参数。即使只推理单个 token,参数本身就要占用几十 GB 内存带宽。推理卡的关键指标不是 TFLOPS——是 HBM 带宽。


全球 HBM 产能的博弈

目前全球 HBM 月产能约 15-20 万片(12 英寸等效)。SK 海力士占约 55%,三星约 35%,美光约 10%。但需求远超供应——2025 年 HBM 产能已全部被预定。

为什么产能这么难扩?HBM 生产的瓶颈不在 DRAM 颗粒本身——全球 DRAM 产能供过于求。瓶颈在 TSV 封装环节——每个 HBM 堆叠需要几千个 TSV,对良率和精度要求极高。TSV 产能扩张周期 12-18 个月,远慢于 GPU 芯片本身的扩产节奏。

这就是为什么 GPU 交货快于 HBM 交货。B200 芯片台积电 4nm 产能充足,但给 B200 配的 HBM3e 不够。GPU 空有算力,内存配不上。


中国存储产业在什么位置

美国对华芯片制裁集中在先进逻辑芯片(7nm 以下)和计算 GPU,但存储芯片的管制相对宽松。三星和 SK 海力士在国内的 NAND 和 DRAM 工厂仍获准进口设备。

长鑫存储(CXMT)在 DRAM 领域进展超出预期——DDR5 已进入量产,LPDDR5 开始供货手机厂商。长存(YMTC)在 NAND 上 232 层已追平国际主流。

但在 HBM 上差距巨大。HBM 需要 TSV 封装、硅中介层、多层堆叠——这些技术在国内的成熟度远低于标准 DRAM。国内目前还没能量产 HBM2e 及以上级别的产品。这是美国制裁下一步最可能收紧的领域。


存储超周期的结构性驱动不是短期芯片短缺——是 AI 从训练向推理的永久性迁移。推理需求随 AI 应用渗透率线性甚至超线性增长,但存储产能扩张是阶梯式的。供需缺口在中长期内持续。对个人投资者,HBM 产业链——设备、封装、材料——是这个周期的核心受益环节。对算力基建从业者,内存成本已经成为 TCO 模型中占比最大的单一项。


© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0