存储墙之外:计算架构的下一站
前五篇聊了存储墙的本质:处理器和内存之间的带宽、延迟、功耗裂缝。聊了 DRAM、NAND、HBM 各自的工作原理和物理极限。
这篇聊裂缝的另一边——不是怎么修墙,是墙的另一侧是什么样的。
存算一体(Processing-in-Memory)
"把数据搬到计算单元",不如"把计算搬到数据旁边"。
传统架构:数据从 DRAM 搬几千个比特到处理器,处理器算一个乘加,结果搬回 DRAM。每 bit 数据搬运消耗的能量是计算本身的 1000 倍。存算一体在内存阵列内部嵌入简单计算单元。直接在数据所在位置执行乘法和加法。不需要数据搬运。理论上能效可以改善几十倍到上百倍。
三星的 HBM-PIM(Processing-in-Memory)在 HBM 堆叠内部加了可编程计算单元。每一层 DRAM 旁边有 FP16 乘加器。模型推理中的矩阵向量乘法可以部分在内存内部完成。实测能效提升约 2.5 倍。不是质的飞跃,但方向对了。
存算一体的核心挑战:DRAM 工艺精度远低于逻辑工艺。在 DRAM 片上做计算单元,计算精度和速度都打折。适合大数据量、简单计算的场景(推理),不适合训练。存算一体不是替代 GPU ——替代推理卡。
光互连
芯片之间的数据传输,电信号有天然上限——铜线越远衰减越快,串扰也随带宽增大而恶化。光信号在波导里走,几乎不衰减,无串扰,带宽接近物理极限。
用光代替电做芯片之间的数据传输,是解决带宽和功耗的根本方案。Intel 和 Ayar Labs 在做硅光子收发器——把光收发模块集成到芯片封装上,芯片之间通过光纤通信。功耗降低 5-10 倍,带宽提升 10 倍以上。
光互连的难点:光源要集成到硅片上——硅不会发光,需要 III-V 族材料和硅的异质集成。光电转换的效率损失,光波导在芯片上的制造成本和良率。
未来可能是:计算用电子,数据传输用光子。各自做各自擅长的事。
异质集成
把不同工艺、不同功能的芯片封装在同一个基板上。逻辑芯片用 3nm,I/O 芯片用成熟制程,DRAM 芯片用 DRAM 工艺,模拟芯片用旧制程。每个用最优工艺制造,通过硅中介层或高级封装连在一起。
Apple 的 M 系列芯片是这个思路的先行者:CPU 和 GPU 在 SoC 上,统一内存架构消除 CPU/GPU 之间的数据搬运。Intel 的 EMIB、台积电的 CoWoS-L,本质是让异质集成更便宜、更大面积、更多芯片。
新型存储介质:夹在 DRAM 和 NAND 之间
DRAM 快但贵、易失。NAND 慢但便宜、非易失。两者之间有巨大的性能/成本空白地段。MRAM(磁阻内存用磁性隧道结存数据)、ReRAM(电阻式内存,电阻值存数据)、FeRAM(铁电内存)都在试图填补这个空白。
它们都比 NAND 快,比 DRAM 慢,非易失。理想位置是"持久化的大容量工作内存"——AI 推理的模型权重可以直接放在这里,省去从 SSD 加载到 DRAM 的延迟。
但目前没有一种新型存储介质在成本、可靠性、密度上同时满足量产条件。半导体行业 30 年前就在找"universal memory"——比 DRAM 快、比 NAND 便宜、非易失、无限耐久。到今天还没找到。
架构演化的大趋势
计算离数据越来越近,存算一体是第一步,3D 堆叠是同一方向另一步——逻辑和存储叠在一起,垂直互连长度降到微米级。通用在退让,专用在前进——大模型推理不需要 x86 全套指令集,矩阵乘积累这一条占 GPU 95% 执行量,越专用越省功耗。软件定义硬件——CUDA 生态让任何矩阵计算都能跑,但特定算子固化到 ASIC 效能提升数量级,芯片设计迭代周期从数年缩到数月。
二十年前,内存是最无聊的组件——插上能用,容量够就行。今天,内存是整个 AI 产业最核心的战场。