DRAM 可占据非 AI 服务器系统成本的一半之多。然而,在过去的十年间,它在所有主要逻辑和内存类型中扩展速度最为缓慢。16Gb 的 DRAM 芯片在八年前首次大量投放市场,但时至今日,它仍然是最为常见的类型;这些芯片在推出之时,每 GB 的成本约为 3 美元,最高曾达到近 5 美元,随后在过去的 12 个月内又回落到 3 美元左右。其速度提升稍显缓慢,而功率方面则取得了最大程度的改善,这主要得益于 LPDDR 的兴起,这是一种采用更短、更高效线路的封装变化,但这里的提升门槛很低。DRAM 扩展缺乏进展,已然成为阻碍计算性能提升的瓶颈以及经济上的制约因素。
DRAM 入门:基本架构
DRAM 的原理十分简单。它由以网格形式排列的存储单元阵列构成,每个存储单元可存储一位信息。所有现代的 DRAM 均采用 1T1C 单元,也就是 1 个晶体管和 1 个电容器。晶体管负责控制对单元的访问,电容器则以小电荷的形式存储信息。
基本 DRAM 电路:存储单元阵列,每行通过一条字线连接,每列通过一条位线连接。激活 1 条字线和 1 条位线可读取或写入它们相交处的单元
字线(WL)连接着一行中的所有单元;它们对每个单元的访问晶体管进行控制。位线(BL)连接着一列中的所有单元;它们与访问晶体管的源极相连接。当一条字线通电时,该行中所有单元的访问晶体管都会开启,并允许电流从位线流入单元(在写入单元时)或者从单元流向位线(在读取单元时)。一次只有一条字线和一条位线处于活动状态,这就意味着只有活动字线和位线相交处的一个单元会被写入或者读取。
DRAM 是一 种易失性存储器技术:存储电容器会泄漏电荷,因此需要频繁进行刷新(大约每 32 毫秒一次),以维持存储的数据。每次刷新都会读取单元的内容,将位线上的电压提升至理想水平,并让刷新后的值流回电容器。刷新完全在 DRAM 芯片内部进行,没有数据流入或流出芯片。这虽最大限度地减少了浪费的电量,但刷新仍会占据 DRAM 总功耗的 10% 以上。
电容器与晶体管极为相似,已缩小至纳米级宽度,不过其纵横比也非常大,大约 1000 纳米高,而直径却只有数十纳米 —— 纵横比接近 100:1,电容约为 6 – 7 飞法拉(fF)。每个电容器存储的电荷极少,新写入时约有 40000 个电子。
单元必须通过位线将电子输入和输出,然而施加到位线上的电压会被连接在同一位线上的所有其他单元稀释。总位线电容可能总计超过 30fF—— 稀释度为 5 倍。位线也非常细,这会减慢电子的速度。最后,如果单元最近没有刷新,那么可能已大量耗电,因此只能输送一小部分电荷。
所有这些因素都意味着,放电单元以读取其值会产生极为微弱的信号,必须将其放大。为此,感测放大器(SA)连接到每个位线的末端,以检测从存储单元读取的极小电荷,并将信号放大到有用的强度。随后,这些较强的信号可以在系统的其他地方被读取为二进制的 1 或 0。
感测放大器具有巧妙的电路设计:它将活动位线与未使用的匹配邻居进行比较,首先将两条线的电压设置为相似。活动位线上的电压将与非活动邻居进行比较,使感测放大器失去平衡,并使其将差值放大回活动位线,既放大了信号,又将新的全值(高或低)驱动回仍与位线保持开放的单元。这可谓是一石二鸟:单元同时被读取和刷新。
在读取 / 刷新活动单元后,该值可以从芯片中复制出来,也可以通过写入操作进行覆盖。写入操作会忽略刷新后的值,并使用更强的信号强制位线匹配新值。读取或写入完成后,字线将被禁用,从而关闭访问晶体管,进而捕获存储电容器中的任何驻留电荷。
DRAM 入门:历史(DRAM 仍在扩展时)
现代 DRAM 由两项独立而互补的发明实现:1T1C 存储单元和感测放大器。
1T1C 单元由 IBM 的 博士于 1967 年发明,他也因同名的 MOS 晶体管缩放定律而闻名。DRAM 和缩放都基于 MOS 晶体管(金属氧化物硅,晶体管栅极中的层)。
的 1T1C 存储单元架构原始专利。来源:美国专利 3,387,286
尽管发明了 1T1C(1 个晶体管和 1 个电容器)存储单元结构,但英特尔在 1973 年推出的早期 DRAM 每个单元却使用了 3 个晶体管,其中间晶体管的栅极充当存储电容器。这是一个 “增益单元”,中间和最后一个晶体管能够提供增益,以放大中间栅极上极其微小的电荷,使得单元能够轻松读取而不会干扰存储的值。
从理论上来说,1T1C 电池更为优越:器件更少、连接更简单、体积更小。那为何没有立即被采用呢?原因在于读取这种电池在当时还不具有实用性。
在发明之时,1T1C 单元的电容很小,无法正常运行。因此,需要第二个关键发明:感测放大器。
第一个现代感测放大器由西门子的卡尔・斯坦于 1971 年开发出来,并在加利福尼亚的一次会议上进行了展示,但完全被忽视了。在当时,1T1C 架构尚未被广泛采用,西门子也不清楚该如何利用这项发明。斯坦被调往另一个职位,在那里他拥有了与 DRAM 无关的成功职业生涯。
卡尔·斯坦的原始感测放大器专利。来源:美国专利 3,774,176
这种设计与位线间距完美匹配,并且能够缩小尺寸以跟紧单元尺寸。感测放大器在不使用时完全断电,如此一来,就可以在芯片上安装数百万个感测放大器而不会消耗电量。这着实是一个小奇迹。
感测放大器的时代花了五年多的时间才姗姗来迟。 的 独立地(重新)发现了这一概念,到了 1977 年,他们采用 1T1C + SA 架构的 16kb DRAM 成为了市场领导者。这一成功模式一直延续下来 —— 近 50 年后,DRAM 的架构基本保持不变。
DRAM 入门:当 DRAM 停止扩展时
在 20 世纪,摩尔定律和登纳德缩放定律统治了半导体行业。在巅峰时期,DRAM 密度的增长速度超越了逻辑。每 18 个月,DRAM 芯片的容量就会翻一番,推动了日本晶圆厂的崛起(1981 年,其市场份额首次超过美国,1987 年达到约 80% 的峰值),以及后来的韩国公司(其市场份额在 1998 年超过日本)。相对简单的工艺使得晶圆厂能够快速更替,为拥有资金建设下一代晶圆厂的新进入者创造了机会。
在 DRAM 规模不断缩小的“黄金时代”,每比特价格在 20 年内下降了 3 个数量级。来源:Lee, KH,《2000 年后 DRAM 行业战略分析》
这种速度无法长期持续下去,到了 20 世纪末至 21 世纪,逻辑的发展速度已经大大超越了内存扩展的速度。最近,逻辑扩展的速度已经放缓至每两年密度提高 30% – 40%。但与 DRAM 相比,这仍然较为可观,因为 DRAM 的速度比其峰值时期慢了大约一个数量级,现在需要十年时间才能将密度提高两倍。
“这次不一样”:内存周期已经成为行业的一部分 50 年了。来源:Lee, KH,《2000 年后 DRAM 行业的战略分析》
这种规模扩张的放缓对 DRAM 的定价动态产生了连锁反应。虽然内存传统上是一个周期性行业,但密度扩张缓慢意味着在供应有限的情况下,成本降低的幅度要小得多,无法缓解价格上涨。增加 DRAM 供应的唯一方法是建造新的晶圆厂。价格的大幅波动和高额的资本支出意味着只有最大的公司才能生存:在 20 世纪 90 年代中期,有 20 多家制造商生产 DRAM,前 10 名制造商占据了 80% 的市场份额。现在,前三大供应商占据了 95% 以上的市场份额。
由于 DRAM 已经商品化,供应商本质上更容易受到价格波动的影响(与逻辑或模拟产品相反),并且必须在市场低迷时主要依靠其产品的原始价格进行竞争。逻辑产品只有在成本增加的情况下才能维持摩尔定律,而 DRAM 则没有这种奢侈。DRAM 的成本很容易衡量,单位为美元 / GB。相对于早期,过去十年的价格下降缓慢 —— 在十年内仅下降一个数量级,而在过去只需要一半的时间。DRAM 特有的峰值和谷值行为也非常明显。
DRAM 密度扩展速度每十年减慢 2 倍,而价格则受周期性影响。来源:、
自进入 10 纳米节点以来,DRAM 的位密度一直停滞不前。即使在三星的 1z 和 SK 海力士的 1a 节点中添加了极紫外光(EUV)技术,密度也没有显著提高。其中两个显著的挑战来自电容器和感测放大器。
电容器的制作难度极大。首先,其图案化要求非常高,因为孔必须紧密排列,且具有极为良好的临界尺寸(CD)和覆盖控制,以便接触下方的访问晶体管并避免出现桥接或其他缺陷。电容器的纵横比极高,蚀刻出又直又窄的孔轮廓极为困难。此外,还需要更厚的硬掩模来实现更深的蚀刻,因为更厚的掩模需要更厚的光刻胶,而光刻胶更难进行图案化。
接下来,必须在整个孔轮廓的壁上沉积几纳米厚的多个无缺陷层,以形成电容器。几乎每一步都在考验着现代加工技术的极限。
DRAM 存储电容器需要在 100:1 纵横比的孔中形成许多精致的层(不按比例 – 实际电容器可能比图中高 10 倍)。来源:应用材料
感测放大器与逻辑互连类似。它们曾经是事后才被考虑的因素,但现在其难度与 “主要” 功能(逻辑晶体管和存储单元)相当,甚至更大。它们受到多方面的挤压。必须进行面积缩放以匹配位线的缩小,感测放大器变得更不敏感,并且随着尺寸变小而更容易出现变化和泄漏。同时,较小的电容器存储的电荷较少,因此读取它们的感测要求变得更加困难。
还有其他挑战,结果是使用传统方法以经济的方式扩展 DRAM 变得越来越困难。新想法的大门已经打开 —— 让我们来探索其中的一些……
短期缩放:4F² 和垂直通道晶体管
短期内,DRAM 的规模将继续沿着其传统路线图发展。更大、更根本的架构变革将需要数年时间才能开发和实施。与此同时,该行业必须满足对更高性能的需求,即使只是进行微小的改进。
短期路线图中有两项创新:4F² 单元布局和垂直通道晶体管(VCT)。
三星 DRAM 路线图。来源:最初发布的 2024
请注意,包括三星在内的一些公司在其路线图中将垂直通道晶体管(VCT)置于 “3D” 的旗帜之下。虽然从技术层面上讲这是正确的,但这多少有些误导,因为 VCT 与通常所说的 “3D DRAM” 并不相同。
标准的 6F² 布局与采用垂直通道晶体管的 4F² 布局对比鲜明。来源:CXMT IEDM 2023。
4F² 以最小特征尺寸 F 来描述存储单元面积,类似于标准逻辑单元高度(例如 “6T 单元”)的轨道度量。最小特征尺寸通常是线宽或空间宽度,在 DRAM 中,这将是字线或位线宽度。这是表示单元布局密度的简单方法,并且易于比较 ——4F² 单元的大小仅为 6F² 单元的 2/3,理论上密度增加 30%,而无需缩小最小特征尺寸。请注意,纯单元布局并不是密度缩放的唯一限制,因此实际收益可能低于理想的 30% 情况。
4F² 是单个位单元的理论极限。回想一下,特征尺寸是线或空间宽度(即半间距),因此线 + 空间图案的间距为 2F,而不是 F,因此最小可能单元尺寸是 4F² 而不仅仅是 F²。因此,一旦实现这种架构,水平扩展的唯一途径就是扩展 F 本身 —— 这很快就会变得不切实际,甚至完全不可能。
自 2007 年以来,DRAM 一直使用 6F² 布局,之前使用 8F²(有趣的是:现代 NAND 已经使用 4F² 单元,但特征尺寸 F 明显更大。SRAM 的数量级为 120F²,密度降低了 20 倍!)。
4F² 单元的关键推动因素是垂直通道晶体管。这是必要的,因为晶体管必须缩小以适合单元,并且两个触点(位线和电容器)也必须适合该占位面积,因此,呈一条垂直线。在这些规模下,有必要垂直而不是水平构建晶体管,将其占位面积缩小到大约 1F,大致匹配其上方的电容器,同时保持足够的通道长度以使晶体管有效运行。当前的 DRAM 使用水平通道和具有水平分离的源极 / 漏极。这些是成熟且易于理解的架构。VCT 依次堆叠源极(连接到其下方的 BL)、通道(被栅极和控制栅极的字线包围)和漏极(连接到上方的电容器)。在制造过程中存在权衡,有些步骤变得更容易,而其他步骤则更难,但总体而言,VCT 更难制造。
三星的工艺因使用晶圆键合而引人注目。在类似于逻辑背面供电的工艺中,单元访问晶体管是在翻转晶圆并将其键合到支撑晶圆之前在顶部形成位线的情况下制造的,因此位线现在被埋了起来。有趣的是,键合后的基座似乎不需要与 VCT 精确对准,尽管披露并未解释外围 CMOS 是位于翻转的芯片上还是位于新键合的基座中。顶部变薄以露出晶体管的另一端,因此可以在其顶部构建存储电容器。EVG 和 TEL 将从这种对晶圆键合工具的新需求中获益。
DRAM 入门:当前变体
DRAM 种类繁多,每种都针对不同目标进行了优化。相关的最新一代类型包括 DDR5、、 和 HBM3/E。它们之间的差异几乎完全在于外围电路。不同类型的内存单元本身较为相似,并且所有类型的制造方法也大致相同。下面让我们简单介绍一下各种 DRAM 类型及其作用。
DDR5(第五代双倍数据速率)采用双列直插式内存模块(DIMM)封装,可提供最高的内存容量。(低功耗 DDR5,X 表示增强型)能够提供低功耗操作,但需要与 CPU 保持较短距离以及低电容连接,从而限制了容量,因此它被用于需要低功耗且布局限制可容忍的手机和笔记本电脑。
最近,我们看到一些 AI 加速器、Apple 的专业工作站以及 Grace 等 AI 馈送 CPU 采用了容量更大的 LPDDR 封装。这些新用途的推动因素是对高能效数据传输和高带宽的追求。
在加速器中,LPDDR 已成为 “第二层” 内存的最佳选择,与昂贵的 HBM 相比,它在较低(较慢)级别提供更便宜的容量。它在构建最高容量和可靠性功能方面有所欠缺,但胜过 DDR5 DIMM,因为它每比特吞吐量消耗的能量要少一个数量级。 封装在 Grace 处理器上最高可达 480GB,这大约是 GDDR 配置容量限制的 10 倍(受电路板布局规则和满足消费者游戏系统信号要求的芯片封装限制),与中型 DDR 服务器配置处于同一范围。使用 128GB 以上的 R-DIMM 可以实现更大容量的 DDR5,但由于封装复杂性和 DIMM 上的额外寄存器(一种缓冲芯片),成本较高。
在功耗方面比 DDR 有巨大优势,在成本方面比 HBM 有巨大优势,但每比特能量无法与 HBM 抗衡,而且它需要很多通道(与 CPU 的连接),这会使大容量的电路板布局拥挤不堪。它在纠错(ECC)方面也表现不佳,这在大容量下变得更加重要,因为出现错误的可能性更大。为了弥补这一点,必须转移一些容量来支持额外的 ECC。例如,Grace CPU 每个计算托盘有 512GB 的 ,但似乎为可靠性功能保留了 32GB,剩下 480GB 可供使用。
即将推出的 标准几乎没有任何改进,每个芯片的通道数仍然很高,速度提升幅度相对较小,纠错支持也有限。 不会成为 HBM 的竞争对手。
(G 代表图形)专注于图形应用,以低成本提供高带宽,但延迟和功耗更高。虽然在游戏 GPU 中很有用,但它的设计具有板级容量限制和功率水平,限制了可以使用它的 AI 应用程序的大小。
然后是 HBM3E(第三代高带宽内存,带有增强型 “E” 版本)。它优先考虑带宽和电源效率,但价格非常昂贵。HBM 的两个定义特征是更宽的总线宽度和垂直堆叠的内存芯片。单个 HBM 芯片每个 I/O 有 256 位,是 LPDDR 的 16 倍,LPDDR 的总线宽度每个芯片只有 16 位。芯片垂直堆叠,通常为 8 个或更多,每 4 个芯片分组一个 I/O;总的来说,该封装可以提供 1024 位带宽。在 HBM4 中,这个数字将翻倍到 2048 位。为了充分利用 HBM,最好将其与计算引擎一起封装,以减少延迟和每位的能量。为了在保持计算短连接的同时扩大容量,必须将更多芯片添加到堆栈中。
HBM 的高成本主要源于这种芯片堆叠需求。在典型的 HBM 堆栈中,8 个或 12 个 DRAM 芯片(路线图上计划增加到 16 个或更多)堆叠在一起,电源和信号通过每个芯片中的硅通孔(TSV)布线。TSV 是直接穿过芯片的导线,用于连接芯片。与用于连接堆叠芯片的旧式引线接合方法相比,TSV 密度更高、性能更高,但成本也更高。在 HBM 堆栈中,必须通过 TSV 布线 1200 多条信号线。必须为它们分配相当大的区域,使得每个 HBM DRAM 芯片的尺寸是相同容量下标准 DDR 芯片的两倍。这也意味着对 DRAM 芯片的电气和热性能有更高的分级要求。
这种复杂性会降低产量。例如,三星的 DRAM 设计失误及其使用落后的 1α 节点导致其 HBM 产量极低。封装是另一个主要挑战。由于产量相对较低,正确对齐 8 个以上的芯片(每个芯片有数千个连接)非常困难,因此成本高昂。目前,这是 HBM 供应商之间的主要区别之一,因为 SK 海力士可以使用其 MR-MUF 封装成功生产 HBM3E,而三星则难以提高其产品的产量。美光有一个可行的解决方案,但需要大幅扩大生产规模。
尽管成本高昂且产量有限,HBM3E 目前仍是内存行业有史以来最有价值、利润率最高的产品。这主要是因为对于大型 AI 加速器而言,没有其他类型的 DRAM 是可行的替代品。尽管随着三星提高产量以及美光扩大生产,利润率可能会下降,但 AI 加速器对内存的需求将继续增长 —— 在一定程度上抵消了这一新供应带来的好处。
HBM 在带宽和封装密度方面占据主导地位。来源:
简而言之,高带宽和极高的带宽密度以及最佳的每比特能量和真正的 ECC(纠错码)功能使 HBM3E 成为目前 AI 加速器的明显赢家。这就是 的 H100 和 AMD 的 等产品使用它的原因。GDDR6/X 虽然容量很小,但按相同指标排在第二位。 和 DDR5 则更差,都不适合加速器的需求。
当前的 HBM 解决方案价格昂贵,而且扩展难度越来越大。我们为什么会陷入这种境地呢?
HBM 路线图
HBM 是一种围绕传统 DRAM 理念构建的封装解决方案,但采用密度和相邻性封装,以尝试解决 AI 和其他形式的高性能计算的带宽和功率问题。
目前,所有领先的 AI GPU 都使用 HBM 作为内存。2025 年的计划是 12-Hi HBM3e,配备 32Gb 芯片,每堆栈总共 48GB,数据速率为每线 8Gbps。在 GPU 服务器中,首批支持 CPU 的统一内存版本已随 AMD 的 和 的 Grace 一起推出。
Grace CPU 具有高容量 ,而 GPU 具有高带宽 HBM3。但是,CPU 和 GPU 位于不同的封装中,通过 – C2C 以 900GB/s 的速度连接。这种模型集成起来更简单,但在软件方面更困难。连接到另一个芯片的内存的延迟要高得多,可能会影响大量工作负载。因此,内存并不完全统一,并带来了自身的挑战。
———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,永久会员只需109元,全站资源免费下载 点击查看详情
站 长 微 信: nanadh666