在人工智能(AI)時代的大潮中,數據密集型工作負載的需求急劇上升,給現代服務器帶來了前所未有的挑戰。其中,如何確保計算能力與內存帶寬的同步增長,成為了亟待解決的核心難題。AI、高性能計算(HPC)及實時分析等前沿領域,對內存子系統的數據傳輸速度提出了極為嚴苛的要求,任何微小的延遲都可能成為性能提升的瓶頸。
在此背景下,一種新型內存技術——MRDIMM(多路復用寄存雙列直插內存模塊)應運而生,迅速吸引了業界的廣泛關注。MRDIMM能否成為AI存儲領域的明日之星?它將對內存市場帶來怎樣的深遠影響?這一切,都值得我們深入探討。
MRDIMM的誕生并非偶然,其根源可追溯到DDR4時代的LRDIMM(減載雙列直插內存模塊)。LRDIMM的設計初衷在于減輕服務器內存總線的負載,同時提升內存的工作頻率與容量。與傳統的RDIMM(寄存雙列直插內存模塊)相比,LRDIMM創新性地引入了數據緩沖器(DB)功能,這一設計不僅降低了主板上的信號負載,還為更大容量的內存顆粒創造了條件,從而顯著提升了系統內存容量。
在DDR4時代,經過多輪討論,由中國瀾起科技公司提出的“1+9”方案(1顆RCD+9顆DB)最終成為DDR4 LRDIMM的國際標準。這一成就彰顯了瀾起科技在內存技術領域的強大研發實力。進入DDR5時代,LRDIMM架構演變為“1+10”,但隨著DDR5內存模組容量的大幅增加,其性價比優勢逐漸減弱。此時,MRDIMM應運而生,它沿用了與LRDIMM類似的“1+10”技術架構,即搭配1顆多路復用寄存時鐘驅動器(MRCD)芯片和10顆多路復用數據緩沖器(MDB)芯片,實現了更高的內存帶寬,滿足了現代服務器對內存帶寬的迫切需求。
隨著CPU核心數量和速度的不斷提升,內存必須以更快的速度提供數據。MRDIMM通過同時操作兩個內存通道,實現了比標準DDR5 DIMM更高的數據吞吐量。簡而言之,它將兩個DDR5 DIMM相結合,向主機提供兩倍的數據速率。目前,第一代MRDIMM的速度已達8800MT/s,第二代更是達到了12800MT/s,未來幾代產品的速度預計還將大幅提升。
近年來,服務器CPU技術的發展趨勢明顯:CPU廠商不斷增加內核數量,核心數呈指數級增長。與此同時,數據中心服務器內存對速度和容量的需求也以驚人的速度攀升。然而,“內存墻”問題日益凸顯,成為制約系統性能提升的關鍵因素。傳統內存RDIMM的傳輸帶寬增長緩慢,遠遠跟不上CPU核心數量的增長速度。這也是AMD和英特爾轉向DDR5內存的重要原因之一。
在美光和英特爾的聯合測試中,MRDIMM展現出了卓越的性能。在內存容量相同的情況下,MRDIMM的運算效率相比RDIMM提高了1.2倍;使用容量翻倍的高尺寸(TFF)MRDIMM時,運算效率更是提高了1.7倍,內存與存儲之間的數據遷移減少了10倍。在AI推理方面,MRDIMM同樣表現出色,以運行meta Llama 3 8B大模型為例,使用MRDIMM后,詞元的吞吐量顯著提升,延遲大幅降低,CPU利用效率和末級緩存(LLC)延遲也得到了顯著改善。
面對這一技術革新,處理器和存儲設備巨頭紛紛布局相關產品。英特爾推出了專為高性能計算和AI等計算密集型工作負載設計的至強6性能核處理器,最高配備128個性能核,并支持新型內存技術MRDIMM。AMD也不甘落后,其下一代“Zen 6”架構的EPYC霄龍系列服務器處理器將首次支持MRDIMM內存條。存儲方面,美光、Rambus、瑞薩電子等企業也相繼推出了MRDIMM相關產品或解決方案。
在國內,瀾起科技等企業也開始積極布局MRDIMM技術。經過前期的戰略布局和持續的研發投入,瀾起科技已完成時鐘發生器芯片量產版本研發,并成為全球兩家可提供第一子代MRCD/MDB芯片的供應商之一。其他國內企業雖然暫時進度較慢,但也開始保持對新技術、新產品形態的關注與探索。
展望未來,第二子代MRDIMM的數據傳輸速率將達到12800MT/s,相比第一子代有了顯著提升。在高性能計算、人工智能等對內存帶寬需求較大的工作負載場景下,MRDIMM有望成為應用系統主內存的優選方案。同時,隨著更多服務器CPU平臺支持MRDIMM,包括一些ARM架構的CPU平臺,MRDIMM的生態將進一步完善,推動其行業滲透率的提升以及MRCD/MDB芯片需求的增長。
值得注意的是,雖然MRDIMM與HBM(高帶寬內存)在技術上有所不同,但兩者在未來都有可能成為AI和高性能計算的主流內存解決方案。它們各有優勢,分別適用于不同的應用場景,共同推動內存市場的革新與發展。