近期,科技界迎來了一則震撼人心的消息:Oracle公司宣布將斥資高達400億美元,從Nvidia公司采購最新研發的GB200超級芯片,旨在強化與OpenAI的合作,為其提供前所未有的計算能力支持。這一舉措標志著Oracle在人工智能領域的又一次重大布局。
據悉,這批超級芯片將部署在美國德克薩斯州阿比林市新建的“星門”數據中心,這是Oracle在美國的首個此類設施。GB200超級芯片在Nvidia的GTC大會上首次亮相,集成了Blackwell GPU和Grace CPU,性能卓越。每36個GB200芯片組成一個NVL72系統,能提供每秒1.4exaFLOPS的稀疏FP4計算能力。按照規劃,Oracle將在1.2吉瓦的設施內安裝約11000個機架系統,整體計算能力接近16zettaFLOPs,這無疑將大幅提升其數據處理和人工智能應用的效率。
然而,這一雄心勃勃的計劃也面臨著不小的挑戰。阿比林數據中心目前的電力供應僅為200兆瓦,遠遠無法滿足全部機架系統的運行需求。據估算,若要充分利用這些超級芯片的潛力,至少需要1.45吉瓦的電力,其中包括電力和冷卻系統的損耗。這意味著,在當前電力供應下,數據中心僅能支持約1500個NVL72機架和54000個GB200超級芯片的運行。
盡管面臨電力供應的難題,Oracle與數據中心運營商Crusoe仍在積極尋求解決方案。他們指出,并非所有機架系統都會同時達到最大功耗,而且阿比林數據中心由八棟建筑組成,Oracle不太可能將所有超級芯片集中在一個訓練集群中。相反,他們可能會將部分芯片用于推理、合成數據生成、強化學習等其他工作負載,這些任務對系統資源的消耗相對較低。
如果Oracle和Crusoe能夠成功克服電力限制,阿比林數據中心有望成為美國最強大的AI超級計算機之一,其計算能力將遠超埃隆·馬斯克的Colossus超級計算機。位于田納西州的Colossus系統雖然配備了近800exaFLOPS的稀疏FP8計算能力,但目前仍依賴多臺天然氣渦輪機供電,尚未完全穩定。
OpenAI的“星門”項目也在積極推進國際化進程。他們計劃與Oracle、Nvidia、Cisco等公司合作,在阿聯酋建立新的計算能力中心。這一項目預計將在2026年上線首個200兆瓦的電力階段,進一步拓展全球范圍內的人工智能計算能力。