12 月 18 日消息,據(jù)路透社報道,知情人士透露,Alphabet 旗下的谷歌正在推進一項新計劃,旨在提升其人工智能芯片運行全球最主流 AI 軟件框架 PyTorch 的性能,此舉意在削弱英偉達在人工智能計算市場長期以來的霸主地位。
據(jù)了解,該計劃是谷歌雄心勃勃的戰(zhàn)略布局之一,核心目標是讓旗下張量處理單元(TPU)成為英偉達市場領先的圖形處理器(GPU)的可靠替代品。隨著谷歌試圖向投資者證明其人工智能相關投資已產生回報,TPU 的銷售額已成為谷歌云業(yè)務收入的關鍵增長引擎。
但知情人士表示,僅憑硬件優(yōu)勢不足以推動客戶廣泛采用。這項內部代號為“TorchTPU”的新計劃,旨在消除阻礙 TPU 芯片普及的核心障礙 —— 通過實現(xiàn) TPU 與 PyTorch 的完全兼容,并提升對開發(fā)者的友好度,來吸引那些已基于 PyTorch 構建技術架構的客戶。部分知情人士還透露,谷歌正考慮將該軟件的部分組件開源,以加快客戶的采用進程。
知情人士稱,相較于此前為支持 TPU 運行 PyTorch 所做的嘗試,谷歌此次對 TorchTPU 投入了更多的組織關注度、資源與戰(zhàn)略權重。背后的原因是,越來越多有意采用 TPU 的企業(yè)認為,相關軟件棧是制約芯片落地的瓶頸。
PyTorch 是一個由 meta 公司深度支持的開源項目,也是人工智能模型開發(fā)者最常使用的工具之一。在硅谷,極少有開發(fā)者會逐行編寫能在英偉達、AMD 或谷歌芯片上直接執(zhí)行的代碼。
相反,開發(fā)者們會依賴 PyTorch 這類工具,其整合了大量預先編寫的代碼庫與框架,能夠自動化完成人工智能軟件開發(fā)中的諸多常見任務。PyTorch 于 2016 年首次發(fā)布,其發(fā)展歷程與英偉達的并行計算架構(CUDA)緊密相連。部分華爾街分析師認為,CUDA 正是英偉達抵御競爭對手的最強壁壘。
英偉達的工程師耗時多年優(yōu)化,確保基于 PyTorch 開發(fā)的軟件能在其芯片上實現(xiàn)極致的運行速度與效率。相比之下,谷歌長期以來一直讓內部的大批軟件開發(fā)人員使用另一款名為 Jax 的代碼框架,旗下 TPU 芯片則通過 XLA 工具來提升代碼的運行效率。谷歌自身的大部分人工智能軟件棧與性能優(yōu)化工作均圍繞 Jax 展開,這使得谷歌自身的芯片使用方式,與客戶期望的使用方式之間的差距逐漸拉大。
谷歌云發(fā)言人未就該項目的具體細節(jié)置評,但向路透社證實,此舉將為客戶提供更多選擇。
該發(fā)言人表示:“我們看到市場對我們的 TPU 和 GPU 基礎設施的需求正在大規(guī)模激增。我們的核心關注點是,無論開發(fā)者選擇基于何種硬件進行開發(fā),都能為他們提供所需的靈活性與規(guī)模支持。”
面向客戶的 TPU
長期以來,Alphabet 將旗下大部分 TPU 芯片優(yōu)先用于內部業(yè)務。這一局面在 2022 年發(fā)生改變,谷歌云計算部門成功游說公司,接管了負責 TPU 銷售的團隊。這一調整大幅增加了谷歌云的 TPU 配額。隨著客戶對人工智能的興趣日益濃厚,谷歌也在通過擴大產能、向外部客戶銷售 TPU 的方式,把握這一市場機遇。
然而,全球多數(shù)人工智能開發(fā)者使用的 PyTorch 框架,與谷歌芯片目前高度適配的 Jax 框架之間存在兼容性鴻溝。這意味著,大多數(shù)開發(fā)者若想采用谷歌芯片,并使其性能媲美英偉達產品,就必須投入大量額外的工程開發(fā)工作。在競爭激烈的人工智能賽道,這些工作既耗時又耗錢。
若“TorchTPU”計劃能成功落地,將大幅降低那些尋求英偉達 GPU 替代品的企業(yè)的遷移成本。英偉達的市場主導地位不僅源于其硬件優(yōu)勢,更得益于其 CUDA 軟件生態(tài)系統(tǒng),該系統(tǒng)已深度嵌入 PyTorch,成為企業(yè)訓練和運行大型人工智能模型的默認方案。
知情人士稱,企業(yè)客戶向谷歌反饋,TPU 在人工智能工作負載場景中較難推廣,原因在于過去使用 TPU 往往要求開發(fā)者放棄行業(yè)主流的 PyTorch,轉而使用谷歌內部偏好的機器學習框架 Jax。
與 meta 的合作
知情人士透露,為加速開發(fā)進程,谷歌正與 PyTorch 的研發(fā)與維護方 meta 展開緊密合作。此前《The Information》曾報道,兩家科技巨頭正在洽談相關合作,擬讓 meta 獲得更多 TPU 的使用權。
谷歌最初向 meta 提供的是托管服務模式 —— 像 meta 這樣的客戶可部署谷歌專為運行其軟件和模型設計的芯片,同時由谷歌提供運維支持。知情人士表示,meta 在推動 TPU 兼容軟件的開發(fā)方面有著明確的戰(zhàn)略考量:此舉有助于降低模型推理成本,推動其人工智能基礎設施擺脫對英偉達 GPU 的依賴,從而在合作談判中掌握更多主動權。
meta 方面則拒絕就此置評。
今年以來,谷歌已開始直接向客戶的數(shù)據(jù)中心銷售 TPU,不再將其使用權限局限于自家云平臺。本月,谷歌資深高管阿明?瓦赫達特被任命為人工智能基礎設施負責人,直接向谷歌首席執(zhí)行官桑達爾?皮查伊匯報。
谷歌的人工智能基礎設施肩負著雙重使命:既要支撐 Gemini 聊天機器人、人工智能驅動的搜索引擎等自研產品的運行,也要為谷歌云的客戶提供服務,例如,向人工智能公司 Anthropic 等企業(yè)出售 TPU 的使用權。









