英偉達(dá)在GPU生態(tài)領(lǐng)域再次掀起波瀾,本周宣布推出CUDA平臺二十年來最具顛覆性的更新——CUDA 13.1,同時(shí)在通用人工智能(AGI)競賽中取得突破性進(jìn)展。這家芯片巨頭通過軟硬件雙輪驅(qū)動(dòng),不僅重塑了GPU編程范式,更在AI推理能力評估中刷新行業(yè)認(rèn)知。
在Kaggle ARC Prize 2025競賽中,由頂尖工程師組成的KGMoN團(tuán)隊(duì)以27.64%的得分登頂冠軍。該團(tuán)隊(duì)采用的創(chuàng)新方案顛覆了傳統(tǒng)大模型路徑,其核心是一個(gè)僅40億參數(shù)的精簡模型,通過合成數(shù)據(jù)工程與推理時(shí)優(yōu)化技術(shù),在保持單任務(wù)成本僅20美分的同時(shí),展現(xiàn)出超越千億參數(shù)模型的推理能力。這項(xiàng)成果被業(yè)界視為衡量AGI發(fā)展進(jìn)程的重要里程碑,其評估基準(zhǔn)ARC-AGI-2因能精準(zhǔn)檢測AI的泛化推理能力,已成為衡量機(jī)器智商的核心指標(biāo)。
技術(shù)突破的關(guān)鍵在于數(shù)據(jù)生成范式的革新。研究團(tuán)隊(duì)構(gòu)建了包含320萬個(gè)增強(qiáng)樣本的超級數(shù)據(jù)集,通過四步流水線實(shí)現(xiàn)數(shù)據(jù)合成:首先收集原始題目的自然語言描述,繼而利用1200億參數(shù)大模型進(jìn)行描述雜交生成新題目,再通過代碼生成輸入輸出邏輯,最終形成包含完整推理鏈條的合成數(shù)據(jù)。這種"用代碼生成數(shù)據(jù)"的策略,使模型在特定領(lǐng)域獲得超越規(guī)模優(yōu)勢的推理能力。
模型訓(xùn)練階段,團(tuán)隊(duì)選擇Qwen3架構(gòu)的40億參數(shù)模型進(jìn)行全量微調(diào),采用NeMoRL框架與Megatron后端實(shí)現(xiàn)高效訓(xùn)練。在4臺配備8塊H100的節(jié)點(diǎn)上,經(jīng)過27小時(shí)訓(xùn)練即完成模型優(yōu)化。推理階段引入測試時(shí)訓(xùn)練(TTT)技術(shù),針對每個(gè)新謎題使用LoRA方法進(jìn)行快速適配,配合深度優(yōu)先搜索算法批量驗(yàn)證候選解,這種"推理時(shí)訓(xùn)練+驗(yàn)證時(shí)搜索"的組合策略顯著提升了模型泛化能力。
CUDA 13.1的發(fā)布則為GPU編程帶來范式革命。新引入的CUDA Tile編程模型將開發(fā)層級從線程級提升至數(shù)據(jù)塊級,開發(fā)者只需定義數(shù)學(xué)運(yùn)算邏輯,編譯器自動(dòng)完成線程分配與硬件適配。這種抽象層設(shè)計(jì)使代碼能無縫兼容未來GPU架構(gòu),特別針對Blackwell等新一代硬件優(yōu)化。配套推出的CUDATileIR虛擬指令集與cuTile Python領(lǐng)域特定語言,進(jìn)一步降低了GPU編程門檻。
軟件生態(tài)層面,Green Context技術(shù)實(shí)現(xiàn)GPU資源的精細(xì)化管理,開發(fā)者可創(chuàng)建獨(dú)立的SM分區(qū)并預(yù)置計(jì)算資源,避免多任務(wù)間的虛假依賴。多進(jìn)程服務(wù)(MPS)新增內(nèi)存局部性優(yōu)化分區(qū)功能,在Blackwell架構(gòu)上可將GPU虛擬化為多個(gè)獨(dú)立設(shè)備,每個(gè)分區(qū)具備專屬計(jì)算與內(nèi)存資源。靜態(tài)SM分區(qū)模式則通過確定性資源分配提升多任務(wù)隔離性。
數(shù)學(xué)庫性能獲得顯著提升:cuBLAS新增分組GEMM實(shí)驗(yàn)性API,在MoE架構(gòu)中實(shí)現(xiàn)4倍加速;cuSPARSE推出的稀疏矩陣向量乘法API,較傳統(tǒng)CSR格式性能提升明顯;cuFFT設(shè)備API通過代碼生成機(jī)制優(yōu)化傅里葉變換效率。在特征值分解領(lǐng)域,批處理SYEVD與GEEV API在RTX Pro 6000上分別實(shí)現(xiàn)2倍與1.5倍加速,顯著提升科學(xué)計(jì)算效率。
開發(fā)者工具鏈同步升級,Nsight Compute新增CUDA Tile內(nèi)核分析模塊,可直觀展示Tile維度利用率與管道效率;Compute Sanitizer通過編譯時(shí)插樁技術(shù)增強(qiáng)內(nèi)存錯(cuò)誤檢測能力,在不影響運(yùn)行速度的前提下提升調(diào)試效率;Nsight Systems 2025.6.1引入系統(tǒng)級CUDA追蹤功能,支持跨進(jìn)程的硬件級性能分析。
這場軟硬件協(xié)同創(chuàng)新正在重塑AI技術(shù)格局。KGMoN團(tuán)隊(duì)的勝利證明,通過合成數(shù)據(jù)工程與推理時(shí)優(yōu)化,小規(guī)模模型同樣能實(shí)現(xiàn)高階推理能力;CUDA 13.1的架構(gòu)革新則為開發(fā)者提供了駕馭未來GPU的利器。當(dāng)數(shù)據(jù)生成策略與編程范式發(fā)生根本性變革,AI發(fā)展路徑正從參數(shù)規(guī)模競爭轉(zhuǎn)向效率與智慧的深度優(yōu)化。











