在人工智能領域,大模型的應用正逐步從預訓練階段向后訓練階段轉移,這一趨勢在xAI最新發布的Grok 4模型中得到了顯著體現。這款被埃隆·馬斯克譽為“宇宙最強模型”的大模型,通過20萬塊GPU組成的Colossus超級計算機集群訓練而成,擁有25.6萬tokens的上下文窗口,主打多模態功能,支持復雜交互,推理速度更快,用戶界面也更為優化。
Grok 4在“人類最后的考試”中表現突出,準確率達到了38.6%,超越了谷歌Gemini 2.5 Pro和OpenAI o3等模型。多智能體版本Grok 4 Heavy更是達到了44.4%,輔以工具輔助后,準確率提升至50.7%。在與其他模型的基準測試中,Grok 4同樣表現出色,位居前列。
馬斯克在發布會上表示,Grok 4在所有學科中均達到了研究生水平,甚至超越了許多PhD的能力。這一成就的背后,后訓練技術發揮了關鍵作用。隨著基礎大模型在通用能力上的邊際效益遞減,AI技術范式正逐漸從注重預訓練轉向注重后訓練,后訓練成為決定模型最終價值的關鍵環節。
后訓練階段通常包括多輪微調和對齊,旨在優化模型行為,使其與人類意圖對齊,減少偏見和不準確度。通過微調、強化學習、思維鏈、低秩適應等技術,后訓練能夠提升模型的計算效率和準確性,實現知識精煉、能力對齊和推理增強。
產業應用方面,后訓練技術同樣發揮著重要作用。在出行、住房、教育等領域,通用大模型在面臨專業領域問題時常常出現知識斷層和幻覺現象。通過增量預訓練、監督微調、知識圖譜等技術手段,企業正努力提升大模型在行業應用中的表現。例如,某汽車門戶網站通過“增量預訓練+SFT+知識圖譜”的方法,使大模型在車型信息問答和導購方面的準確率顯著提升。
為了進一步提升大模型的適用性和準確性,業界還在探索新的后訓練方法。例如,采用MoE模型作為基礎模型,通過動態路由算法優化計算效率;使用FP8精度數據,在幾乎無損精度的情況下大幅提升訓練和推理效率。這些新技術不僅提升了模型的性能,也降低了訓練成本。
夸克高考大模型是后訓練技術應用的又一成功案例。該模型以通義千問系列的MoE模型為基座,通過增量預訓練、監督微調、可驗證獎勵的獎勵強化學習(RLVR)和人類反饋強化學習(RLHF)等步驟進行后訓練。經過后訓練的模型能夠基于模擬的考生檔案生成志愿填報方案,并通過專家反饋進行策略評分和優化。截至7月8日,夸克高考服務了全國超4000萬考生及家長,累計生成了超過1200萬份AI志愿報告。
在后訓練過程中,數據、評估、獎勵機制、可擴展性和基礎設施等五大關鍵要素共同決定了模型的最終性能。為了應對這些挑戰,企業需要穩定、高效、全能的平臺支持。阿里云通過其全棧AI能力,為企業提供從算力到平臺的“后訓練”一體化支撐,包括全球部署的基礎設施、領先的模型基座、高效的訓練框架以及堅實的數據底座和完善的部署閉環。
隨著大模型的發展從“規模的軍備競賽”轉向“深度適配業務場景的價值創造”,越來越多的企業認識到“云+AI”融合的重要性。阿里云的全棧AI能力正在將后訓練從復雜的“工程問題”轉變為清晰的“業務問題”,幫助企業將寶貴精力聚焦于核心業務創新,抓住AI時代的機遇。