馬斯克旗下人工智能公司xAI日前宣布,其最新研發(fā)的AI模型Grok 4.1已正式面向全球用戶開放。用戶可通過Grok官方網站、社交平臺X以及iOS和Android移動應用直接體驗該模型的多項功能。此次更新標志著xAI在通用人工智能領域邁出重要一步,尤其在情感交互與創(chuàng)造性任務處理方面展現(xiàn)出顯著突破。
技術團隊在原有大規(guī)模強化學習框架基礎上,對模型風格、個性特征及用戶對齊機制進行深度優(yōu)化。通過引入前沿智能體推理模型作為獎勵評估系統(tǒng),xAI開發(fā)出自主迭代輸出結果的全新方法,有效解決了非直接驗證型獎勵信號的優(yōu)化難題。對比前代產品,新模型在用戶偏好測試中以64.78%的選擇率形成壓倒性優(yōu)勢。
在權威評測平臺LMArena的Text Arena排行榜中,Grok 4.1的推理模式(代號quasarflux)以1483分的Elo評分登頂全球榜首,較第二名非xAI模型領先31分。其非推理模式(代號tensor)雖未啟用思維鏈技術,仍以1465分位居次席,超越其他所有啟用完整推理配置的競品模型。值得關注的是,前代Grok 4在該榜單中僅排名第33位,此次升級實現(xiàn)跨越式發(fā)展。
情感智能測試方面,xAI采用EQ-Bench3基準評估體系,該測試包含45個高難度角色扮演場景,通過三輪對話提示檢驗模型的情緒理解、同理心及社交技巧。在由Claude Sonnet 3.7擔任裁判的標準化測試中,Grok 4.1的兩種模式包攬榜單前兩名,展現(xiàn)出卓越的人際互動能力。測試樣本顯示,模型能精準識別用戶情緒波動,并給出兼具邏輯性與情感溫度的回應。
創(chuàng)意寫作領域,該模型在Creative Writing v3基準測試中取得突破性成績。面對32個多樣化寫作提示,Grok 4.1的推理與非推理模式分別斬獲第二、第三名,僅以微弱差距落后于早期版本的GPT 5.1。測試案例表明,模型既能生成結構嚴謹的長篇敘事,也可創(chuàng)作富有詩意的短篇文本,在文學性與實用性之間取得平衡。
針對AI模型常見的"幻覺"問題,研發(fā)團隊重點優(yōu)化了信息查詢場景下的事實準確性。通過改進后訓練流程,模型在處理生產環(huán)境中的真實查詢請求時,幻覺發(fā)生率顯著降低。在包含500個傳記類問題的FActScore公共基準測試中,Grok 4.1展現(xiàn)出可靠的事實核查能力,有效減少了虛構內容的生成。
技術文檔顯示,Grok 4.1的Auto模式將自動推送至用戶端,同時保留模型選擇器的手動切換功能。詳細技術參數與訓練方法可查閱xAI官方發(fā)布的模型卡片,該文檔全面披露了模型架構、訓練數據構成及安全評估機制。用戶可通過指定網址獲取完整技術報告,或訪問官方博客了解產品更新動態(tài)。











