滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

馬斯克搶先發布Grok 4.1，性能情商雙提升，大模型競爭再掀高潮

時間：2025-11-18 22:30:02 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

當科技圈還在熱議谷歌即將推出的Gemini 3時，馬斯克旗下xAI公司悄然放出重磅消息：其最新大語言模型Grok 4.1系列正式上線。這款被業界稱為"雙形態"的模型不僅在響應速度和事實準確性上實現突破，更通過獨特的推理增強版本重新定義了AI交互體驗。

此次發布的Grok 4.1包含標準版和Thinking版兩個版本，二者共享底層架構但采用不同推理配置。Thinking版作為增強推理變體，通過"思考令牌"機制實現鏈式推理，在復雜數學運算、編程任務和多步驟問題解決中表現尤為突出。標準版則憑借256K tokens的上下文窗口（快速模式下可擴展至200萬），在長文檔處理和持續對話中保持高度連貫性。

在權威盲測平臺LMArena的最新評測中，Grok 4.1系列創造歷史性成績：Thinking版以1483 Elo評分登頂冠軍，標準版緊隨其后獲得亞軍。這個全球最具影響力的評測體系通過匿名雙盲對戰和真實用戶投票，驗證了模型在綜合性能上的絕對優勢。特別值得注意的是，標準版在非推理模式下仍超越所有競爭對手的推理模型，將前代產品Grok 4遠遠甩至第33名。

事實準確性是此次升級的核心突破點。xAI引入的大規模強化學習系統，配合前沿推理模型作為獎勵機制，使Grok 4.1的幻覺率從12.09%驟降至4.22%。在專門檢驗事實判斷能力的FActScore測試中，該模型得分從9.89優化至2.97，錯誤率降低超過70%。這意味著在涉及外部事實調用的場景中，模型能提供更可靠的證據支撐而非語義猜測。

情感理解能力的飛躍同樣引人注目。在EQ-Bench情商測試中，Grok 4.1以1586 Elo評分穩居榜首，較前代提升超百分。這個由45個角色扮演場景構成的測試集，通過三輪連續對話評估模型的共情能力和情緒響應。官方示例顯示，當用戶傾訴失去寵物的悲傷時，新模型能精準捕捉"空睡窩""期待中的喵叫"等細節，提供更具人文關懷的回應。

創意寫作領域迎來質的提升。在Creative Writing v3基準測試中，Grok 4.1以1722 Elo評分進入全球頂尖梯隊，較前代提升近600分。該測試要求模型完成32個類別的三輪獨立創作，涵蓋敘事結構、風格模仿和世界構建等復雜任務。實測顯示，新模型已從"段子生成器"進化為具備文學質感的創作者，能自然融入修辭手法和角色心理描寫。

用戶體驗優化體現在每個交互細節。標準版在保持極快響應速度的同時，輸出質量顯著提升。官方旅游攻略示例中，舊版模型提供的"百科式"清單被替換為個性化建議：根據用戶偏好推薦拍攝時段、規劃特色路線，甚至解讀城市文化氣質。這種"本地向導"式的交互風格，使對話更接近真實人際交流。

在正式發布前兩周的靜默測試中，64.78%的真實用戶在雙盲對比中選擇Grok 4.1的回答。這個由部分用戶流量切換形成的測試樣本，驗證了模型在真實場景中的優越性。目前所有用戶均可通過Grok官網、X平臺及新推出的iOS/安卓應用免費體驗，其中Thinking版提供"深度思考"按鈕，用戶可主動觸發增強推理模式。

實測環節驗證了技術文檔的宣傳亮點。在邏輯推理測試中，面對存在兩組解的數學謎題，Grok 4.1不僅完整呈現兩種可能性，還嘗試優化題目條件——盡管優化建議存在瑕疵，但展現出主動解決問題的思維模式。寫作測試中，模型用861字（非宣稱的578字）生動還原發布現場，準確嵌入產品亮點和市場背景。圖像生成功能則展示出驚人的真實感，其創作的照片級圖片可一鍵轉化為動態視頻。

更多>同類資訊

格羅方德收購AMF布局硅光子領域，擴展產能研發或成行業領頭羊

11-18

寶馬在華再進一步：自研AI智能體平臺“蓋亞”投入運行賦能多領域發展

11-18

國產AI新突破：Kimi K2 Thinking模型成功接入全球估值最高AI搜索Perplexity

11-18

小米2025年Q3營收1131億增22.3%，創新業務盈利新車交付超10萬

11-18

微博2025年Q3財報：營收微降但增值服務增長，用戶規模與AI應用顯成效

11-18

雷軍解讀小米2025Q3財報：營收利潤雙增汽車交付量再創新高

11-18

翼菲科技“鴻鈞”人形機器人亮相：全向移動身高可調適配多工種需求

11-18

嵐圖泰山旗艦SUV攜華為黑科技上市，首搭三腔空懸21分鐘大定破萬

11-18

盧偉冰透露：小米17系列銷售佳，但預計明年汽車毛利率或下滑

11-18

嵐圖泰山正式登場：華為智駕加持，超長續航大空間，37.99萬元起售

11-18

阿里千問APP公測版上線，免費開放，接入多場景對決ChatGPT

當地時間11月12日，OpenAI 正式官宣推出新一代旗艦模型GPT-5.1 系列，官方表示此次升級旨在“讓ChatGPT 更智能，對話體驗更有趣”。阿里集團董事兼首席執行官吳泳銘表示，大模型是下一代操作系…

11-18

貝索斯投身AI領域創辦新公司，馬斯克調侃其“跟風”引關注

11 月 18 日消息，據《紐約時報》昨日報道，亞馬遜創始人杰夫?貝索斯投資創辦了一家新的人工智能初創公司，名為“ProjectPrometheus”（普羅米修斯計劃）。公開資料顯示，Bajaj 曾領導并…

11-18

成都人工智能數字貿易中心啟航賦能商貿轉型注入區域經濟新動能

11月18日，成都人工智能數字貿易中心在成都國際商貿城正式啟動運營。項目建設運營方、成都成商未來人工智能公司董事長孫正川介紹，中心將為企業提供技術支撐、資源對接、人才培養等全鏈條服務，預計可降低企業數字轉型成…

11-18

卸任亞馬遜CEO后首度出山，貝索斯投身AI領域執掌“普羅米修斯計劃”

值得注意的是，這是貝索斯自 2021 年 7 月卸任亞馬遜 CEO 以來，首次在一家公司中擔任運營管理角色，盡管他目前還在深度參與對標馬斯克SpaceX 的藍色起源公司，但他在該航天公司也僅被冠以“創始人…

11-18

阿里千問APP公測首日火爆，憑Qwen模型實力沖擊AI to C市場

英偉達CEO黃仁勛曾表示，Qwen已占據全球開源模型的大部分市場。阿里方面表示，千問APP的戰略目標是打造未來的“AI生活入口”，成為一個“會聊天能辦事”的個人AI助手。除了智能對話，“能辦事”將是其核心發…

11-18

點擊查看更多 +

全站最新

廣汽昊鉑斬獲L3高速測試牌照 120公里時速引領自動駕駛實用化新征程

華為Mate X7官宣來襲！藝術美學與可靠品質交融，開啟折疊屏新體驗

英偉達11月20日凌晨發布第三財季財報預計營收有望再創新高

華為Mate 30 RS保時捷設計火燒后仍“堅挺”，網友盛贊質量超硬核

嵐圖泰山攜華為智駕上市：37.99萬起豪華配置科技感拉滿

百度2025年Q3財報：AI原生業務收入亮眼，智能云等推動新增長

熱門內容

本欄最新

東風奕派eπ007+深圳煥新登場：14萬級激光雷達加持，四驅轎跑新選擇

24.9萬起售！全新奔馳純電CLA攜四大突破，重塑豪華純電新標桿

東風奕派兩周年獻禮，eπ007+攜四大優勢登場，助力新能源賽道加速跑

東風奕派兩周年獻禮：eπ007+攜四大優勢登場，為年輕人出行注入新動力

東風奕派eπ007+高能登場，以“奕派速度”為年輕人解鎖百萬級出行新體驗

嵐圖泰山來襲：外觀大氣內飾豪華能否在高端SUV市場分一杯羹？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

馬斯克搶先發布Grok 4.1，性能情商雙提升，大模型競爭再掀高潮

日本精品一区二区三区高清久久