滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 信息流 > 正文內(nèi)容

線性注意力復(fù)興潮起：Kimi新模型突破，MiniMax折返引行業(yè)新思考

時(shí)間：2025-11-02 04:48:47 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

在大語(yǔ)言模型（LLM）領(lǐng)域，一場(chǎng)關(guān)于注意力機(jī)制的技術(shù)路線之爭(zhēng)正悄然展開。隨著國(guó)產(chǎn)模型在工程實(shí)踐中的持續(xù)推進(jìn)，線性注意力機(jī)制這一曾被邊緣化的技術(shù)，正重新回到行業(yè)視野。其核心驅(qū)動(dòng)力，既源于國(guó)內(nèi)算力資源的有限性，也與智能體（Agent）技術(shù)落地的長(zhǎng)遠(yuǎn)目標(biāo)密切相關(guān)。面對(duì)國(guó)外主流模型閉源、技術(shù)細(xì)節(jié)難以窺探的現(xiàn)狀，國(guó)內(nèi)團(tuán)隊(duì)正通過(guò)創(chuàng)新探索，試圖打破傳統(tǒng)注意力機(jī)制的瓶頸。

線性注意力的研究并非新事。早在2020年前后，學(xué)術(shù)界便涌現(xiàn)出大量相關(guān)論文，試圖將注意力機(jī)制的時(shí)間與內(nèi)存復(fù)雜度從O(n2)降至O(n)，以提升長(zhǎng)序列處理效率。然而，早期嘗試普遍面臨精度損失的問(wèn)題，導(dǎo)致其始終未能被應(yīng)用于任何開源的、達(dá)到業(yè)界頂尖水平的大語(yǔ)言模型中。這一技術(shù)路線因此長(zhǎng)期被視為“效率優(yōu)先、精度妥協(xié)”的權(quán)宜之計(jì)。

轉(zhuǎn)折點(diǎn)出現(xiàn)在今年下半年。國(guó)產(chǎn)模型團(tuán)隊(duì)率先掀起線性注意力的復(fù)興浪潮。6月，MiniMax團(tuán)隊(duì)推出擁有4560億總參數(shù)、460億激活參數(shù)的MoE模型M1，首次采用“閃電注意力”（lightning attention）機(jī)制；8月，Qwen3團(tuán)隊(duì)發(fā)布的Qwen3-Next模型，同樣引入線性注意力變體；9月，DeepSeek團(tuán)隊(duì)發(fā)布的V3.2模型，則通過(guò)稀疏注意力（sparse attention）實(shí)現(xiàn)了亞二次方復(fù)雜度。這些模型共同的特點(diǎn)是，在大部分或全部網(wǎng)絡(luò)層中，用線性或亞二次方注意力替代了傳統(tǒng)的二次方注意力，為長(zhǎng)文本處理和資源優(yōu)化提供了新思路。

然而，技術(shù)路線的探索并非一帆風(fēng)順。MiniMax團(tuán)隊(duì)在發(fā)布M1模型后不久，便悄然轉(zhuǎn)向。其新推出的2300億參數(shù)模型M2，出人意料地放棄了線性注意力，重新采用常規(guī)注意力機(jī)制。團(tuán)隊(duì)解釋稱，線性注意力在生產(chǎn)環(huán)境中表現(xiàn)“棘手”：盡管在常規(guī)提示任務(wù)中表現(xiàn)尚可，但在推理和多輪對(duì)話等關(guān)鍵場(chǎng)景中，精度問(wèn)題顯著——而這兩項(xiàng)能力正是聊天會(huì)話和智能體應(yīng)用的核心需求。這一決策一度引發(fā)行業(yè)對(duì)線性注意力實(shí)用性的質(zhì)疑。

就在爭(zhēng)議聲中，Kimi團(tuán)隊(duì)上周發(fā)布的Kimi Linear模型，為線性注意力注入了新活力。官方數(shù)據(jù)顯示，該模型通過(guò)混合注意力策略，實(shí)現(xiàn)了75%的KV緩存縮減和最高6倍的解碼吞吐量提升。其架構(gòu)設(shè)計(jì)融合了輕量級(jí)線性注意力與重量級(jí)全注意力：每三個(gè)采用Kimi Delta Attention（KDA）機(jī)制的Transformer塊，搭配一個(gè)使用多頭潛在注意力（MLA）的塊，比例固定為3:1。這一設(shè)計(jì)既保留了線性注意力的高效性，又通過(guò)全注意力層彌補(bǔ)了精度短板。

Kimi Linear的創(chuàng)新不僅體現(xiàn)在混合策略上。其線性部分采用的KDA機(jī)制，是對(duì)Gated DeltaNet的進(jìn)一步優(yōu)化；全注意力部分則用MLA替代了標(biāo)準(zhǔn)模塊，通過(guò)潛在空間映射降低計(jì)算開銷。盡管論文未直接對(duì)比Qwen3-Next，但與Gated DeltaNet-H1模型（滑動(dòng)窗口注意力與Gated DeltaNet的結(jié)合）相比，Kimi Linear在保持相同生成速度的同時(shí)，實(shí)現(xiàn)了更高的建模精度。目前，MLA模塊尚未整合輸出門（sigmoid bypass），但團(tuán)隊(duì)計(jì)劃在未來(lái)版本中加入這一特性，以進(jìn)一步提升模型表現(xiàn)。

這場(chǎng)技術(shù)路線之爭(zhēng)，折射出大語(yǔ)言模型發(fā)展中的深層矛盾：在算力資源有限與模型能力無(wú)限追求之間，如何找到平衡點(diǎn)？國(guó)產(chǎn)團(tuán)隊(duì)的探索表明，線性注意力并非“非此即彼”的選擇，而是可以通過(guò)混合策略、機(jī)制優(yōu)化等方式，在效率與精度間開辟新路徑。隨著Kimi Linear等模型的涌現(xiàn)，行業(yè)對(duì)線性注意力的認(rèn)知正從“替代方案”轉(zhuǎn)向“補(bǔ)充工具”，其未來(lái)應(yīng)用場(chǎng)景或遠(yuǎn)超預(yù)期。

11-15

中國(guó)第42次南極考察隊(duì)“雪鷹601”成功轉(zhuǎn)運(yùn)俄病員展現(xiàn)國(guó)際救援擔(dān)當(dāng)

11-15

2025天貓雙11完美收官：多品牌成交亮眼，多項(xiàng)業(yè)務(wù)數(shù)據(jù)創(chuàng)新高

11-15

神舟二十號(hào)乘組抵京開啟恢復(fù)期 3.2公斤航天醫(yī)學(xué)樣本助力科研

11-15

神舟二十號(hào)乘組安全歸來(lái)，中國(guó)空間站應(yīng)急救援體系顯成效

11-15

影視颶風(fēng)Tim回應(yīng)相親角爭(zhēng)議：幽默整活合規(guī)，未來(lái)創(chuàng)作將更謹(jǐn)慎

11-15

胖東來(lái)百余對(duì)新人踐行無(wú)彩禮結(jié)婚于東來(lái)：助力員工輕松開啟美好生活

11-15

高交會(huì)機(jī)器人“大顯身手”：從“能動(dòng)”邁向“能干”新征程

如果說(shuō)過(guò)去的人形機(jī)器人展示更多停留在“動(dòng)作示范”，今年的高交會(huì)已經(jīng)顯現(xiàn)出向“任務(wù)鏈演示”轉(zhuǎn)向的信號(hào)：從走路、揮手，到協(xié)同搬運(yùn)、對(duì)抗穩(wěn)定、工業(yè)交互，不同企業(yè)開始在各自擅長(zhǎng)的方向上構(gòu)建可復(fù)用的模塊化能力。今年…

11-15

斑馬魚再赴太空：科研探索與生命科學(xué)研究的雙重征程

2024年11月3日，水生所國(guó)家斑馬魚資源中心培育的一尾TU品系野生型斑馬魚在中國(guó)空間站的背景前游動(dòng)。 2024年4月，來(lái)自水生所國(guó)家斑馬魚資源中心的4尾斑馬魚作為“魚航員”隨神舟十八號(hào)首次入駐中國(guó)空間…

11-15

神舟二十號(hào)航天員乘組抵京，204天在軌駐留創(chuàng)中國(guó)航天新里程

11-15

神舟二十號(hào)航天員乘組出艙！陳冬創(chuàng)紀(jì)錄，首飛之旅圓滿收官

11-15

中國(guó)空間站第九批科學(xué)實(shí)驗(yàn)樣品交付 46.67公斤“太空特產(chǎn)”助力科研

11-15

神舟二十乘組啟程返航，神舟二十二接力，受損飛船何去何從？

11-15

飛豬雙11成績(jī)斐然：GMV增長(zhǎng)、商家豐收，新體驗(yàn)引領(lǐng)旅游新風(fēng)潮

11-15

南航“天宮杯”創(chuàng)新盛宴：無(wú)傷智造、“在軌工匠”共繪科創(chuàng)藍(lán)圖

11-15

點(diǎn)擊查看更多 +

全站最新

科大訊飛AI學(xué)習(xí)機(jī)S30深度評(píng)測(cè)：個(gè)性化學(xué)習(xí)護(hù)眼雙保障，助力孩子高效成長(zhǎng)

鼎美匯成長(zhǎng)之路：競(jìng)爭(zhēng)爭(zhēng)議相伴，堅(jiān)守初心方能鑄就品牌傳奇

堅(jiān)守長(zhǎng)期主義！哈弗大狗憑卓越耐蝕性能成經(jīng)濟(jì)型車組別唯一獲獎(jiǎng)車型

比亞迪高端化新突破！騰勢(shì)N8L憑實(shí)力“破圈”，營(yíng)銷助力熱度持續(xù)

新能源車零百加速或設(shè)限？別急，默認(rèn)5秒外仍可手動(dòng)切換高性能

雷軍再談小米汽車安全理念：以扎實(shí)用料與高效吸能筑牢行車安全防線

熱門內(nèi)容

本欄最新

全新坦克400多版本上市，潮酷設(shè)計(jì)引都市青年追捧，開啟多元越野生活

全新坦克400正式登場(chǎng)，24.98萬(wàn)起售，四款動(dòng)力滿足多元需求！

起亞Telluride測(cè)試車披"藝術(shù)偽裝"亮相，創(chuàng)意彩蛋致敬命名地

30萬(wàn)級(jí)6座SUV新角逐：2026款騰勢(shì)N8L與理想L8，誰(shuí)更合家庭心意？

遠(yuǎn)程湘潭基地智能制造賦能超級(jí)VAN，推動(dòng)新能源商用車產(chǎn)業(yè)高質(zhì)量發(fā)展

每日一書

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

線性注意力復(fù)興潮起：Kimi新模型突破，MiniMax折返引行業(yè)新思考

日本精品一区二区三区高清久久