滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 信息流 > 正文內(nèi)容

開(kāi)源DeepSeek R1增強(qiáng)版：推理效率快200%，創(chuàng)新AoE架構(gòu)

時(shí)間：2025-07-04 09:05:10 來(lái)源：AIGC開(kāi)放社區(qū)編輯：快訊團(tuán)隊(duì) IP：北京 發(fā)表評(píng)論無(wú)障礙通道

德國(guó)知名技術(shù)咨詢公司TNG開(kāi)源了DeepSeek R1的增強(qiáng)版DeepSeek-TNG-R1T2-Chimera。

Chimera是基于DeepSeek的R1-0528、R1和V3-0324三大模型混合開(kāi)發(fā)而成，同時(shí)采用了一種全新的AoE架構(gòu)。這種架構(gòu)在提升性能的同時(shí)，還能加快模型的推理效率并節(jié)省token輸出。

根據(jù)測(cè)試數(shù)據(jù)顯示，Chimera版本的推理效率比R1-0528版本快200%，而推理成本卻大幅度減少。在MTBench、AIME-2024等主流測(cè)試基準(zhǔn)中，Chimera比普通R1性能更好。

開(kāi)源地址： https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

在深入了解AoE架構(gòu)之前，我們先簡(jiǎn)單介紹一下混合專家（MoE）架構(gòu)。MoE架構(gòu)的核心是將Transformer的前饋層劃分為多個(gè)“專家”，每個(gè)輸入標(biāo)記僅路由到這些專家的一個(gè)子集。這種架構(gòu)在效率和性能方面都取得了顯著的成果。

例如，Mistral在2023年發(fā)布的Mixtral-8x7B模型，盡管其在推理過(guò)程中激活的參數(shù)數(shù)量?jī)H為13億，卻與擁有700億參數(shù)的LLaMA-2-70B模型性能相當(dāng)，且推理效率提高了6倍。

AoE架構(gòu)的核心則是利用MoE的細(xì)粒度結(jié)構(gòu)，通過(guò)線性時(shí)間復(fù)雜度從現(xiàn)有的混合專家父模型中構(gòu)建出具有特定能力的子模型。

通過(guò)插值和選擇性合并父模型的權(quán)重張量，生成新的模型變體，這些變體不僅繼承了父模型的優(yōu)良特性，還能夠根據(jù)需要調(diào)整其行為表現(xiàn)。

AoE方法的起點(diǎn)是選擇一組具有相同架構(gòu)的模型，這些模型通常是通過(guò)對(duì)一個(gè)預(yù)訓(xùn)練模型進(jìn)行微調(diào)得到的。研究者們選擇了DeepSeek-V3-0324和DeepSeek-R1作為父模型。這兩個(gè)模型都基于DeepSeek-V3架構(gòu)，但經(jīng)過(guò)不同的微調(diào)，分別在推理能力和指令遵循能力上表現(xiàn)出色。

為了構(gòu)建新的子模型，研究者們首先需要準(zhǔn)備這些父模型的權(quán)重張量。這些權(quán)重張量存儲(chǔ)在模型的權(quán)重文件中，通過(guò)解析這些文件，可以直接訪問(wèn)和操作這些張量。

在準(zhǔn)備好了父模型的權(quán)重張量之后，下一步是進(jìn)行權(quán)重張量的插值與合并。這是AoE方法的核心步驟，通過(guò)這個(gè)步驟，研究者們可以生成具有不同特性的子模型。

研究者們定義了一個(gè)權(quán)重系數(shù)λi，用于控制每個(gè)父模型在合并過(guò)程中的貢獻(xiàn)。在大多數(shù)情況下，這些權(quán)重系數(shù)是凸組合，即滿足λi≥0且所有權(quán)重系數(shù)之和為1。這種設(shè)置允許研究者們?cè)诓煌母改Ｐ椭g平滑地插值，生成一系列中間模型。

為了進(jìn)一步優(yōu)化合并過(guò)程，研究者們引入了閾值控制和差異篩選機(jī)制。這種方法的核心思想是，只有當(dāng)某個(gè)張量在不同父模型之間存在顯著差異時(shí)，才將其納入合并范圍。研究者們定義了一個(gè)閾值δ，只有當(dāng)某個(gè)張量與基礎(chǔ)模型之間的差異超過(guò)該閾值時(shí)，才會(huì)將其納入合并范圍。這種方法有效地避免了合并無(wú)關(guān)緊要的差異，從而減少了模型的復(fù)雜度和計(jì)算成本。

在MoE架構(gòu)中，路由專家張量起著至關(guān)重要的作用。這些張量決定了每個(gè)輸入標(biāo)記在推理過(guò)程中被路由到哪些專家模塊。在AoE方法中，研究者們特別關(guān)注了路由專家張量的處理。他們發(fā)現(xiàn)，通過(guò)合并不同父模型的路由專家張量，可以顯著提升子模型的推理能力。

因此，在構(gòu)建子模型時(shí)，研究者們不僅合并了父模型的權(quán)重張量，還特別關(guān)注了路由專家張量的合并。這種特殊處理使得子模型能夠繼承父模型的推理能力，同時(shí)保持高效的計(jì)算性能。

在確定了要合并的張量和權(quán)重系數(shù)之后，研究者們使用PyTorch框架實(shí)現(xiàn)了模型的合并。通過(guò)迭代訪問(wèn)父模型的權(quán)重文件中的每個(gè)張量對(duì)象，根據(jù)定義的權(quán)重系數(shù)和閾值，計(jì)算合并后的張量值。

這些合并后的張量值被保存到新的權(quán)重文件中，從而生成了新的子模型。這個(gè)過(guò)程不僅高效，而且可以靈活地調(diào)整合并策略，以生成具有不同特性的子模型。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

更多>同類資訊

微軟再掀裁員潮，近九千人或?qū)⑹苡绊?/a>

07-04

英偉達(dá)盤(pán)中突破3.92萬(wàn)億美元超越蘋(píng)果紀(jì)錄創(chuàng)史上最高市值

07-04

充電寶召回致經(jīng)營(yíng)困難公司倒閉？羅馬仕深夜發(fā)文回應(yīng)

07-04

微軟再啟大規(guī)模裁員，約9000人受影響，AI變革引發(fā)職場(chǎng)動(dòng)蕩？

07-04

GB300服務(wù)器首發(fā)花落CoreWeave：率先搶跑全球

07-04

《守望先鋒》聯(lián)動(dòng)保時(shí)捷純電動(dòng)Macan汽車，有望推D.VA新皮膚

07-04

蘋(píng)果被曝曾想推大型云服務(wù)叫板亞馬遜，自研芯片成優(yōu)勢(shì)

07-04

全球首款三折疊便宜了！華為Mate XT官方首次降價(jià)

07-04

蘋(píng)果Apple Arcade7月游戲陣容上線

07-04

曝iPhone 17 Pro Max電池將達(dá)到5000mAh：蘋(píng)果史上最大

07-04

三星Galaxy Z Fold7折疊機(jī)配件曝光：碳纖維加入

07-04

美國(guó)電動(dòng)汽車稅收抵免將于9月30日終止

07-04

北京發(fā)布12大AI應(yīng)用場(chǎng)景，總預(yù)算1.1億推進(jìn)人工智能落地

在“AI+城市”領(lǐng)域，北京市市政工程設(shè)計(jì)研究總院發(fā)布了“基于AI的城市路橋隧管養(yǎng)智能決策系統(tǒng)”場(chǎng)景，將通過(guò)大數(shù)據(jù)與AI，在路橋養(yǎng)護(hù)計(jì)劃、風(fēng)險(xiǎn)預(yù)識(shí)別、安全預(yù)評(píng)估、應(yīng)急搶險(xiǎn)指揮調(diào)度等工作中進(jìn)行智能輔助決策。這…

07-04

2025年6月互聯(lián)網(wǎng)新聞信息稿源單位全覽：權(quán)威渠道一網(wǎng)打盡

互聯(lián)網(wǎng)新聞信息稿源單位名單僅明確列出稿源單位主體（報(bào)紙、期刊、通訊社、廣播電臺(tái)、電視臺(tái)、互聯(lián)網(wǎng)站），不再一一展示其公眾賬號(hào)、應(yīng)用程序、論壇、博客、微博客、即時(shí)通信工具、網(wǎng)絡(luò)直播等具體服務(wù)形式。其中，中央和國(guó)家…

07-04

南科大自研人形機(jī)器人“南科盤(pán)古”亮相，深圳高校AI創(chuàng)新再突破

南科大獨(dú)立研發(fā)的“南科盤(pán)古”機(jī)器人訊記者沈婷婷、通訊員韓文嘉攝影報(bào)道：“您好，我是‘南科盤(pán)古’。”在南科大機(jī)器人研究院，人形機(jī)器人“南科盤(pán)古”正在親切地與人打招呼。這款機(jī)器人能實(shí)現(xiàn)智能交互…

07-04

點(diǎn)擊查看更多 +

全站最新

三星Galaxy Z Fold7折疊機(jī)配件曝光：碳纖維加入

美國(guó)電動(dòng)汽車稅收抵免將于9月30日終止

北京發(fā)布12大AI應(yīng)用場(chǎng)景，總預(yù)算1.1億推進(jìn)人工智能落地

2025年6月互聯(lián)網(wǎng)新聞信息稿源單位全覽：權(quán)威渠道一網(wǎng)打盡

南科大自研人形機(jī)器人“南科盤(pán)古”亮相，深圳高校AI創(chuàng)新再突破

近千家A股公司涌入機(jī)器人領(lǐng)域，真假難辨，警惕行業(yè)泡沫

熱門(mén)內(nèi)容

本欄最新

美國(guó)電動(dòng)汽車稅收抵免將于9月30日終止

北京發(fā)布12大AI應(yīng)用場(chǎng)景，總預(yù)算1.1億推進(jìn)人工智能落地

2025年6月互聯(lián)網(wǎng)新聞信息稿源單位全覽：權(quán)威渠道一網(wǎng)打盡

南科大自研人形機(jī)器人“南科盤(pán)古”亮相，深圳高校AI創(chuàng)新再突破

近千家A股公司涌入機(jī)器人領(lǐng)域，真假難辨，警惕行業(yè)泡沫

VR大空間：探索未來(lái)文旅敘事新境界

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

開(kāi)源DeepSeek R1增強(qiáng)版：推理效率快200%，創(chuàng)新AoE架構(gòu)

日本精品一区二区三区高清久久