六月丁香综合,欧美日韩一区国产,日本精品久久久久影院

幾千人盲投，Kimi K2超越DeepSeek拿下全球開(kāi)源第一！

歪果網(wǎng)友們直接炸了，評(píng)論區(qū)秒變夸夸打卡現(xiàn)場(chǎng)：

今天，競(jìng)技場(chǎng)終于更新了Kimi K2的排名情況——

開(kāi)源第一，總榜第五，而且緊追馬斯克Grok 4這樣的頂尖閉源模型。

并且各類單項(xiàng)能力也不差，能和一水兒閉源模型打得有來(lái)有回：

連續(xù)多輪對(duì)話并列第一，o3和Grok 4均為第四；編程能力第二，和GPT 4.5、Grok 4持平；應(yīng)對(duì)復(fù)雜提示詞能力第二，和o3、4o位于同一梯隊(duì)；

甚至眼尖的朋友也發(fā)現(xiàn)了，唯二闖入總榜TOP 10的開(kāi)源模型都來(lái)自中國(guó)。（DeepSeek R1總榜第8）

當(dāng)然了，即使拋開(kāi)榜單不談，Kimi這款新模型過(guò)去一周也確實(shí)火熱——

K2過(guò)去一周真熱啊

公開(kāi)可查戰(zhàn)績(jī)包括但不限于下面這些：

從實(shí)打?qū)嵉臄?shù)據(jù)來(lái)看，發(fā)布這一周里，Kimi K2在開(kāi)源社區(qū)就獲得了相當(dāng)關(guān)注度和下載量。

GitHub標(biāo)星5.6K，Hugging Face下載量近10萬(wàn)，這還不算它在中國(guó)社區(qū)的應(yīng)用。

連AI搜索引擎明星創(chuàng)企Perplexity CEO也親自為它站臺(tái)，并透露：

Kimi K2在內(nèi)部評(píng)估中表現(xiàn)出色，Perplexity計(jì)劃接下來(lái)基于K2模型進(jìn)行后訓(xùn)練。

甚至由于訪問(wèn)的用戶太多了，逼得Kimi官方也出來(lái)發(fā)公告：

訪問(wèn)量大+模型體積大，導(dǎo)致API過(guò)慢。

不過(guò)就在一片向好之時(shí)，人們關(guān)于“Kimi K2采用了DeepSeek V3架構(gòu)”的質(zhì)疑聲再度升溫。

對(duì)此，我們也找到了Kimi團(tuán)隊(duì)成員關(guān)于K2架構(gòu)的相關(guān)回應(yīng)。

總結(jié)下來(lái)就是，確實(shí)繼承了DeepSeek V3的架構(gòu)，不過(guò)后續(xù)還有一系列參數(shù)調(diào)整。

p.s. 以下分享均來(lái)自知乎@劉少偉，內(nèi)容經(jīng)概括總結(jié)如下~

一開(kāi)始，他們嘗試了各種架構(gòu)方案，結(jié)果發(fā)現(xiàn)V3架構(gòu)是最能打的（其他頂多旗鼓相當(dāng)）。

所以問(wèn)題就變成了，要不要為了不同而不同？

經(jīng)過(guò)深思熟慮，團(tuán)隊(duì)給出了否定答案。理由有兩點(diǎn)：

一是V3架構(gòu)珠玉在前且已經(jīng)經(jīng)過(guò)大規(guī)模驗(yàn)證，沒(méi)必要強(qiáng)行“標(biāo)新立異”；二是自己和DeepSeek一樣，訓(xùn)練和推理資源非常有限，而經(jīng)過(guò)評(píng)估V3架構(gòu)符合相關(guān)成本預(yù)算。

所以他們選擇了完全繼承V3架構(gòu)，并引入適合自己的模型結(jié)構(gòu)參數(shù)。

具體而言，K2的結(jié)構(gòu)參數(shù)改動(dòng)有四點(diǎn)：

增加專家數(shù)量：團(tuán)隊(duì)驗(yàn)證了在激活參數(shù)量不變的情況下，MoE總參數(shù)增加仍有益于loss下降。注意力頭head數(shù)減半：減少head數(shù)節(jié)省的成本，剛好抵消MoE參數(shù)變大帶來(lái)的開(kāi)銷，且效果影響很小。只保留第一層Dense：只保留第一層為dense，其余都用MoE，結(jié)果對(duì)推理幾乎無(wú)影響。專家無(wú)分組：通過(guò)自由路由+動(dòng)態(tài)重排（EPLB）可以應(yīng)對(duì)負(fù)載不均衡，同時(shí)讓專家組合更靈活，模型能力更強(qiáng)。

最終得到的推理方案就是，在相同專家數(shù)量下：

雖然總參數(shù)增大到1.5倍，但除去通信部分，理論的prefill和decode耗時(shí)都更小。即使考慮與通信overlap等復(fù)雜因素，這個(gè)方案也不會(huì)比V3有顯著的成本增加。

就是說(shuō)，這是一種更“精打細(xì)算”的結(jié)構(gòu)調(diào)優(yōu)。

而且這種放棄自己的模型架構(gòu)路線，徹底走DeepSeek路線的做法，也被國(guó)內(nèi)網(wǎng)友評(píng)價(jià)為“相當(dāng)大膽”。

OK，以上關(guān)于Kimi和DeepSeek架構(gòu)之爭(zhēng)的問(wèn)題落定后，我們?cè)侔涯抗饫氐竭@次最新排名。

開(kāi)源追平or超越閉源ing

一個(gè)很明顯的趨勢(shì)是：「開(kāi)源=性能弱」的刻板印象正在被打破，開(kāi)源模型已經(jīng)越來(lái)越厲害了。

不僅榜單上的整體排名在上升，而且分?jǐn)?shù)差距也越來(lái)越小。

仔細(xì)看，模型TOP 10總分均為1400+，開(kāi)源和閉源幾乎可以看成位于同一起跑線。

而且這次拿下開(kāi)源第一的Kimi K2，總分已經(jīng)非常接近Grok 4、GPT 4.5等頂尖閉源模型了。

換句話說(shuō)，以前我們可能還要在模型能力和成本之間作取舍，但隨著開(kāi)源力量的崛起，多思考一秒鐘都是對(duì)開(kāi)源的不尊重（doge）。

與此同時(shí)，越來(lái)越多的行業(yè)人士也表達(dá)了對(duì)開(kāi)源崛起的判斷。

艾倫人工智能研究所研究科學(xué)家Tim Dettmers表示：

開(kāi)源擊敗閉源將變得越來(lái)越普遍。

Perplexity CEO也多次在公開(kāi)場(chǎng)合表示：

開(kāi)源模型將在塑造AI能力的全球擴(kuò)散路徑中扮演重要角色。它們對(duì)于因地制宜地定制和本地化AI體驗(yàn)至關(guān)重要。

而在已經(jīng)逐漸崛起的開(kāi)源模型領(lǐng)域，TOP 10中唯二開(kāi)源、且都是國(guó)產(chǎn)模型的含金量還在上升。

智能體架構(gòu)通常由模型、工具、編排三個(gè)主要組件構(gòu)成，開(kāi)發(fā)框架則以模塊化、可擴(kuò)展性和快速編排能力為核心，提供一系列預(yù)設(shè)工具和基礎(chǔ)功能，進(jìn)而簡(jiǎn)化了智能體的構(gòu)建與部署流程，提升了整體開(kāi)發(fā)效率。基于“以模制模”理念，…

馬宏彬總結(jié)道，站在新的歷史起點(diǎn)上，“大金磚合作”正為全球南方探索出一條技術(shù)共建、產(chǎn)業(yè)共贏、文明互鑒的新路徑，“快手也愿意作為其中一分子，繼續(xù)深耕新興市場(chǎng)，把內(nèi)容的溫度、技術(shù)的能力和連接的價(jià)值，帶給更多人、更多…

摘要顯示，本申請(qǐng)涉及人工智能領(lǐng)域。第一訓(xùn)練數(shù)據(jù)帶有標(biāo)簽。第二訓(xùn)練數(shù)據(jù)不帶標(biāo)簽，且第一訓(xùn)練數(shù)據(jù)中的噪音高于第二訓(xùn)練數(shù)據(jù)中的噪音。基于多個(gè)第一噪聲數(shù)據(jù)和多個(gè)第二噪聲數(shù)據(jù)對(duì)擴(kuò)散模型的第一去噪模塊進(jìn)行訓(xùn)練，得到第二…

Llama副總裁Ahmad AI-Dahle于今年4月6日在社交媒體平臺(tái)X發(fā)布了一張測(cè)試圖片，并配文“截至今天，Llama4 Maverick提供了一流的性能與成本比，其實(shí)驗(yàn)性聊天版本在LMArena上的E…

用戶不僅可以讓 ChatGPT執(zhí)行諸如「查詢年度財(cái)務(wù)報(bào)告」等請(qǐng)求，并智能地瀏覽網(wǎng)站、篩選結(jié)果，在需要時(shí)提示你安全登錄，運(yùn)行代碼、進(jìn)行分析，甚至可以交付可編輯的幻燈片和電子表格，總結(jié)其研究成果。在一個(gè)內(nèi)部基…

據(jù)外媒7月18日?qǐng)?bào)道稱，在挖走蘋(píng)果大語(yǔ)言模型團(tuán)隊(duì)負(fù)責(zé)人龐若鳴后，Meta又聘請(qǐng)了馬克·李和湯姆·岡特加入其超級(jí)智能實(shí)驗(yàn)室團(tuán)隊(duì)。外媒報(bào)道稱，而為了將長(zhǎng)期承諾的Siri功能推向市場(chǎng)，蘋(píng)果同時(shí)也在開(kāi)發(fā)基于自有模型…

今年 5 月，華為在鯤鵬昇騰開(kāi)發(fā)者大會(huì) 2025 —— 昇騰 AI 開(kāi)發(fā)者峰會(huì)上推出了昇騰超節(jié)點(diǎn)技術(shù)，成功實(shí)現(xiàn)業(yè)界最大規(guī)模的 384卡高速總線互聯(lián)。從華為中國(guó)官方獲悉，此次推出的昇騰 384 超…

在這篇名為《Reflections on OpenAI（在 OpenAI 的所思所感）》（點(diǎn)擊文章最后左下角閱讀原文可閱讀）的文章中，他并不打算揭露什么驚天內(nèi)幕，而是以一種近似私人備忘錄的方式，記錄了他…

近日，科大訊飛作為中國(guó)AI領(lǐng)域的領(lǐng)軍企業(yè)，憑借其在語(yǔ)音識(shí)別、自然語(yǔ)言處理等核心技術(shù)的突破，再次獲得國(guó)際權(quán)威機(jī)構(gòu)的認(rèn)可，標(biāo)志著中美AI技術(shù)差距進(jìn)一步縮小，中國(guó)AI產(chǎn)業(yè)正邁向新的發(fā)展階段。展望未來(lái)，科大訊飛將繼…

2024年5月通過(guò)大模型備案后，猿力科技迅速將大模型能力應(yīng)用到旗下全線產(chǎn)品和服務(wù)中，包括飛象星球、小猿學(xué)練機(jī)、斑馬AI學(xué)、海豚AI學(xué)等，覆蓋習(xí)題練習(xí)、口語(yǔ)學(xué)習(xí)、作業(yè)檢查、作業(yè)設(shè)計(jì)、作文批改、課后服務(wù)等多個(gè)真…

它專注于運(yùn)用高精度形象復(fù)刻、聲音仿生及視頻智能合成等技術(shù)，為用戶提供無(wú)需真人現(xiàn)身就能打造出極為逼真數(shù)字人形象的革新服務(wù)，廣泛滲透至電商直播、數(shù)字人虛擬偶像塑造、在線教育輔導(dǎo)等多個(gè)關(guān)鍵領(lǐng)域。在形象復(fù)刻方面，僅需…

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清久久

DeepSeek終于丟了開(kāi)源第一王座，但繼任者依然來(lái)自中國(guó)

日本精品一区二区三区高清 久久

DeepSeek終于丟了開(kāi)源第一王座，但繼任者依然來(lái)自中國(guó)

日本精品一区二区三区高清久久