日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

小紅書首推大模型dots.llm1,中文性能力壓DeepSeek-V3

   時間:2025-06-10 20:08:31 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道

近日,國內社交內容平臺小紅書在人工智能領域邁出了重要一步,宣布開源其首個大型語言模型dots.llm1。這一舉動不僅為開源社區增添了一名重量級的新成員,也彰顯了小紅書在技術創新上的雄厚實力。

dots.llm1是一個擁有1420億參數的混合專家(MoE)模型,但在實際應用中,它僅需激活140億參數,便能展現出與阿里Qwen3-32B模型相近的性能。這一特性使得dots.llm1在保持高效能的同時,也大大降低了運算成本。在中文任務上的表現尤為亮眼,dots.llm1在C-eval評測中取得了92.2分的高分,超越了包括DeepSeek-V3在內的眾多模型。

技術報告顯示,小紅書團隊在數據處理方面做出了多項創新。他們提出了一個可擴展且細粒度的三階段數據處理框架,旨在提升數據的規模、質量和多樣性。團隊還開發了Web雜亂清除模型和類別平衡技術,進一步確保了數據的高質量和多樣性。這些努力使得dots.llm1在預訓練階段就能接觸到豐富且高質量的數據,從而提升了模型的性能。

在模型架構方面,dots.llm1采用了僅限解碼器的Transformer架構,其中每一層包含一個注意力層和一個前饋網絡(FFN)。與傳統的密集模型不同,dots.llm1的FFN被專家混合(MoE)層所替代。這種架構使得dots.llm1能夠在保持經濟成本的同時,訓練出功能強大的模型。在注意力層方面,dots.llm1使用了普通的多頭注意力機制,而在MoE層則遵循了DeepSeek和Qwen的做法,用包含共享和獨立專家的MoE層替換了FFN。

為了全面評估dots.llm1的性能,小紅書團隊在中文和英文上進行了預訓練,并評估了它在多個領域基準測試中的表現。結果顯示,dots.llm1在大多數領域中表現出了與Qwen2.5-72B相當的性能。特別是在語言理解任務上,dots.llm1在中文理解基準測試中取得了較高性能,這主要得益于其高效的數據處理管道。在知識任務、代碼和數學領域,dots.llm1也展現出了穩健的表現。

dots.llm1在預訓練完成后還經過了監督微調階段。小紅書團隊基于開源數據和內部注釋數據收集了大約400k個指令調優實例,并對dots.llm1進行了兩個階段的微調。這些努力進一步提升了dots.llm1在特定領域(如數學和編碼)的能力。

通過此次開源,小紅書不僅為人工智能領域貢獻了一個強大的大型語言模型,也展示了其在數據處理和模型架構方面的創新實力。dots.llm1的成功推出,無疑將推動大型語言模型的發展和應用,為人工智能技術的進步注入新的活力。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 兴国县| 钟山县| 永春县| 浠水县| 甘德县| 苏州市| 西峡县| 泗阳县| 贵溪市| 龙江县| 揭阳市| 广丰县| 宝兴县| 古丈县| 谢通门县| 和静县| 龙岩市| 渝中区| 山西省| 襄城县| 南涧| 青州市| 嘉祥县| 汉沽区| 星子县| 旬阳县| 犍为县| 永春县| 汉源县| 岳西县| 石城县| 永兴县| 阜阳市| 广丰县| 荔波县| 黄陵县| 雷州市| 阿城市| 麟游县| 安岳县| 庆云县|