滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

靠博客入職OpenAI，這位大佬的技術或將助力GPT-5訓練

時間：2025-06-21 18:44:09 來源：智東西編輯：快訊團隊 IP：北京 發表評論無障礙通道

近日，AI界傳出了一則引人矚目的消息：一名僅憑一篇博客文章就加入OpenAI的研究員，可能正在使用其提出的神經網絡隱藏層優化器Muon來訓練GPT-5。這一消息由AI云服務商Hyperbolic的聯合創始人兼CTO Yuchen Jin在社交平臺X上爆出，迅速引起了業界的廣泛關注。

據悉，這位研究員名為Keller Jordan，他在2024年12月發表了一篇題為《Muon：神經網絡隱藏層的優化器》的博客文章。文章詳細介紹了Muon的設計思路、實證結果以及與其他優化器的對比。令人驚訝的是，正是這篇博客成為了Keller Jordan加入OpenAI的敲門磚。

Muon是一種針對神經網絡隱藏層二維參數的優化器，其設計旨在提高訓練速度。Keller Jordan在博客中提到，Muon通過使用Newton-Schulz迭代法作為后處理步驟，優化了SGD-momentum生成的更新，使得更新矩陣近似正交化。這一改進在多個實證研究中取得了顯著成果，包括在CIFAR-10和NanoGPT快速運行等任務上刷新了訓練速度記錄。

除了速度上的提升，Muon還展示了在擴展到更大規模模型時的潛力。在HellaSwag任務上，使用Muon訓練了一個1.5B參數的轉換器，使其達到了GPT-2 XL級別的性能，而訓練時間卻比使用AdamW縮短了近三分之一。這些成果無疑為Muon在大型語言模型訓練中的應用提供了有力支持。

Keller Jordan在博客中還批判了當前神經網絡優化研究中的一些不良風氣，特別是糟糕的基線設置問題。他指出，許多聲稱能夠擊敗AdamW的新優化器往往沒有充分調整AdamW基線，導致結果無法復制或達到宣傳效果。為了糾正這種情況，他提出了更高的證據標準，要求新方法必須在競爭性訓練任務中取得成功。

這一觀點在業界引起了廣泛共鳴。許多研究人員表示，他們曾經浪費了大量時間和精力在復制和構建這類無法達到預期效果的方法上。Keller Jordan的提議為神經網絡優化研究提供了新的方向，強調了實證研究和競爭性任務的重要性。

隨著Muon在OpenAI的潛在應用被曝光，業界對這一新技術的期待進一步升級。許多專家表示，如果Muon確實能夠成為GPT-5的重要部分，那么它將為大型語言模型的訓練帶來革命性的變化。不過，也有一些人對Muon的可擴展性和在大型GPU集群中的分布能力表示擔憂。

盡管如此，Keller Jordan的博客文章已經為Muon贏得了廣泛的關注和認可。這一技術的出現不僅為神經網絡優化研究提供了新的思路和方法，也為AI界的發展注入了新的活力。隨著研究的深入和應用的拓展，我們有理由相信Muon將在未來發揮更加重要的作用。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

衛星互聯網板塊6月20日走低，北信源領跌，資金流向如何？

證券之星消息，6月20日衛星互聯網板塊較上一交易日下跌0.52%，北信源領跌。當日上證指數報收于3359.9，下跌0.07%。深證成指報收于10005.03，下跌0.47%。衛星互聯網板塊個股資金流向見下表：…

06-21

網易BIBF展：“科技絲路”引領文化出海，非遺創新演繹驚艷亮相

月 18 日，第三十一屆北京國際圖書博覽會(BIBF)在國家會議中心舉行。觀眾可在游戲AI功能體驗區體驗與《逆水寒》的智能NPC“沈秋索”進行對話游玩(由DeepSeek技術驅動實現)，也可以體驗到由《永劫…

06-21

數字文旅新生態：羊城創意產業園的科技與人文交融之旅

話說回來，最近在深圳( Shenzhen )逛文博會( Cultural Industries Fair)的時候，突然被廣東展區的一組數據驚到了——羊城創意產業園( Yangcheng Creative I…

06-21

探險博主李憶引領43萬觀眾見證原始部落變革，戶外直播新玩法引熱議！

這場“硬核團播”吸引了大量觀眾，直播內容從古老神秘的“殺豬儀式”，到獨具匠心的“鉆木生火”技巧，再到現代博主與部落居民協作，探索如何動手改造家園。李憶的目標并不僅僅是短期的物資援助，他更希望通過“授人以漁…

06-21

HDC 2025鴻蒙新突破！微博智搜攜小藝，語音秒懂熱點新體驗

微博COO、新浪移動CEO王巍現場發布了鴻蒙生態首個深度整合系統能力的社交媒體智能體——"微博智搜"。作為鴻蒙智能體框架（HMAF）的首批落地成果，其通過與小藝的深度協同，首次實現"語音喚醒+熱點追蹤+可信A…

06-21

支付寶生活號：自媒體創作者如何解鎖流量密碼與商業新藍海？

培訓會吸引了眾多本地“自媒體”大V和MCN機構運營負責人踴躍參與和積極討論，共同探索內容創作與平臺運營深度融合的創新路徑與商業機遇。螞蟻集團數字民生事業部負責人表示，“隨著平臺機制的不斷完善與資源體系的持續開…

06-21

華為HDC 2025啟幕：鴻蒙生態規模化發展，全場景互聯AI創新成果亮眼

AI智能能力方面，華為推出鴻蒙智能體框架（HMAF），助力開發者一站式高效開發鴻蒙智能體。深圳航空、微博、喜馬拉雅等首批50多個先鋒鴻蒙智能體正在火熱開發中。過去半年多時間里，鴻蒙聯合30多個伙伴共建50多…

06-21

798園區高科技體驗背后：中關村互聯網3.0產業園“前店后廠”模式顯成效

中關村互聯網3.0產業園產業運營單位負責人曾碧冰說：“每年我們會開展一次‘XR加速器’活動，園區內AR、VR企業將加入‘加速器’，活動過程中也會把企業帶到有場景應用需求的單位，實地考察并且和相關負責人座談，以…

06-21

華為云肖霏：智能時代，華為云Stack如何更懂政企需求？

肖霏強調，華為云Stack秉承“技術為根，人才為本”的理念，通過構建完善的培訓賦能體系、提供豐富的實操體驗開發環境、組織多話題和多行業技術沙龍以及沉淀實踐經驗并開放共享等一系列措施和工具，幫助政企用戶建好云…

06-21

兩臺太陽系觀測望遠鏡開建，建成后將創多項國內國際“首次”！

06-21

麻涌飛機“6S”店：超大號“快遞”開箱，民族品牌輕型飛機組裝實錄

06-21

拉索站新突破：宇宙線起源之謎漸行漸明

06-21

月球起源新探：古代傳說與現代證據指向人工制造？

06-21

月球真面目曝光，霍金預言再獲證實：探索需謹慎前行

06-21

羽毛球機器人：精準“眼觀六路”，靈活“身手不凡”

該研究的共同作者、蘇黎世聯邦理工學院機械與加工工程系教授馬科·胡特表示，這項技術可同步協調機器人周身18個關節的運動，通過判斷來球的時間和距離，自主調整步態和擊球方式。中國社會科學院中國式現代化研究院研究員李…

06-21

點擊查看更多 +

全站最新

比亞迪海獅06即將登場，能否以性能與性價比征服市場？

博越L智慧登場！南昌覓嶼藍灣見證第四代新車上市交付盛況

華為HDC 2025啟幕：鴻蒙生態規模化發展，全場景互聯AI創新成果亮眼

798園區高科技體驗背后：中關村互聯網3.0產業園“前店后廠”模式顯成效

華為云肖霏：智能時代，華為云Stack如何更懂政企需求？

比亞迪M9申報圖搶先看，海外MPV市場迎來新挑戰者？

熱門內容

本欄最新

支付寶生活號：自媒體創作者如何解鎖流量密碼與商業新藍海？

華為HDC 2025啟幕：鴻蒙生態規模化發展，全場景互聯AI創新成果亮眼

798園區高科技體驗背后：中關村互聯網3.0產業園“前店后廠”模式顯成效

華為云肖霏：智能時代，華為云Stack如何更懂政企需求？

兩臺太陽系觀測望遠鏡開建，建成后將創多項國內國際“首次”！

麻涌飛機“6S”店：超大號“快遞”開箱，民族品牌輕型飛機組裝實錄

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

靠博客入職OpenAI，這位大佬的技術或將助力GPT-5訓練

日本精品一区二区三区高清久久