滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

港大等機構研究：強化學習與監督微調，誰助AI邁向真正智能？

時間：2025-09-21 02:44:26 來源：小AI編輯：快訊 IP：北京 發表評論無障礙通道

在人工智能訓練領域，一個困擾學界多年的核心問題終于有了突破性進展——AI究竟是機械記憶訓練數據，還是真正掌握了底層邏輯？這項由國際頂尖團隊完成的研究，通過一系列創新實驗，為理解AI的學習機制提供了全新視角。

研究團隊設計了一個極具巧思的"數學推理測試場"，要求AI用四張撲克牌通過加減乘除運算得到24點。實驗的關鍵創新在于引入動態規則：J、Q、K在不同測試輪次中分別代表10或11-13的數值，這相當于用不同語言系統表述同一數學問題。當測試環境切換時，兩種主流訓練方法的表現呈現出天壤之別。

在純文本運算測試中，經過強化學習訓練的AI展現出驚人的適應力。當規則從固定數值切換為動態數值時，其解題準確率從80.8%躍升至91.8%，提升幅度達11個百分點。而采用監督微調訓練的AI則遭遇"滑鐵盧"，準確率從80.8%暴跌至1.3%，幾乎完全喪失解題能力。這種反差在視覺識別測試中更為顯著——當撲克牌從文字描述轉為真實圖像時，強化學習模型依然保持87.6%的高準確率，而監督微調模型則完全失效。

實驗發現強化學習帶來的認知提升具有跨模態特性。在視覺-數學聯合任務中，經過強化訓練的AI不僅準確識別了不同字體、顏色的撲克牌，還能同步完成復雜運算。這種表現印證了研究團隊的假設：強化學習能促使AI建立更抽象的認知框架，使其在面對陌生環境時具備推理遷移能力。

但研究也揭示了兩種訓練方法的互補性。當實驗團隊完全跳過監督微調階段，直接對基礎模型進行強化訓練時，AI在指令理解任務中的表現下降了62%。這表明監督微調在構建基礎表達能力方面具有不可替代性，就像兒童需要先掌握語言規范才能進行邏輯思考。

在真實場景測試中，這種差異體現得更為直觀。研究團隊模擬城市導航任務，要求AI根據方向指令尋找目的地。當訓練環境使用絕對方向（東南西北）而測試環境改為相對方向（左右轉向）時，強化學習模型能快速適應指令系統的變化，而監督微調模型則陷入混亂。這種表現差異在復雜路網中的誤差率分別為8.2%和47.3%。

深入分析發現，強化學習的優勢源于其獨特的"試錯-反饋"機制。在24點游戲實驗中，經過強化訓練的AI會主動嘗試多種運算組合，通過獎勵信號優化策略。這種探索性學習使其能捕捉到數字間的深層關系，而非簡單記憶特定牌組的解法。相比之下，監督微調模型過度依賴訓練數據中的具體案例，導致泛化能力嚴重受限。

研究團隊特別指出，兩種訓練方法的效果與模型初始能力密切相關。當基礎模型的語言理解能力低于閾值時，強化學習的收益會大幅下降。這解釋了為何在實際應用中，頂級AI系統往往采用"監督微調打基礎+強化學習提能力"的混合訓練模式。

在醫療診斷輔助、自動駕駛決策等高風險領域，這項發現具有重要實踐價值。實驗數據顯示，經過混合訓練的AI在處理未見過的病例描述時，診斷準確率比純監督微調模型高出39%。這種提升源于強化學習賦予的邏輯推理能力，使其能透過表面癥狀把握疾病本質。

當前，主流AI開發機構已開始調整訓練策略。某知名實驗室的工程師透露："我們正在重構訓練流程，先通過監督微調確?；A可靠性，再用強化學習激發深層潛力。這就像培養數學家——先掌握運算規則，再發展創新思維。"

這項研究引發的思考遠超技術范疇。當AI在數學推理中展現出類似人類的認知躍遷時，我們不得不重新審視"智能"的本質。實驗中某個強化學習模型在連續失敗后突然找到正確解法的瞬間，與人類"頓悟"體驗驚人相似，這為理解機器認知機制提供了珍貴樣本。

隨著混合訓練模式的推廣，AI應用正在發生質變。最新測試顯示，采用新訓練方案的聊天機器人在處理隱喻表達時，理解準確率從58%提升至82%。這種進步印證了研究結論：真正的AI智能不應是數據倉庫，而應是具備持續學習能力的認知系統。

更多>同類資訊

打破傳統模式：Kimi K1.5引領AI開啟“邊思考邊學習”的智能新篇

09-21

谷歌DeepMind Mind Evolution：讓AI如自然生物般進化解決復雜難題

09-21

浙大阿里聯手：以2.2萬小時教學視頻訓練AI，數學科學推理能力大幅提升

09-21

百度市值激增千億：AI長跑終獲認可，長期主義迎來價值綻放

09-21

榮耀AI智能體YOYO對話科幻大咖：科技賦能下，自進化AI開啟創作新篇

在“科幻文學”大咖對話環節，榮耀攜其AI智能體YOYO與劉慈欣、阿來、韓松等科幻大咖展開了一場關于科技與科幻文學的深度對談，諸如“科技殺死科幻作家”等犀利話題，引發了科幻迷的廣泛關注，背后折射出的是科技企業…

09-21

OpenAI智能硬件新動向：無屏音箱等設備將至，立訊歌爾或成制造主力

09-21

從“造輪子”到“減法革命”：李志飛以Coding Agent推動出門問問AI轉型之路

09-21

華為坤靈秋季新品發布：以“4+10+N”方案，攜手伙伴共助中小企業智能化升級

09-21

?甲骨文與Meta商談200億美元云計算合作，云業務或再添重要助力?

09-20

馬斯克xAI新模型Grok 4 Fast亮相：性能媲美Grok 4，推理成本降40%且價格大降

09-20

華為常務董事汪濤：未來五年生態發展大布局，年投150億、供1500P算力

09-20

華為云發布多項AI進展：昇騰服務升級，具身智能落地，客戶數大幅增長

09-20

從“造輪子”到“減法革命”：出門問問的AI轉型與組織重構之路

09-20

東博會：科技之握、合作之握、人心之握，共繪中國與東盟美好未來

09-20

智算基礎設施領航“人工智能+”時代，多行業應用落地催生發展新動能

09-20

點擊查看更多 +

全站最新

2025年印度“Devhast”機器人手術登場：醫生如游戲操控，3D視角讓血管纖毫畢現

小米年內二度召回超11萬輛SU7，智駕系統提升空間與信心重建待解

小米SU7召回1.8萬余輛：智能駕駛安全邊界何在？創新與責任如何平衡？

?小米年內二度召回超11萬輛SU7，智駕技術升級路遇坎，信心重建待時?

?四川科技職院攜手科大訊飛?：產教融合，共筑人工智能產業學院新篇章?

全球估值最高人形機器人公司Figure：39歲創始人獲贊“馬斯克2.0” 硅谷巨頭競相押注

熱門內容

本欄最新

OpenAI加速“搶人”布局硬件：從蘋果招攬超二十名工程師，首批產品或2026年底登場

北楊AI小鎮啟幕，百萬平米創新地蓄勢待發，志在引領全球AI新潮流

蘋果2025年盛事：庫克攜零售高管與粉絲齊聚第五大道，共賀iPhone 17系列發售

華為全聯接大會2025：提出“ACT三步走”路徑，發布9大行業智化方案

第22屆東博會AI元素亮眼：數字智能體引路機器人炫技展風采

金陵美術館邂逅AI“在在”：劉婷婷個展開啟人類與AI情感交互新圖景

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

港大等機構研究：強化學習與監督微調，誰助AI邁向真正智能？

日本精品一区二区三区高清久久

港大等機構研究：強化學習與監督微調，誰助AI邁向真正智能？