中科院自動(dòng)化研究所與小紅書(shū)技術(shù)團(tuán)隊(duì)聯(lián)合研發(fā)的“PretrainZero”系統(tǒng),近日在人工智能領(lǐng)域引發(fā)廣泛關(guān)注。這項(xiàng)突破性成果通過(guò)模擬人類主動(dòng)學(xué)習(xí)機(jī)制,使AI模型無(wú)需人工標(biāo)注數(shù)據(jù)即可從海量文本中自主篩選有價(jià)值內(nèi)容,在推理能力測(cè)試中展現(xiàn)出顯著優(yōu)勢(shì)。
傳統(tǒng)AI訓(xùn)練模式存在明顯局限:預(yù)訓(xùn)練階段要求模型機(jī)械記憶所有文本信息,如同學(xué)生死記硬背教科書(shū);后訓(xùn)練階段依賴專家標(biāo)注的高質(zhì)量數(shù)據(jù),類似需要一對(duì)一輔導(dǎo)才能掌握特定技能。這種被動(dòng)接受式學(xué)習(xí)導(dǎo)致AI雖具備基礎(chǔ)語(yǔ)言能力,卻難以應(yīng)對(duì)復(fù)雜推理任務(wù),尤其在常識(shí)判斷、跨領(lǐng)域知識(shí)遷移等場(chǎng)景中表現(xiàn)乏力。
研究團(tuán)隊(duì)創(chuàng)新性地構(gòu)建了雙角色對(duì)抗學(xué)習(xí)框架,讓AI同時(shí)扮演“出題者”與“答題者”。當(dāng)系統(tǒng)處理維基百科文本時(shí),“出題者”會(huì)智能識(shí)別關(guān)鍵信息節(jié)點(diǎn)進(jìn)行遮蓋,既避開(kāi)過(guò)于簡(jiǎn)單的詞匯,也規(guī)避超出當(dāng)前能力的復(fù)雜概念;“答題者”則需通過(guò)多步驟邏輯推理填補(bǔ)空白,并完整展示思考過(guò)程。這種動(dòng)態(tài)調(diào)整機(jī)制確保訓(xùn)練難度始終匹配模型能力,形成持續(xù)優(yōu)化的學(xué)習(xí)閉環(huán)。
實(shí)驗(yàn)數(shù)據(jù)顯示,采用該框架訓(xùn)練的Qwen3-4B模型在三大權(quán)威基準(zhǔn)測(cè)試中取得突破性進(jìn)展:MMLU-Pro綜合推理得分提升8.43%,SuperGPQA研究生級(jí)多學(xué)科測(cè)試提高5.96%,數(shù)學(xué)推理平均表現(xiàn)躍升10.60%。更值得注意的是,經(jīng)過(guò)PretrainZero預(yù)訓(xùn)練的模型在后續(xù)專項(xiàng)任務(wù)中,最終性能較傳統(tǒng)方法提升2-3個(gè)百分點(diǎn),且推理效率隨訓(xùn)練深入持續(xù)提升。
技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)設(shè)計(jì)了精巧的難度調(diào)控算法。“出題者”在篩選遮蓋內(nèi)容時(shí),會(huì)綜合考量詞匯信息量、上下文關(guān)聯(lián)度及推理可行性;而“答題者”的推理過(guò)程需包含背景分析、可能性推演和結(jié)論驗(yàn)證等完整鏈條。這種設(shè)計(jì)使模型逐漸掌握“選擇性學(xué)習(xí)”能力,能夠自主聚焦知識(shí)盲區(qū),避免無(wú)效信息干擾。
與傳統(tǒng)方法相比,PretrainZero實(shí)現(xiàn)了三重突破:其一,突破數(shù)據(jù)依賴瓶頸,利用公開(kāi)文本資源替代人工標(biāo)注數(shù)據(jù);其二,破解訓(xùn)練效率難題,通過(guò)動(dòng)態(tài)難度調(diào)整使模型始終處于最佳學(xué)習(xí)狀態(tài);其三,拓展能力邊界,使AI推理能力從專業(yè)領(lǐng)域延伸至常識(shí)判斷等泛化場(chǎng)景。實(shí)驗(yàn)表明,訓(xùn)練后的模型不僅能準(zhǔn)確填補(bǔ)“凱撒遇刺”等歷史知識(shí)空白,更能通過(guò)時(shí)間線索和歷史背景推導(dǎo)出完整事件脈絡(luò)。
該成果在教育、科研、內(nèi)容創(chuàng)作等領(lǐng)域展現(xiàn)出廣闊應(yīng)用前景。智能輔導(dǎo)系統(tǒng)可據(jù)此識(shí)別學(xué)生知識(shí)薄弱點(diǎn),自動(dòng)生成個(gè)性化學(xué)習(xí)路徑;科研助手能夠從海量文獻(xiàn)中自主提取關(guān)鍵發(fā)現(xiàn),構(gòu)建跨學(xué)科知識(shí)圖譜;創(chuàng)作型AI則可基于深度推理生成更具洞察力的內(nèi)容。研究團(tuán)隊(duì)正在探索將該框架擴(kuò)展至多模態(tài)學(xué)習(xí),使AI具備從圖像、音頻等多元數(shù)據(jù)中主動(dòng)獲取知識(shí)的能力。
針對(duì)計(jì)算效率優(yōu)化問(wèn)題,研究團(tuán)隊(duì)已開(kāi)發(fā)出輕量化模型架構(gòu),通過(guò)參數(shù)共享機(jī)制降低雙角色訓(xùn)練成本。同時(shí)建立的穩(wěn)定性監(jiān)控系統(tǒng),可實(shí)時(shí)平衡“出題者”與“答題者”的能力發(fā)展,防止訓(xùn)練過(guò)程失衡。為確保學(xué)習(xí)質(zhì)量,團(tuán)隊(duì)還設(shè)計(jì)了包含推理合理性、知識(shí)準(zhǔn)確性等維度的綜合評(píng)估體系。
這項(xiàng)研究為AI發(fā)展提供了全新范式:通過(guò)算法創(chuàng)新提升模型自主學(xué)習(xí)能力,而非單純擴(kuò)大參數(shù)規(guī)模或堆砌訓(xùn)練數(shù)據(jù)。其核心價(jià)值在于證明智能提升的關(guān)鍵不在于知識(shí)容量,而在于學(xué)習(xí)方式的進(jìn)化。相關(guān)技術(shù)細(xì)節(jié)已公開(kāi)于學(xué)術(shù)平臺(tái),供全球研究者驗(yàn)證與拓展。











