谷歌DeepMind與麻省理工學院、哈佛大學的研究團隊近日在科學計算領域取得重大突破,聯合開發的AI系統能夠自動生成"專家級科研實證軟件"。這項發表在arXiv平臺的研究成果,通過將大語言模型(LLM)與樹搜索算法深度融合,實現了科研編程效率的革命性提升。實驗數據顯示,該系統可在數小時至數天內完成人類專家需要數月才能完成的復雜編程任務,并在多個學科領域展現出超越頂尖人類方案的表現。
研究團隊針對現代科研中普遍存在的"可評分任務"——即需要通過實證軟件解決的科學問題展開攻關。這類任務廣泛存在于化學建模、氣候模擬、社會系統預測等領域,傳統開發方式往往需要研究者投入數年時間,且高度依賴個人經驗。新開發的AI系統通過"生成-評估-迭代"的閉環機制,能夠自動生成符合特定評估指標的優化代碼。系統首先利用LLM生成初始Python代碼方案,隨后在沙盒環境中運行并獲取質量評分,最后通過樹搜索算法在解空間中持續優化。
核心創新在于PUCT樹搜索算法的引入,該算法受AlphaZero啟發,通過平衡"開發"與"探索"策略實現高效搜索。研究特別強調了外部知識整合機制,系統能夠主動檢索科學文獻、專業教材及搜索引擎(包括Gemini Deep Research等工具)中的研究思想,并將其轉化為代碼生成的指導建議。在2023年Kaggle競賽的16場實戰測試中,樹搜索方法的表現顯著優于單次及千次LLM調用的結果,通過持續發現新策略實現了分數"跳躍式"提升。
在基因組學領域的單細胞RNA測序(scRNA-seq)批次效應消除任務中,該系統展現了卓越的創新能力。面對高維稀疏數據的挑戰,系統不僅成功去除混雜因素,還完整保留了生物學信號。更引人注目的是,其生成的87種全新分析方法中有40種超越了人類專家開發的最佳模型。其中BBKNN (TS)方法通過重組ComBat與BBKNN現有技術,實現了14%的性能提升,這種"理念重組"的突破性成果驗證了AI在科研創新中的獨特價值。
研究團隊在生物信息學、流行病學、地理空間分析等六個學科領域進行了基準測試,結果顯示AI系統在多數任務中達到或超過了人類最新方法。這種跨學科通用能力的實現,標志著科研自動化進入全新階段。實驗還證實,當系統接收針對具體問題的專家建議時(如Kaggle競賽經驗),其表現會得到顯著提升,這為未來人機協作的科研模式提供了重要參考。