科技領(lǐng)域近日迎來新突破,蘋果研究團隊推出了一款名為SimpleFold的輕量級蛋白質(zhì)折疊預(yù)測AI模型。該模型采用流匹配技術(shù),摒棄了傳統(tǒng)模型中依賴的多序列比對等復(fù)雜模塊,有效降低了計算成本,為科研界帶來了新的可能性。
傳統(tǒng)蛋白質(zhì)折疊預(yù)測模型如AlphaFold2和RoseTTAFold,雖然具備高精度,但因其依賴多序列比對、三角更新等計算密集型架構(gòu),導(dǎo)致訓(xùn)練和推理成本居高不下。蘋果團隊此次通過簡化模型結(jié)構(gòu),旨在降低硬件門檻,使更多科研團隊能夠參與到蛋白質(zhì)折疊研究中來。
SimpleFold的核心技術(shù)是2023年提出的流匹配方法,這種方法源于擴散模型,但在生成過程中進行了創(chuàng)新。它不采用逐步去噪的方式,而是直接從隨機噪聲中一次性生成目標(biāo)結(jié)構(gòu)。相比逐步迭代的擴散模型,流匹配方法跳過了多個去噪環(huán)節(jié),計算量顯著降低,生成速度大幅提升。這一技術(shù)在文本生成圖像和3D建模領(lǐng)域已取得成功,如今被應(yīng)用于蛋白質(zhì)折疊預(yù)測。
在實驗中,研究人員訓(xùn)練了從100M到3B參數(shù)的多個SimpleFold版本,并在CAMEO22和CASP14兩大權(quán)威基準(zhǔn)上進行了評估。這些測試涵蓋了模型的泛化性、魯棒性以及原子級精度等多個方面。結(jié)果顯示,SimpleFold在性能上穩(wěn)定優(yōu)于同類流匹配模型ESMFlow,甚至能夠與頂尖模型相媲美。
具體而言,SimpleFold無需使用昂貴的多序列比對和三角注意機制,在CAMEO22基準(zhǔn)上達到了AlphaFold2和RoseTTAFold2約95%的性能水平。而更小的SimpleFold-100M版本在保持高效的同時,性能也超過了ESMFold的90%。這一成果驗證了通用架構(gòu)模塊在蛋白質(zhì)預(yù)測領(lǐng)域的可行性和競爭力。
研究還發(fā)現(xiàn),隨著模型規(guī)模和訓(xùn)練數(shù)據(jù)的增加,SimpleFold的性能穩(wěn)定提升,尤其在高難度測試中表現(xiàn)出明顯優(yōu)勢。蘋果團隊表示,SimpleFold只是他們探索高效蛋白質(zhì)生成模型的起點,希望這一成果能夠激發(fā)社區(qū)構(gòu)建更多強大、高效的模型,從而進一步加速藥物研發(fā)和新材料探索的進程。











