科技領域近日迎來新突破,蘋果研究團隊推出了一款名為SimpleFold的輕量級蛋白質折疊預測AI模型。該模型采用流匹配技術,摒棄了傳統模型中依賴的多序列比對等復雜模塊,有效降低了計算成本,為科研界帶來了新的可能性。
傳統蛋白質折疊預測模型如AlphaFold2和RoseTTAFold,雖然具備高精度,但因其依賴多序列比對、三角更新等計算密集型架構,導致訓練和推理成本居高不下。蘋果團隊此次通過簡化模型結構,旨在降低硬件門檻,使更多科研團隊能夠參與到蛋白質折疊研究中來。
SimpleFold的核心技術是2023年提出的流匹配方法,這種方法源于擴散模型,但在生成過程中進行了創新。它不采用逐步去噪的方式,而是直接從隨機噪聲中一次性生成目標結構。相比逐步迭代的擴散模型,流匹配方法跳過了多個去噪環節,計算量顯著降低,生成速度大幅提升。這一技術在文本生成圖像和3D建模領域已取得成功,如今被應用于蛋白質折疊預測。
在實驗中,研究人員訓練了從100M到3B參數的多個SimpleFold版本,并在CAMEO22和CASP14兩大權威基準上進行了評估。這些測試涵蓋了模型的泛化性、魯棒性以及原子級精度等多個方面。結果顯示,SimpleFold在性能上穩定優于同類流匹配模型ESMFlow,甚至能夠與頂尖模型相媲美。
具體而言,SimpleFold無需使用昂貴的多序列比對和三角注意機制,在CAMEO22基準上達到了AlphaFold2和RoseTTAFold2約95%的性能水平。而更小的SimpleFold-100M版本在保持高效的同時,性能也超過了ESMFold的90%。這一成果驗證了通用架構模塊在蛋白質預測領域的可行性和競爭力。
研究還發現,隨著模型規模和訓練數據的增加,SimpleFold的性能穩定提升,尤其在高難度測試中表現出明顯優勢。蘋果團隊表示,SimpleFold只是他們探索高效蛋白質生成模型的起點,希望這一成果能夠激發社區構建更多強大、高效的模型,從而進一步加速藥物研發和新材料探索的進程。