近日,谷歌DeepMind在其官方博客上發(fā)布了一項名為AlphaGenome的新模型,該模型在預(yù)測人類DNA序列中單個變異或突變的影響方面展現(xiàn)出了前所未有的全面性和準(zhǔn)確性。據(jù)悉,DeepMind計劃通過API預(yù)覽版的形式,將這一創(chuàng)新工具提供給科研界。
AlphaGenome是一種全新的人工智能工具,專門設(shè)計用于處理長度可達(dá)100萬字母的DNA序列,并能預(yù)測數(shù)千個分子屬性,以揭示基因調(diào)控活動的復(fù)雜性。該模型的工作原理是通過對比突變序列與未突變序列的預(yù)測結(jié)果,對遺傳變異或突變的效果進(jìn)行量化評分。
為了訓(xùn)練AlphaGenome,DeepMind利用了ENCODE、GTEx、4D Nucleome和FANTOM5等大型公共聯(lián)盟提供的數(shù)據(jù)。這些數(shù)據(jù)集涵蓋了數(shù)百種人類和小鼠細(xì)胞類型及組織的基因調(diào)控關(guān)鍵模式,為模型的訓(xùn)練提供了堅實的基礎(chǔ)。
在模型架構(gòu)上,AlphaGenome結(jié)合了多種技術(shù)。它使用卷積層來識別基因組序列中的短模式,利用變壓器傳遞序列中所有位置的信息,并通過一系列最終層將這些檢測到的模式轉(zhuǎn)化為對不同調(diào)控模式的預(yù)測。
AlphaGenome的幾大亮點包括:能夠處理超長序列并做出精細(xì)到單個字母分辨率的預(yù)測;具備全面的多種模式預(yù)測能力;高效地對變異進(jìn)行評分;以及對剪接接點進(jìn)行建模,這在同類模型中尚屬首次。
AlphaGenome的預(yù)測能力在多個科研領(lǐng)域都具有潛在的應(yīng)用價值,包括疾病理解、合成生物學(xué)和基礎(chǔ)研究等。然而,盡管取得了顯著進(jìn)步,該模型仍面臨一些挑戰(zhàn),例如如何準(zhǔn)確捕捉遠(yuǎn)距離調(diào)控元素的影響等。