人工智能領域正經歷一場前所未有的革新,特別是大型語言模型(LLMs)在多模態任務中的表現令人矚目。盡管這些模型在理解和生成語言方面展現出非凡能力,但它們的推理過程大多受限于自回歸(AR)架構,缺乏必要的靈活性和多樣性。針對這一挑戰,香港大學攜手華為諾亞方舟實驗室,共同推出了一款革命性的模型——FUDOKI。
FUDOKI的核心亮點在于其獨特的非掩碼離散流匹配(Discrete Flow Matching)架構,這一創新徹底顛覆了傳統自回歸模型的運作模式。通過引入并行去噪機制,FUDOKI實現了信息的雙向整合,從而在復雜推理和生成任務中取得了顯著的性能提升。更重要的是,該模型成功地將圖像生成與文本理解兩大領域相融合,實現了前所未有的統一建模。
FUDOKI的去掩碼設計賦予了生成過程前所未有的靈活性。在推理階段,該模型能夠動態調整生成結果,這一特性使其更接近人類的思維方式。在圖像生成方面,FUDOKI的表現尤為搶眼。在Geneval基準測試中,它以0.76的高分超越了同尺寸的自回歸模型,展現了卓越的生成質量和語義準確性。
FUDOKI的成功構建離不開度量誘導的概率路徑和動力學最優速度等先進技術的支持。這些技術使模型能夠在生成過程中綜合考慮每個token的語義相似性,從而生成更加自然流暢的文本和圖像。在模型訓練方面,FUDOKI巧妙地利用預訓練的自回歸模型進行初始化,不僅降低了訓練成本,還顯著提高了訓練效率。
FUDOKI的推出標志著多模態生成和理解領域的一次重大突破,同時也為通用人工智能的發展奠定了更加堅實的基礎。這款模型的出現無疑將激發更多關于人工智能技術的探索和創新。