國際機器學習大會(ICML)近期落幕,快手攜手上海交通大學推出了一款名為Orthus的多模態生成理解模型,該模型已正式對外開源。這款創新之作基于自回歸Transformer架構,實現了文本與圖像間的無縫轉換,展現了卓越的生成能力。
Orthus的核心優勢在于其高效的計算性能和強大的學習能力。研究顯示,即便在有限的計算資源下,該模型在多項圖像理解指標上仍超越了現有的混合理解生成模型,例如Chameleon和Show-o。尤其在文生圖生成的Geneval指標上,Orthus的表現尤為突出,甚至超過了專為該任務設計的擴散模型SDXL。
Orthus不僅在處理文本與圖像交互關系上表現出色,還在圖像編輯和網頁生成等領域展現出巨大潛力。其架構設計精妙,以自回歸Transformer為主干網絡,配備專門用于生成文本和圖像的模態生成頭。這一設計巧妙地分離了圖像細節建模與文本特征表達,使模型能夠專注于構建文本與圖像之間的復雜聯系。
該模型由多個關鍵組件構成,包括文本分詞器、視覺自編碼器以及針對兩種模態的嵌入模塊。這些組件共同協作,將文本和圖像特征融合到一個統一的表示空間中,使主干網絡在處理模態間依賴關系時更加高效。在推理階段,模型會根據特定標記,以自回歸方式生成下一個文本token或圖像特征,展現出高度的靈活性。
Orthus的創新設計不僅解決了端到端擴散建模與自回歸機制之間的沖突,還有效減少了圖像離散化帶來的信息損失。這一成果被視為是何愷明在圖像生成領域MAR工作的多模態拓展,具有重要的學術和應用價值。