日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

快手上海交大聯手發布Orthus模型,開創多模態生成理解新紀元

   時間:2025-07-23 23:33:59 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道
 

國際機器學習大會(ICML)近期落幕,快手攜手上海交通大學推出了一款名為Orthus的多模態生成理解模型,該模型已正式對外開源。這款創新之作基于自回歸Transformer架構,實現了文本與圖像間的無縫轉換,展現了卓越的生成能力。

Orthus的核心優勢在于其高效的計算性能和強大的學習能力。研究顯示,即便在有限的計算資源下,該模型在多項圖像理解指標上仍超越了現有的混合理解生成模型,例如Chameleon和Show-o。尤其在文生圖生成的Geneval指標上,Orthus的表現尤為突出,甚至超過了專為該任務設計的擴散模型SDXL。

Orthus不僅在處理文本與圖像交互關系上表現出色,還在圖像編輯和網頁生成等領域展現出巨大潛力。其架構設計精妙,以自回歸Transformer為主干網絡,配備專門用于生成文本和圖像的模態生成頭。這一設計巧妙地分離了圖像細節建模與文本特征表達,使模型能夠專注于構建文本與圖像之間的復雜聯系。

該模型由多個關鍵組件構成,包括文本分詞器、視覺自編碼器以及針對兩種模態的嵌入模塊。這些組件共同協作,將文本和圖像特征融合到一個統一的表示空間中,使主干網絡在處理模態間依賴關系時更加高效。在推理階段,模型會根據特定標記,以自回歸方式生成下一個文本token或圖像特征,展現出高度的靈活性。

Orthus的創新設計不僅解決了端到端擴散建模與自回歸機制之間的沖突,還有效減少了圖像離散化帶來的信息損失。這一成果被視為是何愷明在圖像生成領域MAR工作的多模態拓展,具有重要的學術和應用價值。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 恩施市| 晋江市| 泰州市| 宁晋县| 双城市| 庄浪县| 栾城县| 建瓯市| 阿合奇县| 察隅县| 博客| 宁远县| 个旧市| 郓城县| 迭部县| 宜丰县| 琼中| 凤山县| 商河县| 托里县| 阆中市| 阿勒泰市| 时尚| 饶平县| 大港区| 吉安县| 华池县| 陇南市| 青冈县| 清原| 平原县| 闽侯县| 郓城县| 西林县| 蒙城县| 新绛县| 时尚| 黄浦区| 天水市| 施秉县| 德化县|