近日,科技界迎來了一項重要創新,字節跳動攜手香港大學及華中科技大學,共同研發出了一款名為UniTok的視覺分詞器。這款分詞器不僅在視覺生成與理解領域展現出巨大潛力,還成功解決了傳統分詞器在細節捕捉與語義理解之間的難題。
UniTok采用了前沿的多碼本量化技術,通過將圖像特征分割成多個小塊,并利用獨立的子碼本進行量化,極大地提升了視覺token的表示能力。這一技術革新使得圖像在處理過程中能夠呈現出更加精細的細節。據悉,UniTok在ImageNet數據集上的零樣本分類準確率高達78.6%,同時圖像重建質量也達到了令人矚目的0.38,遠超當前市面上的其他分詞器。
UniTok的核心功能涵蓋了統一視覺表示與高質量圖像重建兩大方面。它能夠將圖像編碼為離散的視覺token,這些token不僅適用于圖像生成任務,如根據文本描述生成圖像,還能夠應用于視覺理解場景,例如回答與圖像內容相關的問題。UniTok結合了對比學習與重建損失,確保了生成的視覺token與文本描述之間的高度對齊,從而進一步提升了視覺理解的能力。
從技術原理上看,UniTok的多碼本量化技術使得視覺token的詞匯量實現了指數級增長。同時,它所采用的多頭注意力模塊也更好地保留了原始token中的語義信息,增強了分解后特征的表達能力。在訓練過程中,UniTok始終遵循統一的目標,既確保了圖像細節的準確重建,又優化了生成與理解任務。
UniTok不僅在視覺領域取得了顯著成果,還為多模態大語言模型(MLLM)的發展注入了新的活力。通過將生成的視覺token映射到多模態語言模型的token空間,UniTok推動了視覺與語言的統一處理。這一技術突破不僅提高了圖像生成的效率,還為教育、醫療影像分析等多個領域帶來了全新的應用機遇。