卡帕西從信息密度、表達維度和注意力機制三個層面展開論證。他指出,將文本渲染為圖像后,單個視覺塊可承載多個字符信息,而傳統分詞方式需為每個字符或子詞分配獨立token。在處理長文檔時,這種壓縮機制能顯著降低計算資源消耗。以視覺編碼器處理為例,Vision Transformer架構已證明其高效性,而DeepSeek-OCR的實踐更驗證了視覺到文本轉換的高精度。
在信息表達層面,圖像輸入天然包含字體、顏色、布局等視覺元素,這些格式信息在純文本中需依賴Markdown等標記語言實現,既增加token數量又損失自然性。卡帕西特別提到,雙向注意力機制在圖像處理中的運用,使模型能同時捕捉上下文信息,突破自回歸文本生成中因果注意力的局限,從而提升理解深度。
針對傳統分詞器的弊端,卡帕西直言其"歷史遺留問題"。他舉例說明,相同視覺字符因Unicode編碼差異可能被映射為不同token,導致模型對相似輸入產生不同響應。若直接處理圖像,可消除這種非端到端架構帶來的復雜性,使系統更加簡潔統一。
盡管技術可行性已獲驗證,卡帕西也指出實踐中的不對稱性:用戶輸入可轉為圖像形式,但模型輸出仍需保持文本形態,因當前圖像生成技術尚未完全解決逼真度問題。這意味著模型架構需同時支持視覺理解與文本生成能力,無法徹底摒棄傳統處理方式。
這場討論延伸至效率、統一性與生態兼容性等多個維度。支持者認為,圖像輸入可統一文檔理解、OCR、多模態問答等任務,簡化模型設計;反對者則擔憂計算成本增加——雖然信息密度提升,但圖像編碼本身的算力消耗可能抵消部分收益。純文本的可編輯性與現有工具鏈的兼容性問題,也成為完全轉向圖像輸入的主要障礙。
DeepSeek-OCR論文的走紅,恰逢OCR技術從字符識別向文檔理解演進的關鍵期。當視覺模型能準確解析復雜格式文本時,將所有文本任務視為"視覺理解"任務在概念上成立。卡帕西以半開玩笑的方式提到抑制開發純圖像輸入聊天機器人的沖動,既表達對技術前景的期待,也暗示實際落地需克服多重挑戰。
產業界更傾向漸進式過渡方案。混合輸入模式被視為更現實的選擇:在需要保留視覺格式的場景使用圖像輸入,在需要靈活編輯的場景沿用文本輸入。這種策略既能利用圖像的高密度優勢,又可維持文本處理的便利性。
卡帕西的論斷挑戰了文本token作為語言模型標準輸入的固有認知,為優化模型輸入表示提供了新視角。盡管完全實現尚需時日,但這一討論已推動學界重新思考信息處理的本質,可能催生更高效、統一的AI架構。











