蘋果公司近日正式宣布,將參與于2025年10月19日至23日在檀香山舉辦的國際計算機視覺大會(ICCV)。作為全球計算機視覺領域的頂級學術會議,ICCV每兩年與歐洲計算機視覺會議(ECCV)交替舉行,聚焦該領域的前沿研究與技術突破。
據悉,蘋果此次不僅提交了八篇論文并全部被大會錄用,還將在多個環節深度參與。這些論文涵蓋多模態模型、視頻生成、三維空間理解等核心方向,具體包括:探索多模態大語言模型三維空間理解能力的“MM-Spatial”、研究原生多模態模型擴展規律的論文、提出可擴展文本與圖像條件化視頻生成方法的“STIV”、基于多模態提示的統一開放世界分割技術,以及用于統一圖像生成與編輯的通用擴散模型“UniVG”等。這些成果將在大會的海報展示和口頭報告環節集中亮相。
蘋果機器學習應用研究部經理C. Thomas博士將代表公司出席第三屆基于視覺的工業檢測研討會(VISION),并發表主題演講。其演講主題將于近期公布,時間定于10月19日。蘋果研究人員Patricia Vitoria Carrera與Tanya Glozman將參與“計算機視覺領域女性研討會”,并在會后晚宴中擔任導師,為青年學者提供指導。
在評估框架方面,蘋果提出了“UINavBench”這一交互式數字智能體綜合評估體系,同時通過“ETVA”方法實現文本到視頻對齊的細粒度評估。另一項研究指出,穩定擴散模型在視覺上下文學習中具有隱性優勢,為多模態模型優化提供了新思路。
此次參會標志著蘋果在計算機視覺領域的持續投入。從基礎研究到應用落地,其成果覆蓋了模型架構、生成技術、評估體系等多個維度,展現了公司在跨模態智能領域的全面布局。











