蘋果公司近日在學術研究領域邁出重要一步,正式推出名為《Pico-Banana-400K:面向文本引導圖像編輯的大規模數據集》的研究成果,并同步發布包含40萬張圖像的完整數據集。該數據集采用非商業性研究許可協議,全球研究人員和學術機構可自由用于非盈利目的的探索。
研究團隊指出,當前圖像編輯領域面臨關鍵瓶頸:現有公開數據集普遍存在三大缺陷——依賴專有模型生成的合成數據、人工篩選子集規模有限、質量評估標準不統一。這些問題導致領域偏移、編輯類型分布失衡等頑疾,嚴重制約魯棒性圖像編輯模型的開發。為此,蘋果選擇以開源方式構建更全面的基準數據集。
數據集構建流程體現嚴謹的學術規范。研究人員首先從OpenImages數據集中精選涵蓋人物、物體、文字場景等多元內容的真實照片,隨后設計35種細分編輯指令并劃分為八大類別:包括像素級調整(如添加復古濾鏡)、人物形象轉換(如生成Funko-Pop玩具風格)、場景重構(如天氣條件變換)、對象語義修改(如物體空間關系調整)等典型場景。
在技術實現層面,項目采用谷歌開發的Gemini-2.5系列模型完成核心工作流。每張原始圖像與編輯指令輸入Nanon-Banana模型(即Gemini 2.5-Flash-Image)生成候選結果,再由Gemini 2.5-Pro進行雙重驗證:既檢查指令遵循度,也評估視覺質量。只有通過嚴格篩選的樣本才能進入最終數據集。
該數據集的創新性體現在結構化設計:除包含單輪編輯樣本外,特別收錄多輪連續編輯序列,完整呈現圖像逐步演變過程;同時設置"偏好對"樣本,通過成功與失敗案例的對比,為模型提供明確的優化方向。這種設計使數據集既能用于基礎訓練,也可支撐復雜的評測任務。
研究團隊坦承當前模型在空間控制精度、布局外推能力等方面仍有提升空間,但強調Pico-Banana-400K的核心價值在于建立標準化基準。通過提供大規模、高質量且完全開放的訓練資源,該項目有望推動文本引導圖像編輯領域進入新的發展階段。目前完整數據集與學術論文已分別在GitHub和arXiv平臺公開,供全球研究者下載使用。











