蘋果公司近日發(fā)布了一項重要研究成果——名為《Pico-Banana-400K:面向文本引導圖像編輯的大規(guī)模數(shù)據(jù)集》的全新數(shù)據(jù)集。該數(shù)據(jù)集包含40萬張經(jīng)過精心編輯的圖像,旨在為文本引導的圖像編輯模型提供高質量的訓練和評測資源。與以往數(shù)據(jù)集不同,Pico-Banana-400K采用非商業(yè)性研究許可發(fā)布,允許全球研究人員和學術機構自由使用,但禁止用于商業(yè)用途。
近年來,圖像生成與編輯技術取得了顯著進展,但開放研究仍面臨諸多挑戰(zhàn)。蘋果研究團隊指出,現(xiàn)有數(shù)據(jù)集普遍存在三大問題:一是依賴專有模型生成的合成數(shù)據(jù),二是僅包含有限的人工篩選子集,三是存在領域偏移、編輯類型分布不均以及質量控制不一致等問題。這些問題嚴重制約了魯棒圖像編輯模型的發(fā)展。為突破這一瓶頸,蘋果團隊決定構建一個更全面、更具代表性的圖像編輯數(shù)據(jù)集。
Pico-Banana-400K的構建過程嚴謹而系統(tǒng)。研究團隊首先從OpenImages數(shù)據(jù)集中精選了大量真實照片,確保內容涵蓋人物、物體及含文字場景等多樣化元素。隨后,他們設計了35種不同類型的圖像修改指令,并將其歸入八大類別,包括像素與光度調整(如添加復古濾鏡)、以人為中心的編輯(如將人物轉換為玩具形象)、場景構成與多主體編輯(如改變天氣條件)、對象級語義修改(如移動物體位置)以及圖像縮放(如放大畫面)等。
在編輯過程中,研究人員將原始圖像與編輯指令輸入谷歌的Gemini 2.5-Flash-Image模型(也被稱為Nanon-Banana)進行圖像編輯。該模型在圖像編輯任務中表現(xiàn)出色,被廣泛認為是當前最先進的模型之一。生成結果隨后交由Gemini 2.5-Pro模型進行自動評估,只有準確遵循指令且具備良好視覺質量的圖像才會被納入最終數(shù)據(jù)集。這一雙重驗證機制確保了數(shù)據(jù)集的高質量。
Pico-Banana-400K不僅包含單輪編輯的樣本,還涵蓋了多輪連續(xù)編輯序列以及“偏好對”樣本。后者通過對比成功與失敗的編輯結果,幫助模型學習區(qū)分理想與不良輸出。這種設計使得數(shù)據(jù)集更具實用性和訓練價值。盡管研究團隊承認Nanon-Banana在精細空間控制、布局外推和文字排版處理方面仍存在局限,但他們強調,Pico-Banana-400K的目標是為下一代文本引導圖像編輯模型提供一個堅實、可復現(xiàn)的基礎。
目前,相關研究論文已發(fā)布于預印本平臺arXiv,完整的Pico-Banana-400K數(shù)據(jù)集也已在GitHub上向全球研究者免費開放。這一舉措有望推動圖像編輯領域的研究進展,為開發(fā)更智能、更高效的圖像編輯工具奠定基礎。











