滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

圖像界的DeepSeek！12B參數對標GPT-4o，5秒出圖

時間：2025-06-30 14:27:42 來源：量子位編輯：快訊團隊 IP：北京 發表評論無障礙通道

圖像模型開源還得是FLUX！

Black Forest Labs剛剛宣布開源旗艦圖像模型FLUX.1 Kontext[dev]，專為圖像編輯打造，還能直接在消費級芯片上運行。

只有小小的12B，更少的參數，更快的推理，性能更是媲美GPT-image-1等一眾閉源模型。

現在FLUX.1 Kontext[dev]可以讓小狗迅速離開畫面，為小老鼠戴上胡須，添加文字、修改背景也不在話下。

或者多次輸入指令，直到讓小哥成為酒吧里最靚的崽（bushi），直到讓畫面符合咱們需求。

具體來說，FLUX.1 Kontext[dev]的主要特點有：

可以根據編輯指令直接更改現有圖像，以及進行精確的本地和全局編輯。

不用做任何微調，就能直接引用里面的人物角色、風格樣式和物品元素。

允許用戶通過多次連續編輯優化圖像,同時將視覺漂移降到最低。

專門為NVIDIA Blackwell進行了權重優化。

網友們也立馬上手試玩，制作了一個旅行的CPU青蛙？

旅行必備的墨鏡，還有抗寒的帥氣紅色毛衣也要準備妥當。（蛙蛙：出片，我勢在必行）

或者copy一下自己喜歡的動漫角色。

輕輕松松店鋪打烊，結束打工人完美的一天～（doge）

還有網友腦洞大開，試著和LoRA結合，造出了一個Kontext風格化肖像制作APP。

現在FLUX.1 Kontext[dev]還完全支持ComfyUI。

自動播放

溫馨提示，官方直接開放了試玩API，只需點擊文末鏈接、上傳圖片就可以立即爽玩！

網友看罷表示，Black Forest Labs不愧是圖像屆的DeepSeek。

FLUX.1 Kontext的開放權重變體

FLUX.1 Kontext模型上個月一經發布，就因為其強大的上下文生成和編輯功能廣受好評。

與現有的文本到圖像模型不同，FLUX.1 Kontext系列執行上下文圖像生成，可以直接使用文本和圖像進行提示，并無縫提取和修改視覺細節。

目前已經發布了適合快速迭代的專業版FLUX.1 Kontext[pro]和高配版FLUX.1 Kontext[max]。

FLUX.1 Kontext[dev]作為FLUX.1 Kontext最新發布的開源版本，不僅繼承了其圖像生成的優勢，它還更專注于編輯任務，可以直接在消費類硬件上運行。

首先模型架構上，依舊基于的是FLUX.1模型，它是一種在圖像自動編碼器的潛在空間中訓練的整流流Transformer模型，由雙流塊和單流塊混合構建而成。

在此基礎上，FLUX.1 Kontext[dev]采用標記序列構建和位置信息編碼進行優化：

標記序列構建：圖像通過凍結的FLUX自動編碼器，編碼成潛在的上下文圖像標記，并輸入到模型的視覺流中。

位置信息編碼：通過三維旋轉位置嵌入（3D RoPE）對位置信息進行編碼，為上下文標記的嵌入提供恒定偏移量。并將其視作為虛擬時間步，以清晰分離上下文和目標塊，同時保持它們的內部空間結構。

然后使用整流流匹配損失進行訓練，在訓練時從FLUX.1的文本到圖像檢查點開始，收集并整理數百萬個關系對進行模型優化。

優化后得到的流匹配模型進行潛在對抗擴散蒸餾（LADD），在減少采樣步驟的同時提高樣本質量，使FLUX.1 Kontext[dev]更高效。

最終得到的FLUX.1 Kontext[dev]模型包含120億參數，可以更專注于編輯任務，支持迭代編輯，可以在各種場景和環境中保留角色特征，并允許用戶進行精確的局部或全局編輯。

圖像編輯新標準

實驗引入自研的KontextBench基準進行模型性能驗證，該基準包含1026個圖像-提示對，涵蓋局部編輯、全局編輯、角色參考、風格參考和文本編輯五個任務類別。

結果顯示FLUX.1 Kontext[dev]在許多類別上都優于現有的開放式圖像編輯模型和封閉模型，例如Bytedance Bagel、HiDream-E1-Full以及OpenAI的GPT-image-1等。

另外，FLUX.1 Kontext[dev]還專門針對新的NVIDIA Blackwell架構進行了TensorRT權重優化，可以在保持高質量的圖像編輯性能的同時，極大地提高推理速度并減少內存使用量。

官方還提供了BF16、FP8和FP4 TensorRT的權重變體，用戶可以自行對其速度、效率和質量進行調整，綜合確保FLUX.1 Kontext[dev]充分利用最新的硬件功能。

在實際用戶的反饋中，也發現FLUX.1 Kontext[dev]的推理速度較前代提升了4至5倍，模型在NVIDIA H100 GPU上運行，通常5秒內能夠完成，在Replicate上的運行成本約為0.0067USD，或每1USD運行149次。

但是也有網友提到，在MacBook Pro的芯片上運行時，迭代時間較長，每次迭代都需要1分鐘左右。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

“星紀魅族科技”公眾號更改名稱為“魅族科技”

06-30

百度正式開源文心大模型4.5系列模型

06-30

沒有3C標識也未被召回的充電寶還能用嗎，法律專家釋疑

06-30

小米相機煥新計劃：下放給更多存量機型分三批推送

06-30

阿里站到AI潮頭

06-30

雷軍7月2日晚直播分享小米YU7上市背后的故事

06-30

樂道L90外觀配色公布，五色可選

06-30

武漢“跨境”，關鍵一躍

06-30

何小鵬：我也下單小米YU7 靜候雷總早點給我交付

06-30

豆包上線“深入研究”功能，支持報告生成及播客轉換

06-30

五大分布式機器學習框架：加速訓練，優化資源利用

Ray Train：一個用于分布式模型訓練的庫，可與PyTorch和TensorFlow等流行的機器學習框架配合使用。總結我使用過本文中提到的幾乎所有分布式計算框架，但我主要使用PyTorch和Tenso…

06-30

蘋果未來四年頭戴設備大揭秘：七款頭顯與智能眼鏡在路上

在蘋果頭戴式產品中，最先實現大規模出貨的將是類似Meta雷朋智能眼鏡的產品，預計2027年出貨量為300萬部至500萬部，或者更多。郭明錤表示，蘋果在Vision系列和智能眼鏡方面的優勢在于強大的硬件開發…

06-30

坤維科技閃耀江蘇機器人聯盟盛會，榮膺副理事長單位

展會現場眾多行業專家和企業代表前來咨詢交流，探討高質量的力控解決方案。本次活動集中呈現工業制造、教育娛樂、家庭服務、安全應急、文旅接待、農業生產等六大應用場景，搭建供需對接、技術協同、產業聯動的創新平臺，…

06-30

來牟科技智能割草機器人Lymow One完成數千萬元融資，加速歐美市場拓展

團隊方面，創始人高望書為前云鯨聯創，后加入SharkNinja品牌主導掃地機器人研發工作，其產品市占率排名北美第一；多位核心成員均畢業于國內外頂級院校，曾任NVIDIA英偉達、華為、圖森未來等企業的核心研發…

06-30

張江引領腦機接口新紀元：打造頂尖創新集群與產業集聚高地

本次活動是在上海市科學技術委員會、上海市浦東新區科技和經濟委員會的指導下，由上海市張江科學城建設管理辦公室主辦，以“腦機互聯，智啟未來”為主題，聚焦腦機接口這一極具潛力與挑戰的領域，為產業界、學術界以及投資…

06-30

點擊查看更多 +

全站最新

武漢“跨境”，關鍵一躍

何小鵬：我也下單小米YU7 靜候雷總早點給我交付

豆包上線“深入研究”功能，支持報告生成及播客轉換

五大分布式機器學習框架：加速訓練，優化資源利用

蘋果未來四年頭戴設備大揭秘：七款頭顯與智能眼鏡在路上

坤維科技閃耀江蘇機器人聯盟盛會，榮膺副理事長單位

熱門內容

本欄最新

豆包上線“深入研究”功能，支持報告生成及播客轉換

五大分布式機器學習框架：加速訓練，優化資源利用

蘋果未來四年頭戴設備大揭秘：七款頭顯與智能眼鏡在路上

坤維科技閃耀江蘇機器人聯盟盛會，榮膺副理事長單位

來牟科技智能割草機器人Lymow One完成數千萬元融資，加速歐美市場拓展

張江引領腦機接口新紀元：打造頂尖創新集群與產業集聚高地

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

圖像界的DeepSeek！12B參數對標GPT-4o，5秒出圖

日本精品一区二区三区高清久久