在視頻生成模型稱霸多個榜單之后,谷歌終于將戰火引至圖像領域。當地時間8月26日,谷歌發布了其最新的圖像生成和編輯模型Gemini 2.5 Flash Image,并迅速登頂多個主流圖像排行榜,成為新晉性能冠軍。
盡管如此,Gemini 2.5 Flash Image 仍被廣泛認為是當前市場上最強的圖像編輯和生成模型之一。谷歌官方演示顯示,該模型已具備替代部分人工修圖的能力,可幫助設計師一鍵完成圖像修改與創意生成,也適用于電商產品圖的制作。更值得注意的是,其單張圖像生成成本不到3毛錢,極具性價比,有望大幅推進AI圖像生成的商業化進程。
登頂雙榜單
實際上,在正式發布之前,市場已經有一些風聲。上周一款名為“nano-banana”的模型出現在大模型競技場中,開始接受用戶的匿名體驗和打分,目前投票數超過250萬。如今謎底揭曉,“nano-banana”正是Gemini 2.5 Flash Image。
在大模型競技場LMArena的文生圖與圖像編輯兩個場景,谷歌的圖像模型均拿下全球第一,在圖像編輯榜單上模型表現尤為出色,獲得1362的高分,以171分的差距領先第二名flux-1-knotext-max。
Artificial Analysis還做了一個對比測試,給出了一張圖,讓谷歌、阿里通義和OpenAI三家的模型生成新的照片:在自行車后座上加一名乘客,并將地點更改為內蒙古的草原。
谷歌稱,Gemini 2.5 Flash Image的核心亮點是圖像編輯能力,這一模型可將多個圖像混合到一幅圖像中,保持高度的角色一致性,還能使用自然語言進行有針對性修改,并充分利用Gemini的世界知識來生成和編輯圖像。
一直以來,圖像生成中的一個根本挑戰是如何在多個提示和編輯中保持角色或物體的外觀。“我們知道,當你編輯自己或熟悉的人時,哪怕是細微的差別都會顯得刺眼 。”谷歌官方表示,“差一點但不完全一樣”的效果就是感覺不對,模型的最新更新專門針對這一點,讓朋友、家人,甚至寵物始終看起來像他們自己。
谷歌CEO桑達爾·皮查伊(Sundar Pichai)和谷歌DeepMind CEO戴密斯·哈薩比斯(DemisHassabis)在發布時親自下場帶貨。
皮查伊借助最新模型生成了家里愛犬沖浪、做大廚的照片,畫面質感相當不錯。哈薩比斯則給自己生成了一個肖像照,將照片背景做了修改,切換為古典風格,但是人物的容貌沒有出現改變。
現在用戶使用Gemini App可以免費體驗,但面向開發者的版本,算下來每張生圖成本也不到3毛錢。Gemini 2.5 Flash Image的定價為30美元/100萬個輸出token,每張圖像為1290個輸出token,每張圖像價格約為0.039美元(約合人民幣0.28元),這遠低于OpenAI的0.19美元/張的價格。
實測表現:中文是短板,一致性出眾
根據官方的發文,Gemini 2.5 Flash Image除了角色一致性方面,在渲染文本方面也表現出色。模型可以準確生成包含清晰易讀且位置合理的文本的圖片,非常適合用于徽標、圖表和海報。
在商業化場景中,例如廣告制作方面,主體特點、主角容貌不變,文字不變形這些都非常重要。在這一基礎上,谷歌認為,他們的模型已經能適應產品模型和商業攝影,為電子商務、廣告或品牌宣傳制作清晰專業的商品照片。
具體模型在這些方面的表現如何?第一財經基于哈薩比斯的肖像照進行了測試。加上一張家里貓咪的照片,讓Gemini融合生成哈薩比斯抱著貓坐在沙發上的圖像,并且更換家居服。
接下來,第一財經記者加大難度,讓貓坐在沙發上,而哈薩比斯手里拿一本漢語大詞典正在翻閱,沙發換成深綠色。
第一財經記者進一步更改提示詞,讓模型發揮想象力,將貓換成主角,坐在沙發翻閱牛津詞典,并讓哈薩比斯在旁邊給貓按摩。
綜上,該模型在面貌一致性、文本準確性方面表現優異,尤其擅長英文環境;而在中文理解與復雜構圖指令方面仍存在明顯缺陷。
在商業應用上,基于模型性能的提升,或許將重塑設計、廣告與電商行業。
官方表示,模型支持用自然語言進行針對性地變換和精準局部編輯。例如,可以模糊圖像背景、去除T恤上的污漬、從照片中移除整個人物、改變拍攝對象的姿勢、為黑白照片添加顏色。這很大程度上已經能替代圖像領域的王者Adobe的PS,可見的未來,修圖師的地位也岌岌可危。
在設計領域,一些圖形風格更改也可以一鍵完成了。谷歌提到,模型現在可以輕松地將其從一張圖像轉移到另一張圖像,同時保留前一個主題的形式和細節,這種一致性可用于專業設計場景。例如,模型能在不改變形狀和細節的前提下,完成紋理的更換。
在物理知識方面,模型表現也較為出色。根據谷歌的案例,給模型一個氣球飄向仙人掌的視覺圖像后,提示其想象生成下一個可能的情況。從畫面來看,模型能夠預判氣球爆炸后的物理特征。