谷歌旗下最強圖像模型來了 P圖師要消失了？

2025-08-27 21:01:00來源：第一財經

責任編輯：第一黃金網

摘要

在視頻生成模型稱霸多個榜單之后，谷歌終于將戰火引至圖像領域。當地時間8月26日，谷歌發布了其最新的圖像生成和編輯模型Ge

在視頻生成模型稱霸多個榜單之后，谷歌終于將戰火引至圖像領域。當地時間8月26日，谷歌發布了其最新的圖像生成和編輯模型Gemini 2.5 Flash Image，并迅速登頂多個主流圖像排行榜，成為新晉性能冠軍。

第一財經記者實測后發現，確實如眾多網友所體驗的那樣，模型各方面表現堪稱優秀，無論是角色的一致性、提示詞的跟隨、物理邏輯的真實性還是畫面審美方面都保持了水準。但對中國用戶的一大限制在于不支持中文輸入。即使用戶使用英文提示，若生成內容涉及中文，效果仍會顯著下降。測試中還發現，模型偶爾會出現多肢體等結構錯誤。

盡管如此，Gemini 2.5 Flash Image 仍被廣泛認為是當前市場上最強的圖像編輯和生成模型之一。谷歌官方演示顯示，該模型已具備替代部分人工修圖的能力，可幫助設計師一鍵完成圖像修改與創意生成，也適用于電商產品圖的制作。更值得注意的是，其單張圖像生成成本不到3毛錢，極具性價比，有望大幅推進AI圖像生成的商業化進程。

登頂雙榜單

實際上，在正式發布之前，市場已經有一些風聲。上周一款名為“nano-banana”的模型出現在大模型競技場中，開始接受用戶的匿名體驗和打分，目前投票數超過250萬。如今謎底揭曉，“nano-banana”正是Gemini 2.5 Flash Image。

在大模型競技場LMArena的文生圖與圖像編輯兩個場景，谷歌的圖像模型均拿下全球第一，在圖像編輯榜單上模型表現尤為出色，獲得1362的高分，以171分的差距領先第二名flux-1-knotext-max。

知名AI基準測試機構Artificial Analysis同樣獲得了早期訪問權限，并在過去一周以“rex”的化名在競技場中進行了測試。目前谷歌的模型在圖像編輯方面排名第一，超過了OpenAI的GPT-4o和國內阿里的Qwen-Image-Edit，在文生圖方面則略遜于字節Seedream 3.0和GPT-4o，排名第三。

Artificial Analysis還做了一個對比測試，給出了一張圖，讓谷歌、阿里通義和OpenAI三家的模型生成新的照片：在自行車后座上加一名乘客，并將地點更改為內蒙古的草原。

從輸出結果看，千問的圖像模型未能準確進行指令跟隨，在畫面真實度上，谷歌的模型表現則比GPT-4o更為突出。

谷歌稱，Gemini 2.5 Flash Image的核心亮點是圖像編輯能力，這一模型可將多個圖像混合到一幅圖像中，保持高度的角色一致性，還能使用自然語言進行有針對性修改，并充分利用Gemini的世界知識來生成和編輯圖像。

一直以來，圖像生成中的一個根本挑戰是如何在多個提示和編輯中保持角色或物體的外觀。“我們知道，當你編輯自己或熟悉的人時，哪怕是細微的差別都會顯得刺眼。”谷歌官方表示，“差一點但不完全一樣”的效果就是感覺不對，模型的最新更新專門針對這一點，讓朋友、家人，甚至寵物始終看起來像他們自己。

谷歌CEO桑達爾·皮查伊（Sundar Pichai）和谷歌DeepMind CEO戴密斯·哈薩比斯（DemisHassabis）在發布時親自下場帶貨。

皮查伊借助最新模型生成了家里愛犬沖浪、做大廚的照片，畫面質感相當不錯。哈薩比斯則給自己生成了一個肖像照，將照片背景做了修改，切換為古典風格，但是人物的容貌沒有出現改變。

從畫面來看，谷歌這一模型可做到在不同的姿勢、光線和環境中保持人物或角色的相似性，甚至可以將相同的角色應用到新的風格和表面上。

現在用戶使用Gemini App可以免費體驗，但面向開發者的版本，算下來每張生圖成本也不到3毛錢。Gemini 2.5 Flash Image的定價為30美元/100萬個輸出token，每張圖像為1290個輸出token，每張圖像價格約為0.039美元（約合人民幣0.28元），這遠低于OpenAI的0.19美元/張的價格。

實測表現：中文是短板，一致性出眾

根據官方的發文，Gemini 2.5 Flash Image除了角色一致性方面，在渲染文本方面也表現出色。模型可以準確生成包含清晰易讀且位置合理的文本的圖片，非常適合用于徽標、圖表和海報。

在商業化場景中，例如廣告制作方面，主體特點、主角容貌不變，文字不變形這些都非常重要。在這一基礎上，谷歌認為，他們的模型已經能適應產品模型和商業攝影，為電子商務、廣告或品牌宣傳制作清晰專業的商品照片。

具體模型在這些方面的表現如何？第一財經基于哈薩比斯的肖像照進行了測試。加上一張家里貓咪的照片，讓Gemini融合生成哈薩比斯抱著貓坐在沙發上的圖像，并且更換家居服。

從第一次輸出結果來看基本上找不出瑕疵，AI此前容易犯的錯包括手指變形、虛化的背景形態錯誤、人物容貌細微變化等等都沒有發生，甚至連哈薩比斯左手的手表細節都保持了一致。唯一不夠滿意的是，畫面雖然是高清圖，但分辨率并不高。

接下來，第一財經記者加大難度，讓貓坐在沙發上，而哈薩比斯手里拿一本漢語大詞典正在翻閱，沙發換成深綠色。

可以看到，第二次生成時，模型在涉及中文場景的畫面時開始出現錯誤，哈薩比斯拿著的并不是漢語大詞典，甚至很難對應上正確的中文字體，但顏色和形狀上保持了合理性。

第一財經記者進一步更改提示詞，讓模型發揮想象力，將貓換成主角，坐在沙發翻閱牛津詞典，并讓哈薩比斯在旁邊給貓按摩。

在這一步，模型開始出現明顯的錯誤，指令并沒有完全跟隨，甚至貓多出了一條腿。不過，確實如官方所說，在英文場景下，文字的渲染沒有出現差錯，哈薩比斯手中牛津詞典的書名拼寫完全正確。

綜上，該模型在面貌一致性、文本準確性方面表現優異，尤其擅長英文環境；而在中文理解與復雜構圖指令方面仍存在明顯缺陷。

在商業應用上，基于模型性能的提升，或許將重塑設計、廣告與電商行業。

官方表示，模型支持用自然語言進行針對性地變換和精準局部編輯。例如，可以模糊圖像背景、去除T恤上的污漬、從照片中移除整個人物、改變拍攝對象的姿勢、為黑白照片添加顏色。這很大程度上已經能替代圖像領域的王者Adobe的PS，可見的未來，修圖師的地位也岌岌可危。

在設計領域，一些圖形風格更改也可以一鍵完成了。谷歌提到，模型現在可以輕松地將其從一張圖像轉移到另一張圖像，同時保留前一個主題的形式和細節，這種一致性可用于專業設計場景。例如，模型能在不改變形狀和細節的前提下，完成紋理的更換。

在物理知識方面，模型表現也較為出色。根據谷歌的案例，給模型一個氣球飄向仙人掌的視覺圖像后，提示其想象生成下一個可能的情況。從畫面來看，模型能夠預判氣球爆炸后的物理特征。

在電商場景中，已有海外用戶嘗試用該模型生成商品展示圖。如將人物手中的涂抹區域替換為香奈兒手袋，效果逼真，幾乎看不出合成痕跡。

可以預見，隨著生成效果不斷優化與使用成本持續降低，Gemini 2.5 Flash Image 有望加速AI在電商、廣告、設計乃至專業攝影領域的影響和替代效應，修圖師與部分視覺設計師的工作內容，或將被重新定義。

更多資訊可關注第一黃金網微信公眾號

更多精彩財經資訊，點擊這里下載第一黃金網APP

31 收藏

標簽：

還未登錄

/ 注冊

相關閱讀

謀共同發展贏繁榮未來——上海合作組織推動區域可持續發展走深走實

國際
新華社北京8月23日電（記者俞懋峰）在中國和哈薩克斯坦邊境的新疆阿拉...

2025-08-23 21:00
國際金融市場早知道：8月25日

國際
【資訊導讀】 ·特朗普威脅將解職美聯儲理事庫克 ·多國郵政公司宣布暫停...

2025-08-25 11:00
石破茂有大動作！召集非洲約50國開峰會，要建“印度洋-非洲經濟圈”

國際
據《環球時報》報道，8月20日至22日，日本橫濱市主辦第9屆非洲開發會...

2025-08-22 03:00
王毅會見韓國總統特使、韓國前國會議長樸炳錫

國際
中共中央政治局委員、外交部長王毅8月24日在北京會見韓國總統特使、韓國...

2025-08-24 22:00
以軍稱襲擊加沙納賽爾醫院是為摧毀哈馬斯監控

國際
當地時間26日晚，以色列國防軍通報了25日襲擊加沙地帶南部汗尤尼斯納賽...

2025-08-27 02:00
外交部亞洲司司長劉勁松會見新加坡駐華大使陳海泉

國際
2025年8月27日，外交部亞洲司司長劉勁松會見新加坡駐華大使陳海泉，...

11小時前
印尼蘇門答臘島北部發生5.7級地震震源深度10千米

國際
中新網8月23日電據中國地震臺網正式測定：08月23日20時24分在印...

2025-08-23 23:00
華泰證券：維持美聯儲年內再降息兩次的預測

國際
人民財訊8月23日電，華泰證券研報稱，北京時間8月22日（周五）晚，美...

2025-08-23 18:00
伊朗外長：“大以色列”幻想對國際和平安全構成威脅

國際
人民財訊8月25日電，伊朗外交部長阿拉格齊24日在沙特《中東報》發表文...

2025-08-25 23:03
國際金融市場早知道：8月22日

國際
【資訊導讀】 ·特朗普稱可再生能源是“世紀騙局” ·韓國總統辦公室否認...

2025-08-22 08:00