Google 近期針對影像生成技術發布了重大更新,推出了名稱為 Nano Banana 2 的 Gemini 3.1 Flash Image 模型。這款模型強調在維持 Flash 等級快速反應的同時,也同時大幅提升了視覺細節與語義理解能力。
新版模型的 AI 產圖效果優異,在 text-to-image 文字生圖的部分,於 arena.ai 排行榜上領先群倫。

全新範本與多圖風格轉移技術
這次 Google 在 Nano Banana 2 中,加入了幾種基於大量的高品質影像資料進行訓練優化的預設風格,確保在不同物件上都能有穩定的表現,多了這幾種現成風格的功能,能讓使用者不需要撰寫落落長的指令,就能快速產出各種不同風格的視覺效果。
其預設風格如下:

要使用這些預設風格,可以在最新的 Gemini 行動版 App 中,點擊影像生成按鈕進入創作介面後,系統會跳出風格選單,只要點選自己喜歡的風格圖片,接著輸入想要生成的物件,系統就會自動套用該風格的參數。若您偏好直接對話,由於Nano Banana 2 對於預設風格的敏感度極高,只要您在指令中加入特定風格的關鍵字也能生成該風格的圖片。
靈活運用風格參考打造高階視覺
如果手邊有一張喜歡的風格圖,也可以直接上傳該圖片並搭配您的主角照片,CyberQ 實測指令寫下:「將圖 A 的風格應用到圖 B 的主角身上」,模型也能自動提取色調與筆觸,這樣的方式比內建風格範本更具備自定義的彈性,能確保視覺風格在不同素材間都能維持高度統一。
這種精準的控制力在處理複雜的光影與材質時尤為關鍵。為了更清晰呈現模型升級後的差異,我們將 Nano Banana 2 與前一代模型的核心表現指標整理如下。
| 評估項目 | 前一代模型表現 | Nano Banana 2 實測表現 |
|---|---|---|
| 結構維持能力 | 修改後容易改變原始物件輪廓或比例 | 精確保留原始影像結構與物件特徵 |
| 風格轉移深度 | 僅能參考色彩趨勢與大致畫面氛圍 | 深度模仿特定藝術語彙與複雜筆觸質感 |
| 背景融合技術 | 物件邊緣容易產生不自然的白邊或色塊 | 具備智慧環境反射與自然的物理陰影演算 |
| 資料處理能力 | 處理多張參考圖時容易發生語義混淆 | 展現極高邏輯拆解與精準的多圖重組能力 |
| 物理光學細節 | 難以正確還原透明材質的折射現象 | 精確模擬玻璃折射與液體焦散光斑效果 |
商業級玻璃材質與液體折射焦散測試
為了進一步驗證新模型在極限物理成像上的表現,我們挑選了最具挑戰性的透明材質,做了下觀察其在光線折射與陰影處理上的細節。
在專業的產品攝影中,玻璃的清透感與液體的焦散特效是最考驗算力的部分。透過實測可以發現,模型現在能精準模擬光線穿過透明容器後,在桌面形成的複雜光斑與折射層次,這對於需要高品質行銷素材的大廠或設計團隊來說,能大幅節省後製調整的時間。
圖 A 威士忌杯的厚實構造與切磨質感,將其放置在圖 B 冰川裂縫旁的冰面上。日出的強烈橘光必須穿過杯底厚玻璃與琥珀色酒液,在冰面上投射出極具細節的琥珀色焦散光紋。杯中的冰塊需呈現出半透明質感,並反映出環境的藍色調。整體畫面需展現出大廠頂級商業廣告的寫實水準。
素材參考圖片


我們將酒杯放到冰川圖片中,則生成以下圖片,在沒有特別提示的情況下,太陽光線很明顯有一道光束直射玻璃酒杯,顯得很不自然。

經過修正光束的提示後,下面第二張圖片已經修正那道不自然的光束。我們可以另外觀察杯子下方的冰面上,有沒有出現因為光線穿過琥珀色液體而產生的琥珀色光斑?因為在前一代模型時,通常只能畫出影子,這次實測 Nano Banana 2 卻能畫出帶有琥珀色色調的光斑,可以說是技術上的一大突破。
另外,透過杯身看到的風景輪廓,看起來也大致符合常理。最後可以觀察酒杯底部與冰雪接觸的地方,是否有自然的陰影,以及冰塊是否也反映了風景及杯中酒的顏色。

角色特徵與藝術風格轉換
這項實測旨在驗證模型在提取人物特徵與轉換特定藝術語彙時的精準度,適合創作者與插畫開發參考。以圖中女性的五官特徵與穿著為基礎,將其重新創作為圖 B 的 3D 黏土動畫角色,必須精確保留面部與髮型特徵,同時呈現黏土特有的霧面質感與光澤。
左圖為參考圖片,右圖為根據原圖產生的黏土動畫風格圖片。


產生的黏土風格圖片特徵與原圖高度符合
複雜指令語義理解與細節呈現測試
這是一項純文字指令的壓力測試,目的是觀察 Nano Banana 2 在面對多個物件、環境描述與光影要求時,是否能避免細節遺漏,換句話言之,就是測試其邏輯整合能力。
指令內容: 一隻穿著精緻深藍色西裝的英國短毛貓坐在現代化辦公室的電腦椅上,前方的辦公桌放著一個冒著熱氣的白色馬克杯和一台顯示著 Cyberq 網站的筆記型電腦。背景的大落地窗外正下著雨,室內的暖黃色燈光與窗外的冷色調光線形成對比,畫面需呈現電影級的景深效果

產出的圖片完全符合複雜的文字指令
影像局部編輯與物件替換準確性測試
測試模型對於現有影像的理解力,以及在不更動原始畫面架構的前提下,進行局部物件抽換的精準度。
原始圖片是一個女生在下雨的街頭撐著一把透明雨傘。CyberQ 實測編輯指令則是:保留圖片中人物的姿勢、服裝與街景結構,將手中的透明雨傘移除,替換為握著智慧型手機的手,手機正開啟手電筒模式而發出白光,光線必須精確照亮她在尋找東西的位置以及周圍。原本由雨傘遮擋的頭頂部分,現在需呈現出被雨水淋濕的質感,背景的雨景與街道反射需維持不變。左圖是給模型的參考圖片,右圖是產生的圖片。


在光線的表現上還是不太自然
室內空間格局與風格重組
這是針對專業領域開發的壓力測試,挑戰模型對於空間邏輯的理解與複雜材質的抽換能力。
CyberQ 實測輸入資料,我們上傳一張日式風格房間照片加上一張奢華古典歐式風格的裝潢照,要求模型將日式風格房間更換為另一張圖片的古典歐式風格。
參考圖片


預期 AI 應維持原本房間的窗戶位置與牆面結構,將原本牆面應該換成古典歐式風格,並根據風格圖加入對應的燈具與家具。下面產出第一張圖片顯然出了錯,窗戶位置與沒有改變,但是其他地方改成古典歐式風格了,天花板跟燈卻還是維持原本的日式風格。

提醒 Nano Banana 2 修正後,馬上改成相對應的風格。

經過此測試可見此模型不會為了遷就風格而隨意改動牆壁或天花板的位置,代表對空間邏輯的理解還算不錯。
現成風格的一致性測試
針對現成風格建議,CyberQ 同時將「風景」、「會反射光線的擺設」、「動物」這三種完全不同的素材,分別套用同一個風格。
參考圖片



觀察 Nano Banana 2 是否能在同一個風格跨類別維持相同的材質特徵。以下為懷舊卡通的表現,都是一次就生成。



我們還測試了琺瑯別針的風格,此風格不知為何無法一次產生,要嘗試2-4次才成功,而且中間第二張圖片的球體莫名多了眼睛,顯然它對球體反射的深色部分有所誤解。



多張參考圖片測試
參考圖片為狗、貓、網球、北歐風客廳,測試將這幾項元素放在同一張圖片時,AI 模型對實際物品大小的理解是否正確,還有光線的表現。




產生了第一張圖,肉眼可見黃金獵犬身上的光線非常不自然

經過提醒修正後,明顯有所改善

我們還有另外跟模型下指令,要求改變黃金獵犬的姿勢,改成低頭看著地上的貓,結果就完全變成了另外一張圖片,而且重新下只領也改不回來。


穩定性仍有改善空間
在本次針對 Nano Banana 2 的實測中,我們發現這款模型在預設風格的易用性上展現了極大潛力,但實務操作時的穩定性還有進步空間。
雖然有預設的風格範本供使用者選擇,但在實際產圖的過程中,不同風格的成功率並不一致。我們觀察到部分風格,例如懷舊卡通風格的指令遵循度極高,幾乎能做到一鍵產出理想成果。相對地,某些藝術感較強或視覺邏輯較為複雜的風格,卻需要透過多次嘗試或重複生成,才能精準呈現出該風格獨有的質感與細節。
CyberQ 認為,在實際運用上,仍需要使用者投入一定的耐心進行校正。對於追求產出效率的內容創作者來說,這種不穩定性是未來模型更新時需要持續最佳化的關鍵方向。但目前的 Nano Banana 2 已經大幅降低了創作門檻,在未來如何讓每一種預設風格都能達到一擊即中的效果,將會是下一階段繼續進步的方向,以目前的實際成果來說,Google Gemini Nano Banana 2 的成果已經相當優秀,是商用泛用大模型中的佼佼者。
首圖及部分配圖 Nano Banana 2 AI 生成








