Google 開發者們,準備好迎接更強大的 AI 圖像工具了嗎?Google 這次新推出的 Gemini 2.5 Flash Image(又稱 nano-banana),之前在 LMArena上被許多使用者標註為排名第一的 AI 生成式圖片模型了,提供高品質的圖像生成與編輯功能,讓我們可以獲得更多圖片生成的創意掌控能力。

多圖融合與自然語言編輯, storytelling 升級
Gemini 2.5 Flash Image 的最大優點,是能夠將多張圖片無縫融合成一張,並保持角色的連貫性,這對於需要豐富敘事性的專案來說,無疑是一大福音。此外,它支援透過自然語言進行精準的圖像編輯。使用者只需要簡單的文字提示,就能夠輕鬆完成像是模糊背景、移除物件,甚至是改變主體姿勢等複雜的編輯工作。

在圖片編輯的能力上,超越了 GPT Image 1 (high)、Flux.1 Kontext (MAX) 與阿里巴巴旗下的千問 Qwen Image Edit 等業界頂尖的圖像生成模型的編輯圖片成果。


以下面這個室內設計軟裝的概念圖片生成範例來說, Google 優雅地呈現了這領域的成果示範:
以這個案例影片來說,將居家和園藝規劃視覺化,還可以將產品拉到一個新場景中,去快速創造新的合成圖像,效果相當優異。
結合 Gemini 的知識庫,解鎖更多應用可能
這款模型更整合了 Gemini 龐大的知識庫,使其對圖像語意有更深層的理解,進而開創了許多新的應用場景。例如,它可以化身為一名互動式家教,理解手繪的圖表並提供教學。
CyberQ 實際測試,它的效果確實不錯,比之前的 AI 生成式圖片模型在整合度上強了許多。
API 搭配不同平台運用
開發者現在可以透過 Gemini API、Google AI Studio,以及企業級的 Vertex AI 平台來使用 Gemini 2.5 Flash Image。為了讓開發過程更加順暢,Google AI Studio 也更新了「建構模式」,讓使用者可以快速地透過客製化的 AI 應用來測試模型的功能。官方也釋出了多款範本應用,展示了模型在角色一致性、提示式圖片編輯和多圖融合方面的強大能力。
定價與數位浮水印
Gemini 2.5 Flash Image 的定價為每百萬輸出 token 30 美元。為了確保透明度,所有透過此模型生成或編輯的圖片,都將包含隱形的 SynthID 數位浮水印,以標示其為 AI 生成或編輯的內容。
Google 也宣布與 OpenRouter.ai 和 fal.ai 等平台合作,讓更多的開發者社群都能接觸到這款強大的模型,並期待透過使用者的回饋,持續改善這個專案的成品。
本文特色圖片提圖為 Gemini 2.5 所產生