你是否常覺得許多 AI 圖像生成模型對於文字應用在圖片上常常做不夠好或出現亂碼字? 除了英文外,其他語言文字未能盡善盡美? 繼 Black Forest Labs 的 FLUX.1 Kontext 將這方面效果做得更好後,近期 AI 算圖領域出現了一個新挑戰者,也就是中國阿里巴巴集團旗下「通義千問」(Qwen)團隊所開發的最新開源圖像生成模型 Qwen Image AI。
Qwen Image AI 有多特別呢? 它可以正確地將中文字顯示在 AI 生成的圖片中,已經是接近商業用的品質,加上它的出圖效果優秀,迅速在全球 AI 社群中引起廣泛討論與關注。

姑且不論有沒有人為去加分,但根據阿里巴巴他們自己公開讓全球網友盲測圖片的網站 AI Arena ,其最新的 AI 圖像生成模型排行榜,Qwen Image 的表現已能與業界最頂尖的 AI 算圖模型並駕齊驅,為使用者提供了一個除了新秀FLUX.1 Kontext、老字號 Stable Diffusion 外,更加強大且可自訂的本地端 AI 算圖新選擇。
不僅懂畫,亦懂文字:Qwen Image 的優勢
傳統的 AI 圖像生成模型,長久以來在圖片中精準生成文字方面存在技術瓶頸,常出現文字錯亂、語意不符或無法處理複雜排版等問題。Qwen Image AI 的出現,採用一個擁有 200 億參數的多模態 DiT (Diffusion Transformer) 架構,並透過大量的圖文資料進行訓練,使其在理解和生成包含精確文字的圖像有比以往的模型表現再好一些。
圖片上文字功能: 無論是單行標題、多行段落,甚至是中英雙語混排,Qwen Image 都能完成,並保持語意的連貫性。這對於需要製作海報、簡報、資訊圖表等內容的創作者而言,是不錯的效果。但我們實際在本機上用 NVIDIA 顯示卡測試,在一堆文字的情況下,它還是會有錯誤的字元出現,但大部分能正確顯示出簡體中文字,繁體中文字有的還不一定完全正確,如下圖所示。

圖像編輯功能: Qwen Image 的圖像編輯功能,透過提示詞再對現有圖像進行風格轉換、物件增刪、細節強化,以及人物姿態的調整,增加後製彈性。
目前在實務上,已經可以在 Hugging Face 等網站下載 Qwen Image 模型來使用,我們則是使用 ComfyUI 搭配工作流來實測 :

AI Arena 排行榜上的成績
除了強大的功能,Qwen Image 的生成品質如果用盲測的話,會是怎樣的成績呢? 在由阿里巴巴自己做的全球使用者匿名投票評比網站,也就是前面我們提到的 AI Arena 圖像生成模型排行榜上,Qwen-Image 表現是看得到的,其主要成績如下:

綜合排名第三: 以2025年8月的數字來看,Qwen Image 以 1023 的 Elo 評分,僅次於 Google 的 Imagen 4 Ultra Preview 和字節跳動的 Seedream 3.0,居排行榜第三。
超越知名模型: Qwen Image 的評分超越了部分知名的競爭對手,包括 OpenAI 的 GPT Image 1 [High](987分)、Black Forest Labs 的 FLUX.1 Kontext [Pro](961分)以及 Ideogram 3.0(942分)。
如果不考慮線上的 AI 算圖模型,單純看可以在本地端跑的所有開源模型中,Qwen Image 的盲測排名可說是第一了,和 Black Forest Labs 的 FLUX.1 Kontext 產出相比,有不少部分是勝出的。
開源釋出意味著不只是本地端部署,還包括社群自己訓練出來的衍生版模型
相較於 Midjourney 等閉源的雲端服務,Qwen Image AI 的另一大吸引力在於其開源的特性。模型以 Apache 2.0 授權條款釋出,允許個人和企業自由地進行商業和非商業性的使用、修改與再發布。
和社群目前熱門的 FLUX.1 Kontext 一樣,使用者也不再需要將資料上傳至第三方伺服器,即可在自己的電腦上進行 AI 算圖,不僅保障了資料的隱私性與安全性,更提供了無限制的創作自由度,很多NSFW 的圖或被限制不能生成的圖,在這些開源模型中是可生成的。
目前,Qwen Image 的模型已在 Hugging Face 和 Github 等平台上公開,開發者和進階使用者可以根據官方提供的指南,將模型部署在本地端的個人電腦或伺服器上。雖然其 200 億的參數規模對硬體,特別是顯示卡記憶體(VRAM)有一定要求(官方建議需要 20GB 以上的顯卡會比較適合),但隨著社群對模型進行量化(Quantization)等最佳化技術的推進,在 16GB 顯卡上搭配 CPU 使用來執行已經成為可能,未來有機會在更廣泛的消費級顯卡的機器上執行。
Qwen Image AI 不僅在生成品質上備受矚目,其文字渲染能力算是改善了我們在業界關注的一項難題。想試試看比較沒有限制的創作嗎?
試試看在你自己的電腦、伺服器或 QNAP NAS 上去實作吧,在具備 NVIDIA 顯示卡的 NAS 上可以使用容器管理工具,在 ComfyUI 的容器中,掛載 Qwen Image 的 Node 來使用,下載對應的模型和相關檔案便能如上圖我們測試環境中去執行。
官方提供的測試連結 (在千問的頁面選圖像)
下載 Qwen Image 模型 : Hugging Face
本文最上方的標題特色圖片,由 AI 所產生。