阿里巴巴旗下的通義實驗室近期發布了全新的開源繪圖模型 Z-Image Turbo,這款模型不僅具備 60 億參數,更主打在消費級硬體上就能流暢使用的親民特性。對於許多受限於硬體設備的創作者與技術愛好者來說,這無疑是一個令人振奮的消息。
突破算力門檻 8步即成圖
過去許多高品質的圖像生成模型,往往需要昂貴的算力資源才能驅動。然而 Z-Image Turbo 採用了單流擴散變換器 Single Stream Diffusion Transformer 架構,這項技術能將文字與圖像的標記 Token 合併處理,大幅提升了參數的使用效率。
根據官方發布的技術資料顯示,Z-Image Turbo 僅需約 8 個擴散步驟就能生成高品質圖像,ComfyUI 官方版提供的工作流預設則是 9 步多一步。換言之,使用者在輸入提示詞後,幾乎不需要漫長的等待時間,就能看到接近即時的生成結果。這對於需要快速迭代創意的設計師而言,是一個相當實用的特性。

解決中文亂碼痛點 雙語渲染更精準
對於華語圈的使用者來說,目前市面上主流的歐美系繪圖模型,最讓人頭痛的問題往往是「看不懂中文」。當使用者嘗試在圖片中加入中文字時,模型常會生成無法辨識的亂碼。
Z-Image Turbo 在這方面展現了顯著的優勢。它經過專門的雙語訓練,能夠精準理解並渲染中文與英文文字。這意味著創作者可以更輕鬆地製作帶有正確中文標題的海報、招牌或是包含文字的插圖,無須再透過第三方軟體進行繁瑣的後製修圖。
16GB VRAM記憶體顯卡即可上手,開源授權更自由
硬體門檻一直是許多人對 AI 產圖望之卻步的主因。Z-Image Turbo 在設計之初就考量到了這一點,它被最佳化為可以在 16GB VRAM 的顯示卡上順暢運作。這代表著許多中高階的消費級顯示卡,例如 NVIDIA GeForce RTX 4060 Ti 16GB 版本以上的設備,都能夠成為這款強大模型的堪用載體。另外,較小記憶體如 12GB 的顯示卡也能夠運作,這是這款模型的顯著優點。
此外, Z-Image Turbo 採用 Apache 2.0 開源協議釋出,這給予了開發者與企業極大的自由度。使用者不僅可以免費下載模型權重,還能將其整合進自己的應用程式或工作流程中。目前該模型也已支援 ComfyUI 等熱門的介面,讓習慣本地端部署的玩家能無縫接軌。
圖像編輯與未來展望
除了圖片生成模型外,該專案還包含了針對圖像編輯最佳化的 Z-Image Edit 版本。這讓使用者能透過自然語言指令來修改現有圖片,例如更換物件顏色或調整背景細節,進一步擴展了 AI 在創意工作流中的應用場景。
隨著 Z-Image Turbo 的問世,我們看到了 AI 繪圖技術正朝著「更高效、更親民」的方向發展。這不僅降低了技術的進入門檻,也讓更多創意能夠透過科技的力量被具象化。對於想要嘗試 AI 繪圖但又擔心硬體不足的使用者來說,這絕對是一個值得關注與嘗試的新選擇。
CyberQ 實測 Z-Image Turbo
本文的測試都在 RTX NVIDIA 5060 Ti 16GB 與 NVIDIA DGX Spark 、QNAP NAS 上的 RTX A2000 12GB 共三種環境上完成,並且圖片輸出入和模型檔案都指定在 QNAP NAS 上的 NFS 磁區,讓團隊們測試和圖片使用、提供素材給其他客戶都很方便,以下是 CyberQ 的實測。
實測一、一般繁體字測試

特寫一個寫著「賽博客」繁體中文字的霓虹招牌,試了許多次都無法精準呈現,儘管已經強調要用繁體字,「賽」字卻一直是簡體字,而「客」字一直被使用其他字替換。

改成 CyberQ 資安 & AI 就能順利顯示資安這二個字。

這個範例中的 Prompt 有下繁體中文的媒體二字,則被顯示為簡體中文。

此次要求女孩的鴨舌帽上印有繁體字的「台灣」,「灣」字也一直出現簡體字。
實測二、難字測試,嘗試在圖片中顯示「龍」、「龜」、「鶴」等筆劃較多的繁體字,生成的結果並不穩定。

「龍」字可以正常呈現。

「龜」無法正確顯示,但是「鶴」卻可以。
實測三、亞洲不同地區的人物特徵測試,只有告知是哪個地方的男大生,臉部與其它特色都未指定。

中國男大生

日本男大生

韓國男大生

台灣男大生
實測四、顏色測試,在同一圖片中展現不同顏色的物品,測試顏色渲染是否會互相影響汙染

顏色顯示看起來都正確無誤
實測五、8步、30步、50步、100步的細節測試




你分得出來哪張圖是僅僅8步驟就生成的嗎?而哪一張圖是最多步驟生成的? 答案在最後面
實測六、同一人物在不同場景的人物特色是否能延續。



上面的測試是指定人物在第一格指定的是他走在路上,第一格中走在路上的人是左邊那位,三格都要求要同一位人物,大部分產生的圖片都正確,但也有如上面第三張的情形,同一人在第三格似乎消失了。

連續圖像如漫畫的生成,也可以很自然地完成。
CyberQ 認為,若你需要生成的圖片中有繁體中文字,目前 Gemini 3 仍是你最好的選擇,但是在不需要顯示文字的情況下,Z-Image的表現就值得讚許。Z-Image Turbo 生成的亞洲各地男大生,臉孔有沒有各地特色見仁見智,但是在不指定條件的情況下,穿搭都有各地特色,但是若仔細觀察會發現,人物跟背景融合得不夠自然。
至於若要求同一個人物在不同場景呈現,以及進行連續作品和適當的分鏡,技術上已經做得到,如果搭配更好的工作流和外掛工具,可以做出更好的動作指定和分鏡來。儘管綜合複雜型態的多樣產圖效果還是 Gemini 表現得最優秀,但它是在雲端的大模型,若以一個開源並可以在地端無限量使用的模型來說,Z-Image Turbo 可說是橫空出世的現主時最佳地端 AI 產圖模型。
至於不同步數去生成的圖,看起來細節是否有差異呢? 個人認為到 50 個步驟以上就有許差異,而 100 個步驟生成的圖細節就明顯不同。第一張圖是8步驟生成的,第二張圖是50個步驟,第三張圖是30步驟生成的,第四張圖是100步驟生成的,你猜對了嗎?
相關網站 :
Tongyi-MAI / Z-Image-Turbo ,通義實驗室 Z-Image-Turbo 在 HuggingFace 上的專頁
HuggingFace Z-Image Turbo 線上測試專頁
本文題圖與配圖均由 ComfyUI 搭配本地端 Z-Image Turbo AI 模型生成







