你還在擔心怎樣跑龍蝦 AI 代理嗎 ? 在生成式 AI 發展如火如荼的 2026 年,開源節點式 AI 工作站霸主 ComfyUI 於近日正式釋出了具備里程碑意義的 v0.15.0 版本更新,同步搭配前端 Frontend v1.39.16 與 Desktop 桌面版 v0.8.8,社群也有人推出了在 ComfyUI 執行的 Ollama,甚至是 OpenClaw 龍蝦 AI 代理,這使得 ComfyUI 的泛用性和實用性大增,各種工作流的結合正在積極發展中。
這一次的更新除了單純的 Bug 修復與效能提升外,更明確宣示了 ComfyUI 的擴張野心,它已徹底打破單純「擴散模型繪圖 GUI」的框架,蛻變為一個涵蓋大語言模型(LLM)、高階影音特效與動態 3D 的「全模態 AI 視覺化作業系統」。
v0.15.0 核心升級打破模態的界線
CyberQ 實裝 ComfyUI v0.15.0 與進行實作,感受到這次個更新在多模態支援與工作流體驗上帶來了不錯的多重擴充。

首度原生支援 LLM 文本生成(Gemma 3 & Qwen 3)
過去在 ComfyUI 中若要透過 AI 自動擴寫提示詞,往往需要依賴第三方擴充(如 Ollama)或繁瑣的外部 API。在 v0.15.0 中,核心開發團隊正式引入了原生文本生成模型支援 (Native text generation support),第一波支援的模型呢,包括 Google 最新的 Gemma 3 以及 Qwen 3(PR #12392, #12537)。
我們現在進行的工作流就可以內建 LLM 模型,能在本地零延遲、無隱私風險地執行複雜的語意推理、反推 Prompt 與腳本生成。
影音同軌 (Audio-Visual) 與特效能力的進步
音訊處理部分新增了原生的 3 Band Equalizer(三頻段等化器)(PR #12519),讓生成出來的音效直接在工作流中就能進行基礎混音與頻段調整。
即時視覺特效則有開發者 @pythongosssss 貢獻了基於 PyOpenGL 的 GLSL Shader 節點(PR #12148),技術美術(TA)現在可以直接在 ComfyUI 內寫著色器程式碼,渲染即時動態特效。
高畫質切片部分新增 SplitImageToTileList 與 ImageMergeTileList 節點(PR #12599),大幅最佳化了超高解析度圖片的切片放大與無縫拼合流程。
雲端 API 宇宙擴張與 UI 體驗最佳化
面對商業級巨型運算模型,v0.15.0 大幅擴展了 Partner API 節點的陣容,這次包含了字節跳動最新的 Seedream-5、快手 KlingAvatar(可靈虛擬人)、Recraft V4 以及頂級語音庫 ElevenLabs 節點。
而在前端 UI 方面也極具巧思,
官方不僅加入了「Essentials」基礎節點分類,更將高達 429 個冷門參數小工具標記為「進階並支援折疊 (Collapsible UI)」,讓版面不再像一團義大利麵般雜亂,甚至貼心地為 Rodin Gen-2 等付費雲端節點加上了價格標籤 (Price Badge),防止用戶不小心燒光 API 額度,這點超重要的,很怕把卡片刷爆的人可以更安心一點。
LTX 遷移陣痛與 VRAM 生存戰
儘管功能無比強大,但近期 GitHub Issue 與 Reddit 論壇的討論,我們在擁抱 ComfyU 新技術的同時,也正面臨著硬體極限與架構轉移的陣痛:
LTX-Video (LTXAV) 的架構重構與「溫柔的過渡期」
在本次更新中,官方為了讓架構更合理,將 LTXAV 的「影音嵌入連接器 (AV embedding connectors)」直接移入了擴散模型底層(PR #12569)。這項破壞性變更導致了舊版 LTX 2.0 的工作流瞬間失效,引起了社群的恐慌與熱議。
面對社群的哀嚎,官方展現了極高的敏捷度,立刻推送了「暫時解除 LTXAV 工作流破壞性變更 (Temporarily unbreak)」的更新檔(PR #12605),並同步修復了 FP8 權重的載入問題,給予創作者們充足的時間來遷移至新版架構。
LLM 與 巨型影片模型帶來的 OOM(記憶體耗盡)考驗
隨著模型動輒數百億參數,如何在消費級顯示卡上同時載入 LLM(如 Gemma 3)、影片模型(如 Wan 2.2 或 LTX)成為最大難題。雖然官方在近期修復了動態記憶體(Dynamic VRAM)的洩漏問題與 Aimdo 分配器(PR #12260, #12368),但許多 24GB VRAM(如 RTX 4090)的頂級玩家在生成長影片時,依然頻繁遭遇極端的系統交換(Paging)卡頓甚至 OOM 崩潰。
CyberQ 實測的應對策略是這樣,畢竟需要 GGUF 量化格式 來極限壓縮 Gemma 3 權重,並利用 FFN Chunking 技術將巨大的張量運算強制分塊,這是目前低 VRAM 設備體驗頂級全模態生成比較適合的方式。
ComfyUI 繼續擴充 AI 工作流的各種定義
CyberQ 認為,從這次 v0.15.0 的發布軌跡,可以清楚看見 2026 年生成式 AI 市場應用的一些趨勢。
LLM 成為工作流的「中樞神經」(Agentic Workflows)
過去,AI 繪圖是「提示詞工程師」反覆盲測單字的天下。現在的趨勢是將 Gemma 3 這類 LLM 作為整個節點的起點。你只需要輸入簡單的故事概念,LLM 會自動將其擴寫為符合電影運鏡、光影細節的完美提示詞,並自動判斷該呼叫哪一種 LoRA 控制器。AI 創作工作流進入由 AI 驅動 AI的代理自動化時代。
混合推論(Hybrid Inference)成為商業落地首選
面對參數深不見底的影片模型(如市場熱門的開源影片模型 Wan 2.2),單一顯卡已難以單打獨鬥。ComfyUI 大量整合 API 節點的做法,反映了目前企業與專業創作者最愛的混合實作方式,也就是在本地端使用輕量級的 Flux 或 SD3.5 搭配 ControlNet 進行零延遲、高隱私的構圖與姿態預覽,確認無誤後,一鍵透過 API 將任務拋上雲端,利用 Kling 或 Seedream-5 算力渲染出 4K 電影級影片,這樣的好處是可兼顧隱私、創意控制力與硬體成本。
影音同軌(Audio-Visual)終結無聲 AI 時代
近年閱聽大眾對於單純動起來的無聲圖片已經感到疲乏。LTX-Video 底層的最佳化、各種等化器以及 ElevenLabs 節點的加入,讓影片與聲音的潛空間 (Latent Space) 能夠被統合在一起。已經陸續發展出類似這樣,AI 導演在 ComfyUI 拉完節點後,輸出的直接就是一部帶有環境音效與角色對白的高畫質短片。
ComfyUI v0.15.0 實作參考
CyberQ 設計了以下四個階段,可以逐步把參數填入你的 ComfyUI 中進行實作:

第一階段:測試地端 LLM (餵給 v0.15.0 內建 Gemma 3 節點)
如果你想測試最新的原生 LLM 節點,不想要自己寫提示詞的話,把這段指令丟給 Gemma 3,還可以測試它將簡單概念轉化為神級 Prompt 的能力:
System/User Prompt (輸入給 LLM 的指令):
“You are an expert AI visual effects director. I need a master prompt for a top-tier diffusion model like Flux.1 or SD3.5.
Concept: A biomechanical female botanist pruning a glowing, floating neon bonsai tree inside a spherical glass terrarium. It is raining heavily outside.
Task: Expand this into a highly detailed, comma-separated image prompt. Emphasize macro photography, ray-traced refractions on the wet glass, subsurface scattering on the glowing leaves, and the contrast between her polished carbon-fiber arms and realistic skin. Keep it under 150 words.”
第二階段:高畫質產圖(餵給 CLIP Text Encode 節點)
如果你想直接測試生圖底層模型,可測試類似 Prompt 如下:
正向提示詞 (Positive Prompt):
Cinematic macro shot, extreme photorealism, masterpiece. A hyper-detailed biomechanical female botanist delicately pruning a levitating, bioluminescent quantum bonsai tree inside a large spherical glass terrarium. The bonsai leaves are made of glowing translucent cyan glass and pulsating magenta fiber optics. The botanist has flawless, hyper-textured human facial skin with micro-pores and subsurface scattering, but her arms are intricate brushed carbon-fiber and glowing copper servos. Heavy rain streaks down the outside of the glass terrarium, creating complex ray-traced water droplet refractions of the vibrant neon cyberpunk city lights outside. Volumetric fog, dramatic cinematic lighting with strong teal and amber rim lights. Shot on ARRI Alexa 65, 100mm macro lens, f/1.8 shallow depth of field, 8k resolution, octane render.
負向提示詞 (Negative Prompt):
(註:若使用 Flux.1 模型可留空或隨意填寫,若使用 SD系列可填入)
(worst quality, low quality:1.4), flat lighting, dull colors, mutated hands, missing fingers, deformed mechanical parts, blurry rain, plastic skin, watermarks, text, overexposed, distorted glass refraction.
第三階段:打破靜態(餵給 LTX-Video / Wan 2.2 節點)
生成出完美的靜態 4K 圖後(建議先降轉回 1080p 以節省 VRAM),將圖片無縫接入 v0.15.0 重構後的影片模型,測試「影音同軌」能力:
影片動態提示詞 (Video Motion Prompt):
Slow cinematic push-in. The glowing cyan leaves of the levitating bonsai tree pulse with light and gently rotate. Heavy raindrops streak dynamically down the curved wet glass terrarium. The cyberpunk neon lights in the background subtly flicker and accurately reflect on the wet glass and the botanist’s carbon-fiber arms. High frame rate, extremely smooth fluid motion.
第四階段:聲光同軌與後製(餵給 Audio 與 特效節點)
在影片輸出的最後階段,加入這些讓作品達到電影質感的收尾:
音效生成提示詞 (Audio Prompt – 餵給 ElevenLabs 或本地 Audio 節點):
“Heavy rain hitting a thick glass pane, distant low-frequency cyberpunk city synth drone, delicate high-pitched crystalline chiming sounds from the glowing bonsai, subtle mechanical servo whirring.”
終極調音 (測試 v0.15.0 3 Band Equalizer 節點):
將生成的聲音接入三頻段等化器。把 Low(低頻)參數拉高 +3.0 dB,增強賽博龐克城市的重低音轟鳴,將 High(高頻)拉高 +1.5 dB,讓雨滴敲擊玻璃的聲音更清脆。
極限切片測試 (測試 v0.15.0 SplitImageToTileList 節點):
(此為可選的高階挑戰) 在靜態圖生成後,接上最新的切片放大節點,將其無縫放大至 4K。測試您的動態記憶體分配器(Aimdo)是否能撐住不崩潰。
當我們按下 Queue Prompt 跑完這整條龐大的工作流後,可以逐步觀察光學折射(Refraction)、全局光照(Global Illumination)與材質邊界(Material Boundaries)。
CyberQ 升級建議
ComfyUI v0.15.0 真的是近期幾個版本最具野心的進化了,它像是一套 AI 時代的 Unreal Engine,將所有最先進的文字、圖像、音訊、影片模型完美縫合在一個無限大的畫布之上。
給創作者的升級行動建議:
擁抱桌面版:強烈建議使用最新的 ComfyUI Desktop 桌面版 (v0.8.8),它提供了無痛的一鍵更新與環境隔離,能有效避開更新時最讓人頭痛的 Python 依賴地獄。
檢視舊專案:若你手上有大量基於 LTX-Video 的商業急件,建議先備份現有工作流,觀望幾天並參考官方最新的架構範例,逐步替換掉舊有的 AV Embedding 節點。
AI 創作的邊界正在以前所未有的速度消融。現在就更新你的 ComfyUI,親自體驗這場由原生 Gemma 3 與影音 AI 掀起的多模態革命吧!







