開源 AI 生成介面的重要軟體 ComfyUI 推出 v0.22.0 版本,這次更新涵蓋兩大新模型支援、多項 LTX 影片生成節點強化、Hunyuan3D 與 HiDream 修復,以及大量節點顯示與可用性改進。對於使用 ComfyUI 進行影像、影片、3D 與音訊生成的創作者來說,這是一個值得立即升級的版本。CyberQ 實測並安裝實作,也彙整了本次更新的重點,並測試變更對實務工作流的影響。

原生支援 Stable Audio 3 開源音樂生成
本次更新最受矚目的重點之一,是 ComfyUI 在 commit #14010 中加入了對 Stable Audio 3 模型的原生支援。這項支援的時機相當關鍵,Stability AI 才剛在 2026 年 5 月發布 Stable Audio 3 系列模型,ComfyUI 幾乎同步跟進。
Stable Audio 3 是一個包含四種規格的模型家族:Small SFX(4.59 億參數,音效專用)、Small(4.59 億參數)、Medium(14 億參數)與 Large(27 億參數)。前三者為開放權重(open-weights)模型,採用完全授權的訓練資料,並依 Stability AI Community License 允許商業使用。其中 Medium 與 Small 規格可於消費級 GPU 甚至 MacBook Pro M4 上執行,最高可生成長達六分鐘的音樂作品,相較前代 Stable Audio Open(僅 47 秒)有跨世代的躍進。
對於在 NAS 或本地 GPU 工作站上運行 ComfyUI 的使用者,這代表現在可以完全在本機端建構音樂生成工作流,無需依賴 API 與雲端服務。同時,更新中也加入了「Empty Audio Latent」相關節點的時間域降採樣(temporal downscale)支援(#13975),讓空音訊 latent 節點可在不同模型架構之間更具通用性。

新增 MoGe 支援:單張影像生成 3D 幾何資料
另一個重要的模型整合是由 kijai 提交的 MoGe(Monocular Geometry Estimation)支援(#13878,CORE-168)。MoGe 由 Microsoft Research、中國科技大學、哈佛大學與清華大學共同開發,為 CVPR 2025 Oral 論文,能夠從單張開放領域影像中估計出公制尺度的 3D 點雲圖、深度圖、法線圖與相機 FOV。
對於從事 3D 內容生成、AR/VR 場景重建、深度合成等工作的創作者,MoGe 的加入意味著 ComfyUI 工作流現在可以直接從一張 2D 圖片產生可用於後續 3D 處理的幾何資訊,無需多相機設定或專用掃描設備。MoGe-2 在 ViT-L 配置下、A100 或 RTX 3090 上的 FP16 推理延遲約為 60ms,對即時工作流相當友善。
LTX 影片生成工作流的多項強化
本次更新對 LTX 系列影片生成節點投入了相當多的工程資源,涵蓋記憶體最佳化、新功能與品質改善:
LTX 2.3 峰值 VRAM 降低(#13735,CORE-166):當使用 guide_mask 時,可顯著降低顯卡記憶體峰值占用,讓較小顯卡也能跑大型工作流。
LTXVAddGuide 新增降採樣 IC-LoRA 支援(#13896,CORE-102):擴展 in-context LoRA 應用情境。
LTXVAddGuide 可選 attention_mask 輸入(#13965,CORE-220):提供更精細的注意力控制。
新增 LTXV 空 latent 的空間降採樣比例(#13999):對複合節點圖更友善。
這些變更整合起來,讓 LTX 工作流在受控生成(controllable generation)方面更具彈性,特別適合製作有特定構圖、運鏡或內容要求的影片片段。
模型支援與相容性修復
Qwen3.5 多圖提示修復(#13943):解決多影像提示下的文字生成問題。
HiDream-O1 支援區域條件控制(area conditioning)(#13944):可對影像的特定區域進行差異化提示。
Hunyuan3D 2.1 批次大小崩潰修復(#13699):修正注意力機制與前向傳播中的 batch size 處理錯誤。
BiRefNet 問題修復(#13966):解決遮罩去背模型的相容性問題。
Stable_Zero123 權重指派最佳化:採 Parameter 賦值方式處理 cc_projection 權重(編按:此項實際為前一版引入,於 v0.22.0 體系中持續穩定)。
節點操作與顯示最佳化
本次版本也包含不少 QoL(Quality of Life)改進,這些變更雖小但對日常使用體驗影響顯著:
Batch Image/Mask/Latent 節點最小值降為 1(#13721):先前最小值為 2,現在可建立單元素批次,更利於動態組裝工作流。
大量節點顯示名稱、描述與分類調整(#13830,CORE-190、CORE-191):由 alexisrolland 提交,全面整理節點命名一致性。
新增 StringFormat 節點(#13997):方便文字組裝與動態提示拼接。
ImageFromBatch 與 LatentFromBatch 支援負數 batch_index(#13857,CORE-195):可從批次尾端反向索引。
FeatherMask 負零索引修復(#12881):修正右側與底部羽化的索引邊界問題。
音訊處理節點處理 None 輸入(#13879):避免上游節點未連線造成的中斷。
OOM 記憶體摘要格式修正(#13950):除錯訊息更易讀。
合作夥伴節點與 API 端點更新
Partner Nodes 方面也有幾項重要更新:
新增 ByteDance Seed LLM 節點(#13919):將字節跳動的大型語言模型納入 ComfyUI 工作流,讓使用者可在節點圖中直接調用對話、文字生成等功能。
修復 Opus 4.7 過時 temperature 參數問題(#13955):Anthropic 的 Claude Opus 4.7 已棄用該參數,節點同步調整。
OpenAPI 規格方面也有多項調整,包括:棄用 /api/upload/mask 端點,改建議使用 /api/upload/image(#13968);Asset schema 移除頂層的 width/height 欄位(#13973);工作區 API 金鑰新增可選 description 欄位(#13993、#13996,BE-1004)。對於有 ComfyUI 自動化整合需求的開發者,建議檢視 API 串接程式碼。
核心架構與安全性
新增 SECURITY.md(#13902):建立正式的安全性政策與漏洞回報流程。
每個模型的唯一識別碼測試(#13654,CORE-134):避免不同模型 ID 撞名造成載入錯誤。
量化運算啟用/模擬狀態記錄(#13946):啟動時於 log 顯示實際生效的量化模式,方便除錯。
動態 CLIP 儲存實作與修復(#13959)。
model_sampling 補丁串接保留 noise_scale/shift(#13892):多重模型取樣補丁串連時不再遺失設定。
前端版本警告改為全 comfy* requirements.txt 條目皆適用(#13875):相依套件版本不符時警告更全面。
工作流範本同步更新
工作流範本(workflow templates)由 v0.9.77 一路更新至 v0.9.79(#13895、#14011),整合了上述新模型與節點的範例。對於剛接觸 Stable Audio 3、MoGe 或新版 LTX 節點的使用者,建議直接從範本啟動,可大幅降低初期摸索成本。
升級建議
v0.22.0 屬於功能性與穩定性兼具的版本,沒有明顯的破壞性變更,CyberQ 建議大多數使用者直接升級。需要特別留意的場景包括:
若使用者有透過 /api/upload/mask 端點上傳遮罩的自動化腳本,請改用 /api/upload/image。
若有依賴 Asset schema 頂層 width/height 欄位的整合,需調整為新格式。
若使用 Partner Node 串接 Claude Opus 4.7,建議升級以避免 temperature 參數錯誤。
使用 Docker 部署於 QNAP、DGX Spark 等環境的使用者,更新後建議重新檢視 systemd 啟動腳本與工作流範本路徑。
回顧我們近期在頂級算力節點上測試各類在地化模型(如 Flux.1 與 Flux.2 LoRA 訓練)的經驗,ComfyUI v0.22.0 展現了不錯的底層適應力。







