ComfyUI v0.22.0：原生支援 Stable Audio 3、MoGe 單目幾何估計，並大幅強化 LTX 工作流

開源 AI 生成介面的重要軟體 ComfyUI 推出 v0.22.0 版本，這次更新涵蓋兩大新模型支援、多項 LTX 影片生成節點強化、Hunyuan3D 與 HiDream 修復，以及大量節點顯示與可用性改進。對於使用 ComfyUI 進行影像、影片、3D 與音訊生成的創作者來說，這是一個值得立即升級的版本。CyberQ 實測並安裝實作，也彙整了本次更新的重點，並測試變更對實務工作流的影響。

原生支援 Stable Audio 3 開源音樂生成

本次更新最受矚目的重點之一，是 ComfyUI 在 commit #14010 中加入了對 Stable Audio 3 模型的原生支援。這項支援的時機相當關鍵，Stability AI 才剛在 2026 年 5 月發布 Stable Audio 3 系列模型，ComfyUI 幾乎同步跟進。

Stable Audio 3 是一個包含四種規格的模型家族：Small SFX（4.59 億參數，音效專用）、Small（4.59 億參數）、Medium（14 億參數）與 Large（27 億參數）。前三者為開放權重（open-weights）模型，採用完全授權的訓練資料，並依 Stability AI Community License 允許商業使用。其中 Medium 與 Small 規格可於消費級 GPU 甚至 MacBook Pro M4 上執行，最高可生成長達六分鐘的音樂作品，相較前代 Stable Audio Open（僅 47 秒）有跨世代的躍進。

對於在 NAS 或本地 GPU 工作站上運行 ComfyUI 的使用者，這代表現在可以完全在本機端建構音樂生成工作流，無需依賴 API 與雲端服務。同時，更新中也加入了「Empty Audio Latent」相關節點的時間域降採樣（temporal downscale）支援（#13975），讓空音訊 latent 節點可在不同模型架構之間更具通用性。

新增 MoGe 支援：單張影像生成 3D 幾何資料

另一個重要的模型整合是由 kijai 提交的 MoGe（Monocular Geometry Estimation）支援（#13878，CORE-168）。MoGe 由 Microsoft Research、中國科技大學、哈佛大學與清華大學共同開發，為 CVPR 2025 Oral 論文，能夠從單張開放領域影像中估計出公制尺度的 3D 點雲圖、深度圖、法線圖與相機 FOV。

對於從事 3D 內容生成、AR/VR 場景重建、深度合成等工作的創作者，MoGe 的加入意味著 ComfyUI 工作流現在可以直接從一張 2D 圖片產生可用於後續 3D 處理的幾何資訊，無需多相機設定或專用掃描設備。MoGe-2 在 ViT-L 配置下、A100 或 RTX 3090 上的 FP16 推理延遲約為 60ms，對即時工作流相當友善。

LTX 影片生成工作流的多項強化

本次更新對 LTX 系列影片生成節點投入了相當多的工程資源，涵蓋記憶體最佳化、新功能與品質改善：

LTX 2.3 峰值 VRAM 降低（#13735，CORE-166）：當使用 guide_mask 時，可顯著降低顯卡記憶體峰值占用，讓較小顯卡也能跑大型工作流。
LTXVAddGuide 新增降採樣 IC-LoRA 支援（#13896，CORE-102）：擴展 in-context LoRA 應用情境。
LTXVAddGuide 可選 attention_mask 輸入（#13965，CORE-220）：提供更精細的注意力控制。
新增 LTXV 空 latent 的空間降採樣比例（#13999）：對複合節點圖更友善。

這些變更整合起來，讓 LTX 工作流在受控生成（controllable generation）方面更具彈性，特別適合製作有特定構圖、運鏡或內容要求的影片片段。

模型支援與相容性修復

Qwen3.5 多圖提示修復（#13943）：解決多影像提示下的文字生成問題。
HiDream-O1 支援區域條件控制（area conditioning）（#13944）：可對影像的特定區域進行差異化提示。
Hunyuan3D 2.1 批次大小崩潰修復（#13699）：修正注意力機制與前向傳播中的 batch size 處理錯誤。
BiRefNet 問題修復（#13966）：解決遮罩去背模型的相容性問題。
Stable_Zero123 權重指派最佳化：採 Parameter 賦值方式處理 cc_projection 權重（編按：此項實際為前一版引入，於 v0.22.0 體系中持續穩定）。

節點操作與顯示最佳化

本次版本也包含不少 QoL（Quality of Life）改進，這些變更雖小但對日常使用體驗影響顯著：

Batch Image/Mask/Latent 節點最小值降為 1（#13721）：先前最小值為 2，現在可建立單元素批次，更利於動態組裝工作流。
大量節點顯示名稱、描述與分類調整（#13830，CORE-190、CORE-191）：由 alexisrolland 提交，全面整理節點命名一致性。
新增 StringFormat 節點（#13997）：方便文字組裝與動態提示拼接。
ImageFromBatch 與 LatentFromBatch 支援負數 batch_index（#13857，CORE-195）：可從批次尾端反向索引。
FeatherMask 負零索引修復（#12881）：修正右側與底部羽化的索引邊界問題。
音訊處理節點處理 None 輸入（#13879）：避免上游節點未連線造成的中斷。
OOM 記憶體摘要格式修正（#13950）：除錯訊息更易讀。

合作夥伴節點與 API 端點更新

Partner Nodes 方面也有幾項重要更新：

新增 ByteDance Seed LLM 節點（#13919）：將字節跳動的大型語言模型納入 ComfyUI 工作流，讓使用者可在節點圖中直接調用對話、文字生成等功能。
修復 Opus 4.7 過時 temperature 參數問題（#13955）：Anthropic 的 Claude Opus 4.7 已棄用該參數，節點同步調整。

OpenAPI 規格方面也有多項調整，包括：棄用 /api/upload/mask 端點，改建議使用 /api/upload/image（#13968）；Asset schema 移除頂層的 width/height 欄位（#13973）；工作區 API 金鑰新增可選 description 欄位（#13993、#13996，BE-1004）。對於有 ComfyUI 自動化整合需求的開發者，建議檢視 API 串接程式碼。
核心架構與安全性

新增 SECURITY.md（#13902）：建立正式的安全性政策與漏洞回報流程。
每個模型的唯一識別碼測試（#13654，CORE-134）：避免不同模型 ID 撞名造成載入錯誤。
量化運算啟用/模擬狀態記錄（#13946）：啟動時於 log 顯示實際生效的量化模式，方便除錯。
動態 CLIP 儲存實作與修復（#13959）。
model_sampling 補丁串接保留 noise_scale/shift（#13892）：多重模型取樣補丁串連時不再遺失設定。
前端版本警告改為全 comfy* requirements.txt 條目皆適用（#13875）：相依套件版本不符時警告更全面。

工作流範本同步更新

工作流範本（workflow templates）由 v0.9.77 一路更新至 v0.9.79（#13895、#14011），整合了上述新模型與節點的範例。對於剛接觸 Stable Audio 3、MoGe 或新版 LTX 節點的使用者，建議直接從範本啟動，可大幅降低初期摸索成本。

升級建議

v0.22.0 屬於功能性與穩定性兼具的版本，沒有明顯的破壞性變更，CyberQ 建議大多數使用者直接升級。需要特別留意的場景包括：

若使用者有透過 /api/upload/mask 端點上傳遮罩的自動化腳本，請改用 /api/upload/image。
若有依賴 Asset schema 頂層 width/height 欄位的整合，需調整為新格式。
若使用 Partner Node 串接 Claude Opus 4.7，建議升級以避免 temperature 參數錯誤。
使用 Docker 部署於 QNAP、DGX Spark 等環境的使用者，更新後建議重新檢視 systemd 啟動腳本與工作流範本路徑。

回顧我們近期在頂級算力節點上測試各類在地化模型（如 Flux.1 與 Flux.2 LoRA 訓練）的經驗，ComfyUI v0.22.0 展現了不錯的底層適應力。

ComfyUI v0.21.0 釋出更新：DynamicVRAM、PyAV 載入改造與本地 AI 工作流實測

ComfyUI v0.19.0 釋出，支援LTX2 語音同步與多模態 AI 引擎的全面升級

ComfyUI v0.18.0 繼續最佳化 VRAM 並全面升級多精度支援

標籤: AI AI產圖 AI產影片 ComfyUI

ComfyUI v0.22.0：原生支援 Stable Audio 3、MoGe 單目幾何估計，並大幅強化 LTX 工作流

Proxmox VE 9.2 正式釋出：邁入 Linux Kernel 7.0 與 CRS 動態負載平衡新時代

Linux 7.0 解決 Google 價值百萬美元的 io_uring 安全難題，Rust 也正式成為核心支援語言

Google Antigravity 2.0 大改版：是 AI 代理革命，還是強迫升級的災難？開發者怒火、雙工具拆分全解析

Google I/O 2026 重點：Google 把 Gemini 推向代理式 AI 時代，搜尋、工作、開發與商務全面改寫

WordPress 7.0 正式發布：AI Client API 入主核心、後台全面現代化

BabyQ

相關文章

Proxmox VE 9.2 正式釋出：邁入 Linux Kernel 7.0 與 CRS 動態負載平衡新時代

Linux 7.0 解決 Google 價值百萬美元的 io_uring 安全難題，Rust 也正式成為核心支援語言

Google Antigravity 2.0 大改版：是 AI 代理革命，還是強迫升級的災難？開發者怒火、雙工具拆分全解析

WordPress 7.0 正式發布：AI Client API 入主核心、後台全面現代化

Google I/O 2026 重點：Google 把 Gemini 推向代理式 AI 時代，搜尋、工作、開發與商務全面改寫

AI 已經突破科技圈邊界

WordPress 7.0 正式發布：AI Client API 入主核心、後台全面現代化

Google Antigravity 2.0 大改版：是 AI 代理革命，還是強迫升級的災難？開發者怒火、雙工具拆分全解析

推薦閱讀

Proxmox VE 9.2 正式釋出：邁入 Linux Kernel 7.0 與 CRS 動態負載平衡新時代

Linux 7.0 解決 Google 價值百萬美元的 io_uring 安全難題，Rust 也正式成為核心支援語言

Google Antigravity 2.0 大改版：是 AI 代理革命，還是強迫升級的災難？開發者怒火、雙工具拆分全解析

WordPress 7.0 正式發布：AI Client API 入主核心、後台全面現代化