近期,開源社群最受矚目的節點式 AI 引擎 ComfyUI 釋出了 v0.19.0 版本,多高達 50 多項更新,CyberQ 觀察,ComfyUI 繼續從產圖、產影片的 AI 工具集合,逐步蛻變為具備 LLM 推理、高精準度物件偵測、以及原生影音同步處理能力的全方位多模態 AI 工作流平台。

CyberQ 實裝了 ComfyUI v0.19.0,測試這次更新的內容與重要更新。
影音生成更新 LTX2 ID-LoRA 語音參照支援
在本次更新中,最具突破性的功能莫過於由開發者 @kijai 實作的 feat: LTX2: Support reference audio (ID-LoRA) (CORE-16)。
過去在本地端執行AI 影片生成時,最大的問題在於聲音與嘴型難以完美契合,往往需要依賴多套軟體進行後製。而現在,ComfyUI 直接在核心層面支援了 LTX2 的參考音訊(Reference Audio)與 ID-LoRA 綁定。
CyberQ 目前實作相關工作流,比較流行使用的專案如 GitHub 上的 ID-LoRA-LTX2.3-ComfyUI ,該專案正在大量普及這類技術。你現在只需要提供一張靜態臉部影像與短短 5 秒的語音參考檔,就能透過 ComfyUI 內建節點,一步到位生成具備高度語音一致性(Voice Consistency)與嘴型同步的影片,這對虛擬主播(VTuber)、自動化短影音生成而言是相當不錯的進展。
將語言模型 Qwen 家族與多模態生態繼續進行延伸
AI 領域的另一大趨勢,是將大型語言模型(LLM)無縫嵌入生圖與生成影片的提示詞(Prompt)自動化流程中。
實際上的文字生成節點升級是有感的,v0.19.0 新增了對 Qwen3.5 以及 Qwen 8B 模型的支援(Make Qwen 8B work with TextGenerate node.),CyberQ 現在測試時就可以直接在工作流中部署本地端的輕量級 LLM,用來擴寫提示詞或建立自主 Agent。

本次也增加更多 AI 大廠先進模型的支援,包括對 Ace Step 1.5 XL、Ernie Image(百度文心影像模型)的支援。同時,社群貢獻的 small flux.2 decoder 也讓 VRAM 資源有限的玩家,能以更低的硬體門檻體驗 Flux 家族的強大細節。針對雲端運算,API 節點也同步更新了對 WAN2.7、xAI Grok 與 Topaz 模型的支援。

視覺控制的精準化可搭配 RT-DETRv4 物件偵測
對於熟悉自動化工作流與遮罩(Mask)處理的開發者來說,準確的物件識別是決定成敗的關鍵。本次更新加入了 Support RT-DETRv4 detection model,這個 RT-DETR (Real-Time DEtection TRansformer) 是目前最先進的即時物件偵測模型之一。
將第四代模型導入 ComfyUI,CyberQ 測試處理影像的區域提示(Regional Prompting)或動態遮罩追蹤時,能獲得比傳統 YOLO 系列更優異的邊緣判斷與語意理解,這在商品圖替換與複雜影片重繪(Video-to-Video)中會有很大的幫助。
系統底層與硬體資源最佳化
CyberQ 認為本次的底層更新相當不錯,同時要將這麼多新的模型,可以個別塞進消費級顯示卡中,記憶體管理是重中之重。所以這次最佳化了記憶體與快取管理,合併了 RAM 快取與模型的 RAM 管理(Integrate RAM cache with model RAM management),並修正了鎖定記憶體(Pinned memory)的計算偏差,能夠減少載入模型時因記憶體溢位而導致的當機。
硬體支援廣度是 CyberQ 這次覺得 ComfyUI 很有誠意的一部,除了原本就已經最佳化過 NVIDIA 生態系的使用外,這次還加入了針對 Intel XPU 的可攜式版本(Portable release)與專用腳本。此外,AMD Linux 平台的 PyTorch 支援也獲得了更新。
訓練效能方面,針對進階模型訓練者,加入實驗性的 [Trainer] Support fp8 backward,透過降低精度來大幅度節省反向傳播時所需的 VRAM。
另外有個事情要提醒,系統現在會針對強制關閉動態 VRAM(Dynamic VRAM)的使用者跳出警告,這是一種防呆機制,避免初學者因設定錯誤而耗盡系統資源。
UI/UX 與開發者體驗提升
在前端與節點邏輯上,ComfyUI 前端版本一路推進至 1.42.10,官方工作流範本(Templates)也更新至 v0.9.47。
對於處理複雜資料與數值轉換的開發者,本次修復了 Number Convert node 在處理大數值時的整數精度流失問題,並新增了強大的 CURVE node 與影像直方圖(Image histogram)節點,讓影像的色彩調校(Color Adjustment)能夠像專業修圖軟體一樣精準。
CyberQ 認為,ComfyUI v0.19.0 的釋出,繼續確保它在開源 AI 內容生成領域的霸主地位。從 LTX2 的原生語音綁定,到 Qwen LLM 的在地化推理,它正在打破過去影像、文字與音訊各自為政的孤島,提供一套真正融合的開源解決方案。
建議所有使用者盡快透過 ComfyUI Manager 或是手動 Git Pull 將系統與前端更新至最新版本,以享受更穩定的記憶體管理與全新的影音工作流體驗,快來整合自己的新工作流吧。








