ComfyUI v0.12.0 正式發布，LLM 推論加速與記憶體最佳化

開源 AI 圖像生成的領導工具 ComfyUI 於本週正式釋出 v0.12.0 版本更新。本次更新在底層效能與生成式 AI 的跨領域整合繼續深化。對於長期關注本地端 AI 部署的開發者與創作者而言，這次更新最引人注目的莫過於對大型語言模型（LLM）推論速度的最佳化，以及針對 Windows 使用者長期詬病的記憶體溢出問題修復。

以下是 CyberQ 實測與彙整的 v0.12.0 版本更新重點分析：

導入 KV Cache 大幅提升 LLM 文字生成效率

在 v0.12.0 中，ComfyUI 開發團隊為 Llama 系列模型導入了 KV Cache（Key-Value Cache）機制，是加速 LLM 推論的重要技術之一。

在過去的純文字生成節點中，模型在生成每一個新 Token 時，往往需要重新計算先前所有 Token 的注意力權重，這導致生成長文本時速度會呈指數級下降。KV Cache 的加入，讓系統能夠暫存先前計算過的 Key 與 Value 矩陣，這意味著在生成下一個字時，只需計算最新的部分即可。

當我們在 ComfyUI 工作流中整合了本地 LLM（例如用於擴寫 Prompt 或生成影片故事腳本），v0.12.0 的文字生成速度將會有顯著的提升，且我們實測它中，隨著生成文字長度的增加，效能差異會更明顯。

記憶體管理與 VRAM 最佳化

本次更新也針對硬體資源管理進行了多項底層修復，特別是解決了困擾許多 Windows 用戶的「共享記憶體溢出（Shared Memory Spilling）」問題。

過去在 VRAM 吃緊時，系統嘗試調用 Windows 共享記憶體可能導致效能驟降或崩潰，新版本有重新再最佳化這個機制，減少效能降低和崩潰的機率。

另外這次改版也降低了 RAM 佔用，同樣也修復了視訊記憶體 VRAM OOM 的問題，開發者 @rattus128 提交的修復大幅減少了模型加載時的 RAM 需求，並解決了特定情況下的 VRAM 記憶體不足（OOM）錯誤，這對於使用 8GB 或 12GB 顯示卡的用戶來說是一大福音。

新增節點與模型支援

除了底層最佳化，功能層面也有不少新增強化：

這次更新也導入了一些新的 AI 音樂生成模型的範本，很值得去嘗試看看。

新的 Qwen-Image 2512 Turbo 出圖速度極快，也是從 0.11.1 到 0.12.0 後的新增重點範本。

包括 Vidu 影片生成模型更新，新增對 Vidu Q3 模型的支援，並導入了 Extend（延伸）與 MultiFrame 多幀節點，提升了影片生成的連貫性與控制力。

Recraft 風格節點，新增 RecraftCreateStyleNode，這是更便捷的風格遷移和風格鎖定功能，對於追求風格一致性的創作者相當實用。

這次也整合了 HitPaw API 節點，官方持續注重與擴展第三方 API 生態，繼續提供更多樣化的圖像處理服務。

告別 OOM 的秘密武器是動態模型載入 (Adaptive Model Loading)

根據開發者 rattus128 在 PR #11845 的技術說明，v0.12.0 的記憶體最佳化並非僅是參數調整，而是引入了一套全新的 ModelPatcher 實作，其核心基於 comfy-aimdo 函式庫。這項更新帶來了兩個革命性的改變：

首先是智慧型 VRAM 談判機制 (Lazy Loading & Dynamic Negotiation) 的導入，新系統不再像過去那樣「預先估算」VRAM 用量，而是改採「延遲載入（Lazy Load）」策略。只有在模型真正開始推論（例如 KSampler 的第一步）時，系統才會根據當前顯卡狀態，動態決定要載入多少權重。最關鍵的是，如果推論過程中 VRAM 不足，新機制會趕在 OOM記憶體溢位崩潰發生前，自動將部分權重卸載（Offload）到系統記憶體，這讓許多原本會讓 VRAM 爆掉的大模型現在都能順利運行。

其次是 mmap 與 Commit Charge 的最佳化，針對 Windows 系統，開發者特別解決了 Commit Charge 耗盡的問題。在舊版中，模型權重會被完整載入到 RAM 中，這會擠壓作業系統的磁碟快取（Disk Cache）。新版本利用 PyTorch 的 mmap（記憶體映射）特性，讓模型權重直接停留在磁碟映射區，不佔用實際的程式 RAM。這不僅大幅降低了 Windows 的記憶體壓力，更因為保留了磁碟快取，使得模型的「第二次讀取」速度幾乎是瞬間完成，解決了 Windows 共享記憶體洩漏導致的效能低落問題。

迭代更新快速有好有壞

ComfyUI 的更新頻率極高（距離 v0.11.1 僅數天），這雖然展現了開源社群的強大活力，但也伴隨著部分用戶的更新焦慮。社群中已有部分用戶反映，v0.12.0 的底層改動導致部分舊版自定義節點（Custom Nodes）失效。

CyberQ 建議，若是已經在進行穩定的生產專案，這部分可先建議暫緩更新，使用另一個獨立的環境進行測試後，確定你的工作流和自訂義節點沒問題後，正式生產環境就可以更新導入了。對於熱衷嘗試新技術的玩家來說，這次針對 LLM 與 VRAM 的最佳化絕對值得一試，我們實測了產圖和產影片的記憶體耗用程度比之前少了 5% 到 15% 左右。

ComfyUI v0.11.0 發布：全面支援 Zimage Omni 等多種新模型，VRAM 最佳化再突破

4 秒出圖！FLUX.2 klein 正式登場，實測 BFL 新一代開源生圖模型，支援 NVFP4 與 4B 商用版

ComfyUI v0.10.0 釋出，架構更新、工作模板與 UX 改善

新版ComfyUI v0.4.0 大幅降低 VRAM 用量

ComfyUI v0.3.76 新版搭配 NVIDIA DGX Spark 實戰 Z-Image Turbo 的效能揭密

標籤: ComfyUI

ComfyUI v0.12.0 正式發布，LLM 推論加速與記憶體最佳化

10 萬張 GPU 不是護城河：從 xAI Colossus 到 Claude 借算力，看懂 AI 算力戰的殘酷真相

下一個十年的運算評估指標：SPEC CPU 2026 測試套件正式發布，解析核心變革

Google 內測 24/7 AI 代理 Remy，Gemini 邁向主動執行，正面回應 OpenClaw 浪潮？

別讓 AI 接管你的社交生活

WordPress 6.9.1 釋出，修復 49 項錯誤，準備邁向 7.0 新時代

BabyQ

相關文章

10 萬張 GPU 不是護城河：從 xAI Colossus 到 Claude 借算力，看懂 AI 算力戰的殘酷真相

下一個十年的運算評估指標：SPEC CPU 2026 測試套件正式發布，解析核心變革

Google 內測 24/7 AI 代理 Remy，Gemini 邁向主動執行，正面回應 OpenClaw 浪潮？

Microsoft Edge 遭爆將已儲存密碼「明文」載入記憶體，我們該如何防範？

Chrome 靜默下載 4GB AI 模型引爭議，當瀏覽器變成本機 AI 平台，使用者有選擇權嗎？瀏覽器模型相容性碎片化？

臺灣資安大會 CYBERSEC 2026 展場直擊 2：生成式 AI 與雲端 SASE 的逐步落地

WordPress 6.9.1 釋出，修復 49 項錯誤，準備邁向 7.0 新時代

Moltbook 爆紅背後的資料外洩與人為操弄危機

推薦閱讀

10 萬張 GPU 不是護城河：從 xAI Colossus 到 Claude 借算力，看懂 AI 算力戰的殘酷真相

下一個十年的運算評估指標：SPEC CPU 2026 測試套件正式發布，解析核心變革

Google 內測 24/7 AI 代理 Remy，Gemini 邁向主動執行，正面回應 OpenClaw 浪潮？

Microsoft Edge 遭爆將已儲存密碼「明文」載入記憶體，我們該如何防範？

Chrome 靜默下載 4GB AI 模型引爭議，當瀏覽器變成本機 AI 平台，使用者有選擇權嗎？瀏覽器模型相容性碎片化？

近期熱門

史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡

把 AI 關進 1930 年的圖書館，Talkie 呈現有年代感的大語言模型

Chrome 靜默下載 4GB AI 模型引爭議，當瀏覽器變成本機 AI 平台，使用者有選擇權嗎？瀏覽器模型相容性碎片化？

AI 開發者搶買 Mac mini 與 Mac Studio，蘋果六月供貨更吃緊？記憶體漲價恐成下一波壓力

Google 內測 24/7 AI 代理 Remy，Gemini 邁向主動執行，正面回應 OpenClaw 浪潮？

臺灣資安大會 CYBERSEC 2026 展場直擊 1：AI 賦能與跨域聯防

GitHub 趨勢周報 Vol.13，AI Agent 技能包爆紅，開發者開始替 AI 同事寫 SOP

Mistral 發表 Medium 3.5 旗艦模型並推出 Vibe 遠端代理系統

Microsoft Edge 遭爆將已儲存密碼「明文」載入記憶體，我們該如何防範？

臺灣資安大會 CYBERSEC 2026 展場直擊 2：生成式 AI 與雲端 SASE 的逐步落地

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap

ComfyUI v0.12.0 正式發布，LLM 推論加速與記憶體最佳化

RELATED POSTS

導入 KV Cache 大幅提升 LLM 文字生成效率

記憶體管理與 VRAM 最佳化

新增節點與模型支援

告別 OOM 的秘密武器是動態模型載入 (Adaptive Model Loading)

迭代更新快速有好有壞

別讓 AI 接管你的社交生活

WordPress 6.9.1 釋出，修復 49 項錯誤，準備邁向 7.0 新時代

相關文章

推薦閱讀

近期熱門

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap