NVIDIA DGX Spark 從單機推進至四節點，AI 電腦叢集讓 Agent 基礎設施成形

隨著 2026 年自主 AI 代理（Autonomous AI Agents）技術的全面爆發，龍蝦OpenClaw 出現熱潮與棄養潮，開發者對於本機端大容量記憶體與強大算力的需求達到了前所未有的高度。近期，NVIDIA 在其開發者部落格中發表了《Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark》一文，並推出了 KVTC 的新技術來節省記憶體用量和提高效率，也在 GTC 2026 大會上推出建構於開源 OpenClaw 之上的企業級安全代理架構 NemoClaw。

CyberQ 綜合檢視 NVIDIA 官方技術文件，加上持續實測 GB10 效能，以及部署 GitHub 上相關專案的實作經驗，探討現有 DGX Spark 的真實戰力與應用潛力，它確實在可擴充到官方版四機叢集，以及導入 KVTC 後，未來更有潛力。

技術核心：非 x86 架構，Grace Blackwell 驅動的桌面資料中心

根據 NVIDIA 官方技術文件，DGX Spark（採用 GB10 晶片）的設計初衷是為了解決自主 AI 代理在處理大量上下文（通常高達 30K 至 250K 擴展 tokens）時的運算與記憶體瓶頸。

CyberQ 必須強調，GB10 (Grace Blackwell Superchip) 並非傳統的顯示卡或 x86 架構。它是一顆包含了 20 核心 ARM CPU（10 個 Cortex-X925 效能核 + 10 個 Cortex-A725 節能核）與 Blackwell 架構 GPU 的超級晶片。這使得它在處理 AI 代理背後龐大且複雜的背景 Python 腳本與 API 呼叫時，具備很好的能效比與系統協同優勢。

可以跑 700B 地端模型的叢集擴展，真實拓撲結構

DGX Spark 單機具備 128GB 的統一記憶體（Unified Memory）。透過內建的 ConnectX-7 網路介面與 RoCE 低延遲通訊技術，NVIDIA 官方這次針對 GB10 的更新，給出了 4 種極具彈性的叢集拓撲（Topologies）應用場景：

單機（1 Node / 128GB）：適合最高 120B 參數模型的微調與大上下文推論（支援高達 250K tokens）。

雙機叢集（2 Nodes / 256GB）：透過 ConnectX-7 直連，推論延遲直接減半，支援高達 400B 參數的推論。

三機環狀（3 Nodes in a ring）：專為微調更大型模型或執行小型分散式訓練任務（DDP）所設計。

四機加交換器（4 Nodes with RoCE 200GbE Switch / 512GB）：組成微型資料中心，執行高達 700B 參數的旗艦模型。NVIDIA 官方資料指出，在執行 NVIDIA Isaac Lab 強化學習環境模擬時，實測達到了近乎線性（Near-linear）的效能擴展，每秒可平行處理破萬個模擬環境。

這次 NVIDIA 特別拉出 AI 代理環境的測試資料，明確告訴開發者，如果需要一個能確保機敏資料不外流（符合資安合規），且具備強大長文本推理能力的 AI 系統，現在的軟硬體架構已經能讓一個破千億參數的模型，在 1 分多鐘內讀完十幾萬字的背景知識並給出精準的行動決策。這解決了過去本地端模型不夠聰明或記不住長文的問題。

Model	End-to-end latency (s)	Prompt processing latency (s)	Prompt processing throughput (tok/s)	Token generation throughput (tok/s)
NVIDIA Nemotron 3 Super 120B NVFP4 with TensorRT LLM	99	44	2,855	18
Qwen3.5 35B A3B FP8 with vLLM	73	41	3,080	35.75
Qwen3 Coder Next 80B FP8 with vLLM	89	54	2,390	28.95

上面的測試資料表格，是模擬AI 代理（Agent）的真實工作負載 128K ISL（輸入長度）/ 1K OSL（輸出長度）。由於AI 代理通常需要讀取大量的背景資料（例如：完整的程式碼庫、系統日誌、API 說明文件），這就是 128,000 個 Token 的來源。經過理解與消化後，它通常只需要輸出一段簡短的執行指令或總結（1,000 個 Token）。

以表格中的 Nemotron 120B 為例，它能以每秒處理 2,855 個 Token 的速度，在 44 秒內讀完相當於一本中型書籍的內容。 Token generation（Token 生成 / 寫作階段）是 AI 寫出答案的速度。表格顯示生成速度落在 18 到 35 tok/s 之間。人類的閱讀速度大約是 10 tok/s 左右，因此這樣的生成速度對人類使用者或串接其他自動化程式來說，已經是相當流暢的反應。

另外，量化技術讓大型模型得以本機落地 NVFP4 與 FP8 格式，要在單一節點有限的記憶體頻寬下塞入 80B 甚至 120B 這種超大參數模型，就必須依賴量化（Quantization）技術。透過 TensorRT-LLM 或 vLLM 這類推論引擎的最佳化，已經可以把原本只能在資料中心執行的模型穩定地在 GB10 的本地環境中跑起來，並且獲得合理的端到端延遲（總耗時約 1 到 1.5 分鐘）。

Concurrency (# of simultaneous tasks)	End-to-end latency (s)	Median TTFT (s)	Prompt processing throughput (tok/s)	Token generation throughput (tok/s)
	Lower is better		Higher is better
1	35	9	3,261	38
2	54	12	5,363	47
4	91	15	9,616	53

這份表格的核心在於展示 NVIDIA DGX Spark 在處理多個 AI 代理同時運作（併發）時的擴展效能。簡單來說，當我們要求系統從處理 1 個任務增加到同時處理 4 個任務時，花費的時間並沒有變成 4 倍，系統整體的運算效率反而大幅提升。這證明了搭配 vLLM 等框架時，硬體的算力能被更有效率地壓榨出來。

在 4 個併發任務的壓力下，提示詞處理吞吐量（系統的閱讀速度）從 3,261 tok/s 狂飆到 9,616 tok/s，提升了近 3 倍；生成吞吐量也從 38 tok/s 提升到 53 tok/s。這顯示當單一任務無法完全餵飽 GPU 頻寬時，同時塞入多個任務能有效填補運算空窗期，大幅提高資源利用率。

在開發如 OpenClaw 這類需要自主進化、多代理協作的 AI 架構時，經常會有數個 Agent 同時執行搜尋、分析與互相對話的需求，根據這樣的測試資料，開發者比較能放心地在 DGX Spark 上同時指派大量任務給這些 Agent，而系統效能因為排隊塞車而崩潰的機率會比以往更小。

跨架構可攜性 Write once, run anywhere

透過 Tile IR 與 cuTile Python，開發者能在 DGX Spark 桌機端開發核心（Kernel）。

這項技術的終極商業價值在於，開發者在地端寫好且驗證過的程式碼，不需修改基礎架構就能作為 Drop-in replacements，直接無縫部署至雲端資料中心的 NVIDIA Blackwell B300 / B200 伺服器，降低了從地端 POC 到雲端量產的實作問題。

實測呈現：理想與現實的碰撞

儘管官方資料亮眼，但進入市場後，CyberQ 的實測也顯示出了 DGX Spark 更立體的樣貌。
市場定價的現實面

受限於 LPDDR5x 記憶體缺貨、快閃記憶體 SSD 缺貨等影響，NVIDIA 官方推出的 DGX Spark 創始版（Founders Edition）標配 4TB PCIe Gen 5 SSD，目前的市場建議售價（MSRP）定錨在 4,699 美元。而市場上 3,999 美元的親民價格帶，則是由 OEM 廠商（如華碩 ASUS Ascent GX10、微星 MSI EdgeXpert 等）透過降配為 1TB/2TB PCIe Gen 4 SSD 所推出的客製化版本填補，這也是目前開發者採購討論度最高的區間。

大容量記憶體對決記憶體頻寬

CyberQ 實測發現，DGX Spark 的優勢在於能以極低的功耗裝載極大的模型。雖然整機電源變壓器的供電上限標示為 240W，但 GB10 晶片本身的 TDP 僅有 140W，整體系統運作的耗電量並不高，這點遠勝於耗電量動輒破千瓦、需要複雜散熱的多張 RTX 3090/4090 組合。

然而，妥協點在於其統一記憶體的頻寬約為 273 GB/s，這導致在執行「密集型模型」（Dense Models，如 Granite 34B）時，推論速度不夠理想。相對地，CyberQ 強烈建議在 DGX Spark 上專注執行 MoE（混合專家）模型。例如：

執行原生支援 MXFP4 格式的開源大作 GPT-OSS-120B（每次生成的啟動參數僅約 5.1B）。

執行 NVIDIA 專為 Agent 打造、原生採用 NVFP4 精度訓練的 Nemotron 3 Super 120B（啟動參數約 12B）。

實測證明，這兩類 MoE 模型在 DGX Spark 上皆能輕鬆達到約 40-60 tokens/s 的流暢體驗（70B 輕輕鬆鬆，120B 也非常實用）。

資安與合規視角下的 NemoClaw 與 OpenShell 防護網

本次 NVIDIA 更新 DGX Spark 功能中，另一個核心重點是軟體層面的 NemoClaw 與 NVIDIA OpenShell 執行環境。這必須回到 2026 年初養龍蝦熱潮造成的 AI 代理人資安災難背景。

過去，開源的 OpenClaw（前身為 Clawdbot/Moltbot，標誌為龍蝦）雖然強大，但養龍蝦爆紅後，資安團隊發現全球有上萬個實例因為預設 Port（18789）暴露在公網，導致駭客能輕易透過遠端程式碼執行（RCE）接管宿主機。這其實就意味著，賦予 AI 代理系統自由讀寫與連網的權限，等同於把電腦大門向全世界敞開。

NVIDIA 敏銳地抓住了企業的資安恐慌，推出了企業資安版 AI 代理人外掛 NemoClaw。雖然被社群戲稱是「把龍蝦關在籠子裡」、初始設定超級繁雜，但其安全性確實達到了企業級標準。

進程外策略執行（Out-of-process policy enforcement）的零信任沙盒： NemoClaw 安裝的 OpenShell 執行環境並非單純的 Docker/k3s 容器，而是基於 YAML 宣告式藍圖。AI 代理所有的網路請求、檔案讀寫與推論呼叫，都會在宿主機（Host）安全無虞的狀態下被動態攔截與監控。

隱私路由器（Privacy Router）：這項功能實現了完美的混合運算協同。企業可設定高機密的財報分析、內部程式碼強制留在本地 DGX Spark 由 Nemotron 處理，只有一般常識問答才允許路由至雲端的 GPT/Claude 模型，從根本解決企業資料外洩（Data Leakage）的痛點。

雖然透過 NemoClaw 一鍵安裝指令能快速建置具備安全護欄的本機 AI 助理，但後續因應各企業內部環境的網路策略設定與權限微調，仍有許多眉角考驗著開發團隊的耐心。

誰需要 NVIDIA DGX Spark？

以開發者的角度來看，DGX Spark 當然不夠快，它的重點本來就不在極限推論的每秒幀數（FPS）。CyberQ 認為業界目前對 DGX Spark 最精準的定義是：「DGX Spark 是一個典型的容量取向（Capacity Play）而非吞吐量取向（Throughput Play）的戰略產品。」

它沒辦法和高階電競顯示卡比 Token 生成速度，所以是 NVIDIA 開發生態系中的最低階設備，但也讓開發者受惠於它點滿了大容量（128GB）、極低實際功耗（140W）與多工併發的技能樹，可說是填補了高階消費級顯示卡與企業級機架式伺服器之間的空白。

它不適合追求絕對 C/P 值或極限推論的玩家，但對於那些需要超過 100GB VRAM 來測試新想法、需要全天候執行自主 AI 代理邏輯、開發大型 MoE 模型，且對資料隱私有極高要求的企業團隊與進階開發者而言，DGX Spark 搭配 NemoClaw 嚴密的資安沙盒，無疑是一台兼具低功耗、高容量與高安全性的最佳化解決方案。

在 AI 逐漸從單次對話轉向持續性自主任務的當下，我們設法讓 AI 代理模型與平台在安全、隔離且充裕的本機算力中不斷演進。這台真正為讓 AI 助理 24 小時在背景全天候自主運作、自我演進而生的新世代 Agent 電腦，無疑將是下一個技術週期的核心戰場。

實測 NemoClaw : NVIDIA 版龍蝦也開源！為 OpenClaw 打造企業級資安護欄

開箱迷你 AI 超級電腦，ASUS Ascent GX10 (NVIDIA DGX Spark) 搭配 QNAP NAS 擴充可用空間

聚焦代理人電腦，AMD AI Max+ 本機部署 OpenClaw 對決 NVIDIA DGX Spark

掛載 NFS ，以 DGX Spark 搭配 QNAP NAS 實作

Blender 於 NVIDIA DGX Spark GB10 平台成功執行，CUDA 與 OptiX 加速全開

NVIDIA DGX Spark GB10 發售次月現況，用戶逐步打造小型 AI 運算叢集

解開功耗迷霧：NVIDIA 官方澄清 DGX Spark 功率規格，240W 總功耗細節全揭露

DGX Spark 初探：NVIDIA 官方論壇呈現「潛力釋放」與「疑難雜症多」並存的現實

NVIDIA DGX Spark 效能疑雲：實測 TFLOPS 不到官方宣稱一半？

個人 AI 算力大升級！全球最小 AI 超級電腦 NVIDIA DGX Spark 10 月 15 日正式上市

NVIDIA DGX Spark 從單機推進至四節點，AI 電腦叢集讓 Agent 基礎設施成形

10 萬張 GPU 不是護城河：從 xAI Colossus 到 Claude 借算力，看懂 AI 算力戰的殘酷真相

下一個十年的運算評估指標：SPEC CPU 2026 測試套件正式發布，解析核心變革

Google 內測 24/7 AI 代理 Remy，Gemini 邁向主動執行，正面回應 OpenClaw 浪潮？

ComfyUI v0.18.0 繼續最佳化 VRAM 並全面升級多精度支援

KB5085516 頻外更新修復連線異常，微軟並宣告終結 Windows 強制更新時代

Icewind

相關文章

10 萬張 GPU 不是護城河：從 xAI Colossus 到 Claude 借算力，看懂 AI 算力戰的殘酷真相

下一個十年的運算評估指標：SPEC CPU 2026 測試套件正式發布，解析核心變革

Google 內測 24/7 AI 代理 Remy，Gemini 邁向主動執行，正面回應 OpenClaw 浪潮？

Microsoft Edge 遭爆將已儲存密碼「明文」載入記憶體，我們該如何防範？

Chrome 靜默下載 4GB AI 模型引爭議，當瀏覽器變成本機 AI 平台，使用者有選擇權嗎？瀏覽器模型相容性碎片化？

臺灣資安大會 CYBERSEC 2026 展場直擊 2：生成式 AI 與雲端 SASE 的逐步落地

KB5085516 頻外更新修復連線異常，微軟並宣告終結 Windows 強制更新時代

PCPartPicker 價格趨勢解析 AI 狂潮下的硬碟與 SSD 漲價風

推薦閱讀

10 萬張 GPU 不是護城河：從 xAI Colossus 到 Claude 借算力，看懂 AI 算力戰的殘酷真相

下一個十年的運算評估指標：SPEC CPU 2026 測試套件正式發布，解析核心變革

Google 內測 24/7 AI 代理 Remy，Gemini 邁向主動執行，正面回應 OpenClaw 浪潮？

Microsoft Edge 遭爆將已儲存密碼「明文」載入記憶體，我們該如何防範？

Chrome 靜默下載 4GB AI 模型引爭議，當瀏覽器變成本機 AI 平台，使用者有選擇權嗎？瀏覽器模型相容性碎片化？

近期熱門

史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡

把 AI 關進 1930 年的圖書館，Talkie 呈現有年代感的大語言模型

Chrome 靜默下載 4GB AI 模型引爭議，當瀏覽器變成本機 AI 平台，使用者有選擇權嗎？瀏覽器模型相容性碎片化？

AI 開發者搶買 Mac mini 與 Mac Studio，蘋果六月供貨更吃緊？記憶體漲價恐成下一波壓力

Google 內測 24/7 AI 代理 Remy，Gemini 邁向主動執行，正面回應 OpenClaw 浪潮？

臺灣資安大會 CYBERSEC 2026 展場直擊 1：AI 賦能與跨域聯防

GitHub 趨勢周報 Vol.13，AI Agent 技能包爆紅，開發者開始替 AI 同事寫 SOP

Mistral 發表 Medium 3.5 旗艦模型並推出 Vibe 遠端代理系統

Microsoft Edge 遭爆將已儲存密碼「明文」載入記憶體，我們該如何防範？

臺灣資安大會 CYBERSEC 2026 展場直擊 2：生成式 AI 與雲端 SASE 的逐步落地

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap

NVIDIA DGX Spark 從單機推進至四節點，AI 電腦叢集讓 Agent 基礎設施成形

RELATED POSTS

技術核心：非 x86 架構，Grace Blackwell 驅動的桌面資料中心

可以跑 700B 地端模型的叢集擴展，真實拓撲結構

跨架構可攜性 Write once, run anywhere

實測呈現：理想與現實的碰撞

大容量記憶體對決記憶體頻寬

資安與合規視角下的 NemoClaw 與 OpenShell 防護網

誰需要 NVIDIA DGX Spark？

ComfyUI v0.18.0 繼續最佳化 VRAM 並全面升級多精度支援

KB5085516 頻外更新修復連線異常，微軟並宣告終結 Windows 強制更新時代

相關文章

推薦閱讀

近期熱門

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap