NVIDIA DGX Spark / GB10 平台作為面向 AI 開發者的劃時代新產品,其效能表現備受矚目,繼部分社群討論質疑這款產品的效能不如官方宣稱的一半,也有開發者社群探討這款產品的更多可能性,顯示它有不同面向的討論和考量。
脫離 NVIDIA 官方宣稱資料,以及實驗室的基準測試,真實世界的效能狀態為何? CyberQ 透過觀察 NVIDIA 官方開發者論壇的關於 DGX Spark 的相關最新貼文,我們可以看看早期採用者(Early Adopters)正面臨的真實挑戰與正在探索的效能議題。該論壇的討論也很清楚地呈現出一個兩極化的趨勢,一群用戶仍在基礎的「啟動與運行」階段奮鬥,而另一群先驅者則已開始挖掘硬體的極限效能。
效能的真實瓶頸,基本設定教學與穩定性挑戰
在我們談論 TFLOPS 或 Token/秒 之前,大量的論壇貼文集中在更根本的問題上:「如何讓它穩定運行?」
基礎硬體與啟動問題: 諸如「BOOT LOOP ISSUE RESOLVED」(開機循環問題已解決)、「DGX Spark will not turn on」(無法開機)或「Cannot connect to DGX Spark」(無法連線)等貼文,雖然部分已解決,但其高瀏覽量與回覆數(例如開機循環問題有 51 則回覆)顯示,許多用戶在享受效能之前,首先遇到的是基礎的穩定性與連線設定障礙。
軟體堆疊的磨合: 貼文「DGX Dashboard: Embedded Jupyter does not work」、「DGX Spark – NVIDIA Sync AI Workbench launch issue」以及「Cant Install torch + torchaudio + torchcodec」直指核心。即使用戶硬體運行正常,NVIDIA 的官方軟體套件(如 AI Workbench)或關鍵的 AI 函式庫(如 PyTorch/CUDA)在安裝與整合上仍存在摩擦。這意味著,效能的前期關卡是「系統環境設定」。
社群對效能的直接質疑,功耗與表現不符預期
論壇中最核心的效能討論,來自一篇標記為 performance 的貼文:「DGX Spark Observed Behaviour – Power Draw / Performance Discrepancy」(DGX Spark 觀測到的行為、功耗/效能差異)。
這篇貼文極具指標性。它暗示著即使用戶成功運行了工作負載,他們觀測到的實際效能與設備功耗(或預期功耗)之間可能存在不一致。這類問題通常是最難解的,可能涉及驅動程式、韌體、作業系統調度或應用程式本身的最佳化不足。這顯示 DGX Spark 的效能可能尚未被「完全且正確地」釋放,社群正處於找出最佳實踐(Best Practice)的探索期。
LLM 推論能力與高階互連
在光譜的另一端,資深開發者正試圖榨乾這台機器的每一分潛力,他們的討論集中在最新 LLM 應用的 AI 工作負載上:
LLM 推論引擎的戰場: 正如我們先前所見,「Run VLLM in Spark」(30 則回覆)和「Run SGLang in Spark」是熱門話題。這表明 DGX Spark 的核心戰場之一是大型語言模型的推論。然而,這些貼文的存在本身(特別是需要詳細教學指南)也說明,在 DGX Spark 上高效運行 vLLM 或 SGLang 並非「開箱即用」,而是需要複雜的編譯與系統環境設定。
探究硬體極限(I/O 與互連): 論壇中出現了「DGX Spark GPUDirect RDMA」這樣極度高階的討論。用戶正試圖啟用 GPUDirect RDMA(遠端直接記憶體存取),這是一種繞過 CPU、讓 GPU 直接與網路卡高速交換資料的技術,這些討論意味著許多早期用戶的目標是建立超低延遲、高吞吐量的環境。
多節點與未來架構: 「Use 2 DGX sparks to create a development enviroment for GB200 NVL 72」(使用兩台 DGX Spark 打造 GB200 NVL 72 開發環境)以及詢問「add a second Connect-X7 port」(增加第二個 Connect-X7 網卡埠)的貼文,顯示用戶已在思考多機串聯與橫向擴展(Scale-out)的效能,這也是 GB10 架構的關鍵賣點。

DGX Spark 狀態究竟如何呢 ? 仍有待觀察
如果研究 NVIDIA 官方技術論壇的討論,DGX Spark / GB10 當前的大致狀態可以看成確實有其潛力,但高度和用戶的技術能力相關。
它並非一台人人都能輕易上手的「效能機器」,而是更屬於 AI 與程式開發者的「開發者平台」。其效能的釋放,當前被兩大因素所影響,分別是 :
成熟度(Maturity): 基礎軟體堆疊(驅動、AI Workbench)和作業系統的穩定性仍在磨合中,導致部分用戶連效能的起點都還沒順利。
複雜性(Complexity): 要發揮其在 LLM 推論上的真正實力,開發者必須手動克服 vLLM、PyTorch/CUDA 等函式庫的編譯與依賴性挑戰,甚至需要深入研究 RDMA 等技術。
除去官方宣稱的理論峰值效能和用戶實際測試效能等議題外,隨著 DGX Spark 正式出貨到市場上,我們更應關注其「生態系統的成熟進度」以及「社群克服早期挑戰的實戰指南」。DGX Spark 和開發者們的故事,才剛剛揭開序幕。
本文圖片採用 Google Gemini 與 ComfyUI 本地端 AI 模型搭配 NVIDIA 顯示卡產生










