DGX Spark 初探：NVIDIA 官方論壇呈現「潛力釋放」與「疑難雜症多」並存的現實

NVIDIA DGX Spark / GB10 平台作為面向 AI 開發者的劃時代新產品，其效能表現備受矚目，繼部分社群討論質疑這款產品的效能不如官方宣稱的一半，也有開發者社群探討這款產品的更多可能性，顯示它有不同面向的討論和考量。

脫離 NVIDIA 官方宣稱資料，以及實驗室的基準測試，真實世界的效能狀態為何？ CyberQ 透過觀察 NVIDIA 官方開發者論壇的關於 DGX Spark 的相關最新貼文，我們可以看看早期採用者（Early Adopters）正面臨的真實挑戰與正在探索的效能議題。該論壇的討論也很清楚地呈現出一個兩極化的趨勢，一群用戶仍在基礎的「啟動與運行」階段奮鬥，而另一群先驅者則已開始挖掘硬體的極限效能。

效能的真實瓶頸，基本設定教學與穩定性挑戰

在我們談論 TFLOPS 或 Token/秒之前，大量的論壇貼文集中在更根本的問題上：「如何讓它穩定運行？」

基礎硬體與啟動問題：諸如「BOOT LOOP ISSUE RESOLVED」（開機循環問題已解決）、「DGX Spark will not turn on」（無法開機）或「Cannot connect to DGX Spark」（無法連線）等貼文，雖然部分已解決，但其高瀏覽量與回覆數（例如開機循環問題有 51 則回覆）顯示，許多用戶在享受效能之前，首先遇到的是基礎的穩定性與連線設定障礙。

軟體堆疊的磨合：貼文「DGX Dashboard: Embedded Jupyter does not work」、「DGX Spark – NVIDIA Sync AI Workbench launch issue」以及「Cant Install torch + torchaudio + torchcodec」直指核心。即使用戶硬體運行正常，NVIDIA 的官方軟體套件（如 AI Workbench）或關鍵的 AI 函式庫（如 PyTorch/CUDA）在安裝與整合上仍存在摩擦。這意味著，效能的前期關卡是「系統環境設定」。

社群對效能的直接質疑，功耗與表現不符預期

論壇中最核心的效能討論，來自一篇標記為 performance 的貼文：「DGX Spark Observed Behaviour – Power Draw / Performance Discrepancy」（DGX Spark 觀測到的行為、功耗/效能差異）。

這篇貼文極具指標性。它暗示著即使用戶成功運行了工作負載，他們觀測到的實際效能與設備功耗（或預期功耗）之間可能存在不一致。這類問題通常是最難解的，可能涉及驅動程式、韌體、作業系統調度或應用程式本身的最佳化不足。這顯示 DGX Spark 的效能可能尚未被「完全且正確地」釋放，社群正處於找出最佳實踐（Best Practice）的探索期。

LLM 推論能力與高階互連

在光譜的另一端，資深開發者正試圖榨乾這台機器的每一分潛力，他們的討論集中在最新 LLM 應用的 AI 工作負載上：

LLM 推論引擎的戰場：正如我們先前所見，「Run VLLM in Spark」（30 則回覆）和「Run SGLang in Spark」是熱門話題。這表明 DGX Spark 的核心戰場之一是大型語言模型的推論。然而，這些貼文的存在本身（特別是需要詳細教學指南）也說明，在 DGX Spark 上高效運行 vLLM 或 SGLang 並非「開箱即用」，而是需要複雜的編譯與系統環境設定。

探究硬體極限（I/O 與互連）：論壇中出現了「DGX Spark GPUDirect RDMA」這樣極度高階的討論。用戶正試圖啟用 GPUDirect RDMA（遠端直接記憶體存取），這是一種繞過 CPU、讓 GPU 直接與網路卡高速交換資料的技術，這些討論意味著許多早期用戶的目標是建立超低延遲、高吞吐量的環境。

多節點與未來架構：「Use 2 DGX sparks to create a development enviroment for GB200 NVL 72」（使用兩台 DGX Spark 打造 GB200 NVL 72 開發環境）以及詢問「add a second Connect-X7 port」（增加第二個 Connect-X7 網卡埠）的貼文，顯示用戶已在思考多機串聯與橫向擴展（Scale-out）的效能，這也是 GB10 架構的關鍵賣點。