業界要角 John Carmack 與 Awni Hannun 實測結果引發震撼,273GB/s 記憶體頻寬恐成最大瓶頸
NVIDIA 近期推出的「迷你超級電腦」DGX Spark,甫一發布便吸引了全球 AI 開發者與愛好者的極大關注。然而,這股熱潮可能正迅速冷卻。根據Reddit 上 r/LocalLLaMA 社群的熱烈討論,兩位業界傳奇人物的初步測試,揭示了這款設備的實際效能可能遠低於 NVIDIA 的宣傳數據資料。
關鍵問題是實測 FP4 效能僅 480 TFLOPS ?
NVIDIA 官方宣傳 DGX Spark 擁有高達 1 PFLOPS (1000 TFLOPS) 的 FP4 浮點運算效能。然而,初步的實測結果卻潑了一盆冷水。
根據不同的國際論壇資料彙整,蘋果大型模型框架 MLX 的主要負責人 Awni Hannun,以及 id Software 創始人、以《毀滅戰士》和傳奇演算法實作(如快速平方根倒數)聞名的大神約翰卡梅克 John Carmack,兩人的測試均顯示,DGX Spark 的 FP4 效能僅達到約 480 TFLOPS,BF16 效能約為 60 TFLOPS,兩者皆遠低於預期。
這個數字不到 NVIDIA 宣傳的 1000 TFLOPS 的一半,已引起社群譁然。
瓶頸早已註定?被忽視的記憶體頻寬
事實上,在效能資料陸續曝光前,業界許多資深開發者就已對 DGX Spark 的規格提出質疑。
關鍵在於其記憶體頻寬。儘管擁有驚人的 VRAM 容量,但其記憶體頻寬僅有 273GB/s。這在 Reddit 討論中被形容為「RTX 3050 等級」。對於運行大型語言模型至關重要的 Prefill(預填)階段,如此低的頻寬將造成嚴重瓶頸。
有某些評論者估算,在此限制下,DGX Spark 運行大型模型的效能可能低於官方原本的 AI 效能宣傳數字,甚至比蘋果新款 Mac Studio 工作站要低。
過熱與穩定性疑慮
更糟的是,除了效能不達標,在 Reddit 這個討論串中甚至還提到了穩定性問題。有早期用戶回報,DGX Spark 在長時間運行下會出現過熱並自動重啟的情況。
目前尚不清楚根本原因來自電源供應、韌體(Firmware)、CUDA 驅動程式堆疊,還是 SoC 晶片本身,也有可能是早期使用者碰到的測試機問題,實際量產機可能比較不會有這個現象。
另一個關注點是 John Carmack 大神提到的,官方規格顯示 DGX Spark 最高達 240 瓦的功耗,但他實際測試大概平均 100 瓦左右,是否沒有讓它達到全速運行,或者是這種迷你機身比較小,為了散熱和穩定等因素,NVIDIA 目前在這台設備上的作業系統與相關元件版本,讓軟硬體搭配起來的功耗沒有到全滿載,以至於目前初期用戶們測試的效能不如市場預期 ?
這些都有待更多資料揭露,以及 NVIDIA 官方進一步對外說明與釋疑。
社群分析:NVIDIA 刻意為之?
面對這款眾人矚目的昂貴迷你型設備,社群不少人感到不滿與對 NVIDIA 的幸災樂禍。有些評論認為,NVIDIA 作為 AI 霸主,在打造獨立 AI 產品時「出師不利」。
但也有分析認為,這可能是 NVIDIA 精準的市場策略。甚至有評論者指出:「NVIDIA 為什麼要製造一個會與他們售價 1 萬到數萬美元的高階 GPU 搖錢樹競爭的廉價設備呢?」
這種觀點認為,DGX Spark 從一開始就不是為廣大 Local LLM 愛好者設計的,而是作為其 Grace 超級電腦生態系的「開發套件」。NVIDIA 刻意在各方面(尤其是記憶體頻寬)進行「閹割」,以確保其高階資料中心 GPU 的市場地位。

適合 AI 開發者套件,而非注重效能的迷你 AI 工作站
CyberQ 觀察,整體而言,當初 NVIDIA 宣傳 DGX Spark 時的 1 PFLOPS 效能更像是行銷術語,而非本地 AI 推論能力的實際表現。對於期待在本地端以高速效能來執行較大 LLM 模型的用戶來說,某些人則看好 AMD 的 Strix Halo 平台,是另一種替代方案,但實際效能與後續應用也有不同看法和意見。
至於 NVIDIA DGX Spark 的定位, CyberQ 認為,這仍舊是一款服務 CUDA 開發者的迷你 AI 工作站,和給機器人和工業 AI 開發用的 NVIDIA Jetson Thor 設備來說,是定位接近的產物,本來就不是為大眾準備的小型 AI 超級電腦。從另一個層面來看,二台 DGX Spark 透過速度400Gb/s 的 ConnectX-7 網路連接在一起共享 256GB 容量的統一記憶體,對於執行更大參數的模型來說,開發者無疑是歡迎的,因為可以驗證、執行和訓練夠大的 AI 模型,只是需要時間。
另外,這款設備的耗電量也相對較低,做 AI 開發與模型訓練的用途,長期用掉的電費也少。若是更多台 DGX Spark 堆疊,可能會是中小企業的小型 AI 算力中心,透過高速光纖網路交換器搭配多台 DGX Spark 組成的運算叢集,可能是學校、中型企業有辦法負擔的成本和發揮足夠的效用。
另一方面,在 NVIDIA 官方論壇,討論 DGX Spark 的文章也不少,聚焦在設定、最佳化等方面,也可以當作參考。
本文首圖採用 ComfyUI 本地端 AI 模型搭配 NVIDIA 顯示卡產生









