10 萬張 GPU 不是護城河：從 xAI Colossus 到 Claude 借算力，看懂 AI 算力戰的殘酷真相

在當前生成式 AI 的軍備競賽中，市場上普遍存在一種算力即一切的迷思，似乎只要砸重金買下成千上萬張 GPU，就能順理成章地訓練出輾壓對手的超級 AI 模型。然而，現實的工程世界真的如此簡單粗暴嗎？當然不是這樣啦。

《The Information》的 AI Agenda 專欄近期發布了一篇名為《xAI Shows How Hard It Is to Use a Lot of GPUs》的專題報導。該文一針見血地點出了伊隆·馬斯克（Elon Musk）旗下的 xAI 在組建史詩級算力時所遭遇的真實困境，買到 10 萬張頂級晶片並把它們通電開機，只是這場超級馬拉松的最簡單環節，如何讓它們高效且穩定地協同運作，確實是有技術難度的。

之前 CyberQ 報導過這篇，xAI 以驚人的速度在美國田納西州 Memphis 建置了名為 Colossus 的超級電腦叢集，號稱配備了高達 10 萬張 NVIDIA H100 GPU，也伴隨著史無前例的工程挑戰。CyberQ 就實際部署 AI 伺服器和資料中心經驗，說明這 10 萬張 GPU 背後，外界鮮少關注的三大技術高牆。

網路互連的極限微操（Networking & Interconnect）

訓練千億、甚至兆級參數的大型語言模型（LLM），不是單純把資料切割丟給個別 GPU 就能完成。數以萬計的 GPU 必須在極短時間內、極度頻繁地互相交換龐大的參數資料（如權重與梯度）。

為了追求建置速度並控制成本，xAI 的 Colossus 叢集在設計上並未完全依賴 NVIDIA 傳統用於超級電腦、但產能受限且極度昂貴的 InfiniBand 網路，而是大量採用了基於乙太網路（Ethernet/RoCE）的解決方案。在 10 萬個節點的規模下，如何避免網路擁塞、封包遺失（Packet Loss），並維持微秒級的極低延遲？這對網路拓樸架構是極限考驗。只要網路上出現微小的卡頓，一大批昂貴的 GPU 就只能處於閒置等待狀態，導致整體模型算力利用率（MFU）大幅低迷。

硬體故障率與MTBF

在單一台電腦上，硬體壞掉叫意外，但在一個擁有 10 萬張 GPU、幾十萬條光纖線材與數千台交換機的巨型資料中心裡，硬體壞掉就成了每天、甚至每小時的日常。

隨著叢集規模呈指數級擴展，系統的平均無故障時間（MTBF）會急遽縮短。只要有一張顯示卡記憶體報錯或一條光纖鬆脫，整個訓練任務就可能被迫中斷，系統必須退回上一個檢查點重新啟動。這種頻繁的中斷與重啟，會大幅吃掉實際用於訓練 AI 的寶貴時間。

業界實況印證 Meta Llama 3 訓練報告

為了讓大家具體理解這有多難，我們可以參考很早之前 Meta 發表 Llama 3 時的官方技術論文。Meta 在報告中坦承，他們使用 1.6 萬張 H100 GPU 進行訓練期間，平均每 3 小時就會遭遇一次非預期的硬體中斷。試想，當年 Meta 在不到兩萬張的規模下就如此頭痛，而現在 xAI 面對的可是高達 10 萬張的超大叢集，其軟體容錯（Fault Tolerance）團隊面臨的維運壓力絕對是高難度的關卡。

基礎設施與實體能源的極限

要讓 10 萬張 GPU 全速運轉，對實體基礎設施的考驗物小。這座超級電腦滿載時的電力需求高，伴隨而來的是極其嚴苛的散熱與冷卻需求。

根據多家媒體先前的追蹤報導，由於當地電網無法即時滿足如此龐大的電力缺口，xAI 甚至必須在廠區外部署數十台移動式的天然氣發電機（Gas Turbines）來維持超級電腦的運轉。這反映出在 AI 戰場上，實體的能源與冷卻基礎設施，往往比購買晶片本身更難搞定。

連 Claude 都要借用 Colossus，算力從競爭武器變成出租商品

更有意思的是，Colossus 1 並不只服務 xAI 自家的 Grok。Anthropic 已於 2026 年 5 月 6 日正式宣布與 SpaceX 達成算力合作，將使用 SpaceX 位於田納西州 Memphis 的 Colossus 1 資料中心全部運算容量。根據 Anthropic 官方說法，這批資源將在一個月內帶來超過 300MW 的新增容量，涵蓋超過 22 萬張 NVIDIA GPU，並直接改善 Claude Pro 與 Claude Max 訂閱用戶的服務容量。

這項合作的立即效果，也不是停留在企業簡報上的漂亮話。Anthropic 同步宣布，Claude Code 針對 Pro、Max、Team 與座位制 Enterprise 方案的五小時使用率限制將加倍，Claude Code 在 Pro 與 Max 帳號上的尖峰時段限制也會取消，Claude Opus 模型的 API rate limits 也會大幅提高。換句話說，Colossus 1 的算力被導入後，已經直接反映到 Claude 使用者與開發者可感知的服務限制放寬。

路透社也報導，Anthropic 這次取得的是 Colossus 1 的完整運算能力，該設施位於 Memphis，搭載超過 22 萬顆 NVIDIA 處理器，將提供 300MW 新容量，主要用來緩解 Claude Code 等產品需求暴增後的算力瓶頸。這也讓這起合作變得格外微妙，xAI／Grok 與 Anthropic／Claude 明明是 AI 模型市場上的競爭者，但在基礎設施層，超大型 GPU 叢集反而可以被拆成可出租、可交易、可重新配置的雲端級資產。

這件事反過來印證了 CyberQ 之前提過的觀點，擁有大量 GPU 是好事但需要最佳化，真正困難的是如何讓這些 GPU 以穩定、可預測、可計費、可維運的方式被實際消耗掉。若自家模型訓練與推論無法吃滿整座叢集，或模型使用量追不上硬體擴張速度，那麼再強大的算力中心，也會從戰略武器變成需要對外招租的AI 基礎設施商品。

而從 Claude 的角度來看，這也說明另一個殘酷現實，即便是 Anthropic 這種前線模型公司，也不可能只靠單一雲端或單一硬體路線滿足成長需求。Anthropic 官方同時提到，它也有 Amazon、Google、Microsoft／NVIDIA、Fluidstack 等多項大型算力與基礎設施合作，並明確表示 Claude 同時訓練與運行在 AWS Trainium、Google TPU 與 NVIDIA GPU 等多種 AI 硬體上。

因此，Colossus 1 外租給 Anthropic 的新聞，某種程度上比 10 萬張 GPU 本身更值得關注。

CyberQ 觀點

《The Information》的這篇報導為當前過熱的 AI 硬體狂熱澆上了一點可以降溫的冷水，同時呢，我們看 xAI 確實展現了無與倫比的資本實力與建置速度，在極短時間內打造開機地球上最大的 GPU 叢集。但插上電是不夠的啊，大哥。

CyberQ認為，能夠擁有不錯的分散式系統工程能力是 xAI 工程團隊的優點，能夠寫出可用的調度系統、將這 10 萬張晶片的潛力 100% 榨乾的公司，在這場邁向 AGI（通用人工智慧）的長跑中確實是關鍵。但麻煩的是，你得要有足夠客戶才行，從它一開始閒置而需要兜售 AI 算力看來，隨著幾間大廠在 NVIDIA、AMD 與其他大廠的 AI 算力晶片陸續部署新叢集上線後，這些算力的後續資源競逐會確切影響各家 AI 的表現。

不僅僅是馬斯克的危機：從 xAI 電廠爭議看 2026 年 AI 產業的能源反撲

重電設備與電網基建產能有限，AI 資料中心恐有一半卡關?

邁向卡爾達肖夫二型文明？SpaceX、Starcloud與藍色起源的太空資料中心爭霸戰

10 萬張 GPU 不是護城河：從 xAI Colossus 到 Claude 借算力，看懂 AI 算力戰的殘酷真相

下一個十年的運算評估指標：SPEC CPU 2026 測試套件正式發布，解析核心變革

Google 內測 24/7 AI 代理 Remy，Gemini 邁向主動執行，正面回應 OpenClaw 浪潮？

Microsoft Edge 遭爆將已儲存密碼「明文」載入記憶體，我們該如何防範？

下一個十年的運算評估指標：SPEC CPU 2026 測試套件正式發布，解析核心變革

Chen Glenn

相關文章

下一個十年的運算評估指標：SPEC CPU 2026 測試套件正式發布，解析核心變革

Google 內測 24/7 AI 代理 Remy，Gemini 邁向主動執行，正面回應 OpenClaw 浪潮？

Microsoft Edge 遭爆將已儲存密碼「明文」載入記憶體，我們該如何防範？

Chrome 靜默下載 4GB AI 模型引爭議，當瀏覽器變成本機 AI 平台，使用者有選擇權嗎？瀏覽器模型相容性碎片化？

臺灣資安大會 CYBERSEC 2026 展場直擊 2：生成式 AI 與雲端 SASE 的逐步落地

臺灣資安大會 CYBERSEC 2026 展場直擊 1：AI 賦能與跨域聯防

推薦閱讀