在當前生成式 AI 的軍備競賽中,市場上普遍存在一種算力即一切的迷思,似乎只要砸重金買下成千上萬張 GPU,就能順理成章地訓練出輾壓對手的超級 AI 模型。然而,現實的工程世界真的如此簡單粗暴嗎?當然不是這樣啦。
《The Information》的 AI Agenda 專欄近期發布了一篇名為 《xAI Shows How Hard It Is to Use a Lot of GPUs》 的專題報導。該文一針見血地點出了伊隆·馬斯克(Elon Musk)旗下的 xAI 在組建史詩級算力時所遭遇的真實困境,買到 10 萬張頂級晶片並把它們通電開機,只是這場超級馬拉松的最簡單環節,如何讓它們高效且穩定地協同運作,確實是有技術難度的。
之前 CyberQ 報導過這篇,xAI 以驚人的速度在美國田納西州 Memphis 建置了名為 Colossus 的超級電腦叢集,號稱配備了高達 10 萬張 NVIDIA H100 GPU,也伴隨著史無前例的工程挑戰。CyberQ 就實際部署 AI 伺服器和資料中心經驗,說明這 10 萬張 GPU 背後,外界鮮少關注的三大技術高牆。
網路互連的極限微操(Networking & Interconnect)
訓練千億、甚至兆級參數的大型語言模型(LLM),不是單純把資料切割丟給個別 GPU 就能完成。數以萬計的 GPU 必須在極短時間內、極度頻繁地互相交換龐大的參數資料(如權重與梯度)。
為了追求建置速度並控制成本,xAI 的 Colossus 叢集在設計上並未完全依賴 NVIDIA 傳統用於超級電腦、但產能受限且極度昂貴的 InfiniBand 網路,而是大量採用了基於乙太網路(Ethernet/RoCE)的解決方案。在 10 萬個節點的規模下,如何避免網路擁塞、封包遺失(Packet Loss),並維持微秒級的極低延遲?這對網路拓樸架構是極限考驗。只要網路上出現微小的卡頓,一大批昂貴的 GPU 就只能處於閒置等待狀態,導致整體模型算力利用率(MFU)大幅低迷。
硬體故障率與MTBF
在單一台電腦上,硬體壞掉叫意外,但在一個擁有 10 萬張 GPU、幾十萬條光纖線材與數千台交換機的巨型資料中心裡,硬體壞掉就成了每天、甚至每小時的日常。
隨著叢集規模呈指數級擴展,系統的平均無故障時間(MTBF)會急遽縮短。只要有一張顯示卡記憶體報錯或一條光纖鬆脫,整個訓練任務就可能被迫中斷,系統必須退回上一個檢查點重新啟動。這種頻繁的中斷與重啟,會大幅吃掉實際用於訓練 AI 的寶貴時間。
業界實況印證 Meta Llama 3 訓練報告
為了讓大家具體理解這有多難,我們可以參考很早之前 Meta 發表 Llama 3 時的官方技術論文。Meta 在報告中坦承,他們使用 1.6 萬張 H100 GPU 進行訓練期間,平均每 3 小時就會遭遇一次非預期的硬體中斷。試想,當年 Meta 在不到兩萬張的規模下就如此頭痛,而現在 xAI 面對的可是高達 10 萬張的超大叢集,其軟體容錯(Fault Tolerance)團隊面臨的維運壓力絕對是高難度的關卡。
基礎設施與實體能源的極限
要讓 10 萬張 GPU 全速運轉,對實體基礎設施的考驗物小。這座超級電腦滿載時的電力需求高,伴隨而來的是極其嚴苛的散熱與冷卻需求。
根據多家媒體先前的追蹤報導,由於當地電網無法即時滿足如此龐大的電力缺口,xAI 甚至必須在廠區外部署數十台移動式的天然氣發電機(Gas Turbines)來維持超級電腦的運轉。這反映出在 AI 戰場上,實體的能源與冷卻基礎設施,往往比購買晶片本身更難搞定。
連 Claude 都要借用 Colossus,算力從競爭武器變成出租商品
更有意思的是,Colossus 1 並不只服務 xAI 自家的 Grok。Anthropic 已於 2026 年 5 月 6 日正式宣布與 SpaceX 達成算力合作,將使用 SpaceX 位於田納西州 Memphis 的 Colossus 1 資料中心全部運算容量。根據 Anthropic 官方說法,這批資源將在一個月內帶來超過 300MW 的新增容量,涵蓋超過 22 萬張 NVIDIA GPU,並直接改善 Claude Pro 與 Claude Max 訂閱用戶的服務容量。
這項合作的立即效果,也不是停留在企業簡報上的漂亮話。Anthropic 同步宣布,Claude Code 針對 Pro、Max、Team 與座位制 Enterprise 方案的五小時使用率限制將加倍,Claude Code 在 Pro 與 Max 帳號上的尖峰時段限制也會取消,Claude Opus 模型的 API rate limits 也會大幅提高。換句話說,Colossus 1 的算力被導入後,已經直接反映到 Claude 使用者與開發者可感知的服務限制放寬。
路透社也報導,Anthropic 這次取得的是 Colossus 1 的完整運算能力,該設施位於 Memphis,搭載超過 22 萬顆 NVIDIA 處理器,將提供 300MW 新容量,主要用來緩解 Claude Code 等產品需求暴增後的算力瓶頸。這也讓這起合作變得格外微妙,xAI/Grok 與 Anthropic/Claude 明明是 AI 模型市場上的競爭者,但在基礎設施層,超大型 GPU 叢集反而可以被拆成可出租、可交易、可重新配置的雲端級資產。
這件事反過來印證了 CyberQ 之前提過的觀點,擁有大量 GPU 是好事但需要最佳化,真正困難的是如何讓這些 GPU 以穩定、可預測、可計費、可維運的方式被實際消耗掉。若自家模型訓練與推論無法吃滿整座叢集,或模型使用量追不上硬體擴張速度,那麼再強大的算力中心,也會從戰略武器變成需要對外招租的AI 基礎設施商品。
而從 Claude 的角度來看,這也說明另一個殘酷現實,即便是 Anthropic 這種前線模型公司,也不可能只靠單一雲端或單一硬體路線滿足成長需求。Anthropic 官方同時提到,它也有 Amazon、Google、Microsoft/NVIDIA、Fluidstack 等多項大型算力與基礎設施合作,並明確表示 Claude 同時訓練與運行在 AWS Trainium、Google TPU 與 NVIDIA GPU 等多種 AI 硬體上。
因此,Colossus 1 外租給 Anthropic 的新聞,某種程度上比 10 萬張 GPU 本身更值得關注。
CyberQ 觀點
《The Information》的這篇報導為當前過熱的 AI 硬體狂熱澆上了一點可以降溫的冷水,同時呢,我們看 xAI 確實展現了無與倫比的資本實力與建置速度,在極短時間內打造開機地球上最大的 GPU 叢集。但插上電是不夠的啊,大哥。
CyberQ認為,能夠擁有不錯的分散式系統工程能力是 xAI 工程團隊的優點,能夠寫出可用的調度系統、將這 10 萬張晶片的潛力 100% 榨乾的公司,在這場邁向 AGI(通用人工智慧)的長跑中確實是關鍵。但麻煩的是,你得要有足夠客戶才行,從它一開始閒置而需要兜售 AI 算力看來,隨著幾間大廠在 NVIDIA、AMD 與其他大廠的 AI 算力晶片陸續部署新叢集上線後,這些算力的後續資源競逐會確切影響各家 AI 的表現。







