在 AI 算力競賽進入白熱化的 2026 年,算力擴張的瓶頸包括晶片產能與能源供應都在在牽動業界的發展。日前 Meta 與 AMD 宣布達成一項為期五年、總價值超過 1,000 億美元的戰略合作協議。Meta 將部署高達 6 吉瓦(Gigawatts, GW)的 AMD 人工智慧運算基礎設施。這可說是 AMD 迄今為止拿下的最大單一客戶合約,Meta 在 AI 算力佈局上,也分散風險,走向多源化的策略布局。
從買晶片到買電網的策略佈局強化
此次協議最引人注目的,是採用「吉瓦(GW)」而非傳統的「晶片數量」作為採購計量單位。在當前的 AI 產業中,1 吉瓦的算力大約相當於一座核電機組的發電量。而部署規模總計高達 6GW 的 AI 算力,首批 1GW 的基礎設施預計於 2026 年下半年開始出貨與部署。
財務規模方面,AMD 執行長蘇姿丰(Lisa Su)透露,每 1 吉瓦的運算能力將帶來「數百億美元」的營收。不但如此,雙方合作也進行了深度綁定,採用股權獎勵機制,為了鞏固長期合作,AMD 向 Meta 發行了最多 1.6 億股(約佔 AMD 股本 10%)的績效認股權證。只要達成特定里程碑且 AMD 股價攀升至特定目標(最高至 600 美元),Meta 即可用每股 0.01 美元的極低價格行使認股權。
量身定製的 MI450 與 Helios 架構
對於支撐數十億使用者的 Meta 而言,通用型晶片已無法滿足他們對成本與能效的要求,因此此次 6GW 的算力大單,在技術規格上可看出明確的策略方向,首先是客製化晶片,Meta 將採用基於新一代架構的客製化 AMD Instinct MI450 GPU,在推論用部分選擇具備更優異能耗比(Performance per Watt)與更大的記憶體頻寬的產品,針對專為其 Llama 系列大型語言模型的推論(Inference)任務進行最佳化。
另外在虛擬機、容器與 AI 伺服器的新購處理器部分,選擇 AMD 方案,採用代號為 Venice 的 AMD 第六代 EPYC CPU,確保資料在伺服器節點間的吞吐量不成為瓶頸。
整個部署將建構於 AMD Helios 機櫃級架構之上,雙方的合作是基礎設施的整包部署,從晶片、資料中心機架,到散熱與系統層級的整體設計採用 AMD 生態系。
Meta 的三層 AI 算力規劃
Meta 執行長祖克柏(Mark Zuckerberg)將 AI 視為首要戰略,並推出了激進的「Meta Compute」算力擴張計畫,Meta 的核心戰略也是不要把雞蛋放在同一個籃子裡。該公司全球基礎設施負責人 Santosh Janardhan 明確表示:「我們不相信單一的矽解決方案能適用於所有工作。」
目前 Meta 的算力版圖和其他 AI 大廠類似,都有做分層部署:
NVIDIA(輝達)方面會繼續採購數百萬顆 GPU,提供極致效能,主攻最先進、參數量最龐大的基礎模型訓練。
AMD(超微)方面則透過 6GW 的長期合約,提供規模化與高能效比的解決方案,主攻 AI 模型的低成本推論與全球部署。
Meta 自研晶片(MTIA)委託晶圓廠代工,針對特定的內部推薦系統與輕量化運算進行深度客製化。
MI450 與 Helios 如何迎戰 NVIDIA 霸權?
當 Meta 決定將 6GW 的龐大能源押注在 AMD 身上時,除了省錢的商業考量,也有對底層技術路線的資源再分配。若將 AMD 的客製化 MI450 與 Helios 機櫃架構,與 NVIDIA 當前的旗艦級 Blackwell (B200) 及 GB200 NVL72 系統放在一起看,能發現兩者在設計哲學上存在不少本質上的差異。
| 比較 | AMD MI450 + Helios 架構 (Meta 部署方案) | NVIDIA B200 + GB200 NVL72 架構 |
| 主要定位 | 大規模、高能效比的 AI 推論與部署 | 極限效能的基礎大模型訓練與密集運算 |
| GPU 微架構 | CDNA 4 (高度客製化,最佳化推論與記憶體) | Blackwell (搭載新一代 Transformer 引擎) |
| 機櫃設計哲學 | 模組化、彈性部署、高度相容開放標準 (OCP) | 封閉式生態、極高密度整合、專屬液冷設計 |
| 互連技術 | Infinity Fabric + Ultra Ethernet (開放標準) | NVLink + InfiniBand (專有封閉標準) |
| 客戶議價能力 | 高 (可參與晶片與系統規格的客製化定義) | 低 (需接受 NVIDIA 制定的標準綁售方案) |
| 生態系依賴 | 依賴開源框架層級的最佳化 (如 PyTorch) | 高度依賴 CUDA 軟體護城河 |
AMD 客製化 MI450 (CDNA 4 架構) 對於 Meta 而言,Llama 模型的訓練交由 NVIDIA 負責,但每天面對全球數十億次對話請求的推論(Inference)是非常耗電的,如果採用 AMD 的客製化 MI450 ,捨棄了部分不必要的雙精度通用運算單元,專注於擴大 HBM(高頻寬記憶體)的容量與頻寬。這種設計讓龐大的語言模型能完整塞入更少數量的 GPU 中,降低了推論時的記憶體牆(Memory Wall)延遲與單次生成的能源消耗。
至於 NVIDIA B200 (Blackwell 架構),NVIDIA 主打的是頂級規格的全能與極致效能。B200 搭載了第二代 Transformer 引擎,並支援 FP4 精度,在處理超大規模、兆級參數基礎模型的暴力訓練上,依然擁有難以撼動的絕對優勢。
從機房運作部署實務中也可以看出兩大陣營的差別,若在機櫃級系統架構粗淺地區分,這是開放模組化 vs. 封閉式高密度的差異。AMD Helios 機櫃架構繼承了 AMD 支持 OCP(開放運算計畫)的理念,強調模組化與標準化,讓 Meta 這類超大型資料中心(Hyperscaler)能根據自身的基礎設施(如現有的供電與氣冷/水冷散熱系統)去進行彈性調整,降低了資料中心更新的沉沒成本。
而 NVIDIA GB200 NVL72 則是一個高度整合、預先配置好的超級節點,整體費用會比較高。它將 72 顆 Blackwell GPU 與 36 顆 Grace CPU 透過銅線 NVLink 緊密綁定在一個液冷機櫃中。這種設計能讓每個機櫃的算力往上推升,但缺點是客戶必須以採用 NVIDIA 定義的散熱與供電規格為主,相對來說較缺乏部署上的彈性且建置成本較高。
網路互連與生態系也有相當的差異,但 Meta 在軟體上的多年經驗與技術是要角,在軟體堆疊上,雖然 NVIDIA CUDA 依舊是開發者的首選,但 Meta 身為 AI 領域重要框架程式 PyTorch 的主要開發者,擁有強大的軟體底層掌控力。Meta 可以直接在框架層去最佳化 AMD 的 ROCm 軟體堆疊,這也是 Meta 敢於大規模採用 AMD 晶片的最大原因,其他公司還不一定能有足夠的開發能量把自己家的 AI 推論程式大規模地部署在 AMD 方案上,這些都需要軟體開發的成本和人力資源。
網路協議部分仍舊是 NVIDIA 最快,NVIDIA 是透過 NVLink (機櫃內) 與 InfiniBand (跨機櫃) 築起了極深的專利護城河,確保了極低的延遲。而 AMD 搭配 Helios 架構,只好積極去推動 UEC(超乙太網路聯盟,Ultra Ethernet Consortium)標準,結合其 Infinity Fabric,試圖用開放、低成本的標準化網路來打破 NVIDIA 的超高速網路互連的技術壟斷,但實務上,目前離這個目標還有相當的距離。
牽動全球半導體板塊的蝴蝶效應
這份千億美元級別的合約,在資本市場迅速發酵,AMD 股價在消息公佈後盤前飆升超過 14%。對 AMD 而言,目前市場儘管仍由 NVIDIA 主導,不過還是有機會找到夠大的合作夥伴來拓展其步伐。
CyberQ 認為,對 AI 產業與開發者體系來說,Meta 新採購的這一大批 AMD 架構,勢必也會有更多 AMD 在 AI 部署方面的實作與最佳化方案出來,有助於業界更多企業和團隊在未來能有機會也選用 AMD 方案來部署自家的 AI 基礎設施,提供比 NVIDIA 更便宜的選擇,導入門檻和實作難度能再降低一些,提高選用 AMD 方案的意願,不然過往都還是會優先選 NVIDIA 方案比較好用。
隨著 AI 戰場從模型演算法延伸至底層算力,再到能源基礎設施,Meta 與 AMD 的這場合作,後續很值得關注,畢竟是吉瓦等級的國家級能源調度呢。






