根據 Silicon Angle 相關報導指出,AI 晶片大廠 Nvidia 並非如外界稍早預測將收購新創公司 Groq,而是選擇以約 200 億美元的規模,取得 Groq 的關鍵技術授權。這顯示了 Nvidia 執行長黃仁勳正在重新調整戰略,試圖在穩固 GPU 於 AI 訓練市場的統治地位後,進一步補強在即時推論領域的技術缺口,目標瞄準在適合推論的 LPU。
非收購而是技術結盟 瞄準推論市場瓶頸
早前市場傳言 Nvidia 將收購 Groq,但最新的消息指出,這是一種以技術授權為核心的合作模式,而非傳統意義上的併購交易。這項佈局被部分分析師形容為具有「捕獲並扼殺」(Catch and Kill)意味的策略運用。Nvidia 透過此舉巧妙避開了直接併購可能引發的反壟斷審查,卻能取得關鍵技術與人才,進而強化自身的AI晶片生態系。同時 Groq 維持形式上的獨立,讓市場上看似存在,但其實質上的威脅性已遭到削弱。
Groq 發新聞稿對外說明,該公司已經和Nvidia達成非獨家授權協議,而 Groq 創辦人Jonathan Ross、總裁 Sunny Madra 與 Groq團隊重要成員都將加入 Nvidia,且 Groq 會繼續獨立經營。
對於 Nvidia 而言,這是重要的布局。雖然 Nvidia 的 GPU 在模型訓練與高吞吐量運算上擁有絕對優勢,但在面對需要極低延遲的「單一使用者即時推論」場景時,傳統GPU架構仍面臨物理上的挑戰。透過整合 Groq 的技術,Nvidia 嘗試在未來架構中更明確區分預填充(Prefill)與解碼(Decode)等不同推論階段的運算特性,鞏固其在 AI 硬體產業的全方位領導地位。
NVIDIA 取得 Groq 技術授權後,產生了一種新的「接力賽」分工模式:
第一棒(理解)由擅長平行運算的 NVIDIA GPU 負責處理輸入資料的「預填充」(Prefill)。
第二棒(生成)將資料交棒給整合了 Groq 技術(LPU 架構)的晶片模組,負責高速的「解碼」(Decode)與回應生成 。 這種架構讓 AI 伺服器既能保有 GPU 的高吞吐量優勢,又能透過 LPU 技術補強即時推論的低延遲缺口,形成軟硬體整合的生態系循環 。
解構 LPU 與 GPU 及 TPU 的核心差異
要理解這項交易的重要性,必須先釐清 Groq 開發的 LPU 與傳統 GPU 及 Google TPU 在設計哲學上的根本差異。這三者雖然都用於 AI 運算,但其核心架構決定了各自擅長的戰場。

LPU 是專為大型語言模型(LLM)的推論過程而設計。其最大特色在於捨棄了 GPU 常用的高頻寬記憶體(HBM)作為主要權重存取來源,而是以大量晶片內部的 SRAM 承擔核心資料存取角色。這項設計如同將資料直接放在運算單元旁邊,大幅降低對外部記憶體存取的時間成本,因此在處理速度上極快,特別適合語音即時翻譯等需要即時反應的應用。
相較之下,Nvidia 的 GPU 採用 SIMT(單指令多執行緒)架構與 HBM 記憶體,這讓 GPU 擁有極大的記憶體容量與平行運算的吞吐量,非常適合需要處理海量資料的模型訓練階段。而 Google 的 TPU 則採用脈動陣列(Systolic Array)架構,專精於矩陣運算,是 Google 為了自身雲端服務的大規模運算所打造的專用晶片。
簡單來說,若將 AI 運算比喻為交通運輸,GPU 像是載貨量巨大的火車,適合一次運送大量物資;LPU 則像是追求極速的高鐵,專注於以最短時間將乘客直達終點。
Groq Compiler 編譯器的優異架構
Groq技術之所以能達成極致的低延遲,硬體架構只是基礎,真正的靈魂在於其軟體定義硬體的核心思維,也就是 Groq Compiler(編譯器)。
在傳統GPU運作中,硬體需要透過複雜的調度器動態指揮資料流向,這容易產生無法預期的延遲。然而 Groq Compiler 在程式開始執行前,就會將資料分切成小塊進而分配位置,甚至規畫詳細路徑,換言之,在編譯階段就已經完整規劃所有指令執行順序與資料流動的次序。
這是一種確定性(Deterministic)的運作模式。晶片內部不需要紅綠燈或交通警察來指揮交通,只需要在原地等待資料過來,因為所有的資料傳輸都已在編譯階段就已經排好時刻表,這種以軟體主導的排程方式,大幅降低對即時硬體調度的依賴的設計,讓 LPU 能展現出驚人的執行效率與速度,也是 Nvidia 極欲獲取的關鍵技術之一。
互補長短 未來AI運算的黃金組合
CyberQ 認為,Nvidia 此舉是為了構建未來的混合運算架構。未來的 AI 伺服器可能不再單純依賴 GPU,而是採用分工模式。由擅長平行運算的Nvidia GPU負責處理輸入資料的理解與預填充(Prefill),再交由整合了 Groq 技術的晶片負責高速生成回應(Decode)。
這項高額且具策略意義的投資布局,不僅再次驗證了 Groq LPU 技術架構的價值,更顯示 Nvidia 在防堵競爭對手超車的策略上,展現了極高的執行力與前瞻性。對於追求即時互動體驗的 AI 應用開發者而言,這將開啟應用生態系與產業的新局。
首圖由 Nano Banana AI 生成









