現在的大模型競爭不只看單純的參數大小,Agent 執行力(如自動化、地端工具呼叫)以及長上下文(Long Context)的處理能力已成為核心戰場。同時,MTP(Multi-Token Prediction,多詞元預測/推測解碼)技術的普及,也讓模型在每秒 Token 產生速度(TPS)上有了爆發性的成長。
以下是 CyberQ 實際部署過,以及採用雲端 API 部署在專案的模型,主要是2026 下半年熱門的開源模型比較,也和第一名的閉源模型做對照參考。想要知道自己的電腦適合跑怎樣的模型,也可以使用 CyberQ 製作的這個 本地 AI 模型 VRAM 佔用計算機。
大語言模型地端 AI 選型比較一覽表
| 模型名稱 | 架構與規模 | 智商/核心能力定位 | Arena ELO / 基準測試參考 | 每秒 Token 速度 (TPS 範圍) | 本地部署與硬體門檻 |
| Gemma 4 12B | 12B 全稠密 原生多模態 | 邊緣端最強多模態,主打輕量級地端 Agent、桌面自動化與影音直入。 | 開源主流戰隊 (約 1380+ ELO) | 本地:30 – 60 TPS (內建草稿模型加速) | 極低:16GB 視訊記憶體顯卡(需使用量化版)即可流暢跑起來。 |
| Gemma 4 26B (MoE) | 26B 專家混合 256K 視窗 | 記憶力優秀。超長文本處理效率高,適合進行整本說明書與多檔案分析。 | Arena 總榜第 6 名 (開源頂尖 MoE) | 本地:30 – 50 TPS (每次激活參數少) | 中高:單張 4090 24GB (Q4量化) 或高階 Mac Studio。 |
| Gemma 4 31B (Dense) | 31B 全稠密 32K 視窗 | 開源智商硬實力要角。邏輯推理、複雜指令遵循能力不錯,能接近上一代閉源商業模型。 | Arena 總榜第 43 名 (開源全稠密領先者之一) | 本地:15 – 30 TPS (運算時全參數開啟) | 高:對顯卡算力壓榨狠,建議雙卡或強大工作站。 |
| Qwen3.6-27B (MTP 速度層) | 27B 全稠密 混合注意力 | 本地 Agentic Coding 戰神。擅長跨檔案程式碼重構與終端多輪對話。 | Terminal-Bench 2.0: 59.3 (追平 Claude Opus) | 本地優化:60 – 184 TPS (掛載 MTP 速度層可翻倍) | 中等:16GB 勉強(若搭配 MTP 好用多了),24GB 顯存(如 RTX 4090)最舒適。 |
| DeepSeek-V4-Flash | MoE 架構 (總 284B / 激活 13B) / 1M 視窗 | 經濟型推理、自動化與並行爬蟲優秀代理任務。可用極低成本堆疊子代理(Sub-agents)。 | SWE-bench Verified: 79.0% (極度逼近 Pro 版的 80.6%) | 官方雲端 API:100 – 150 TPS (優秀的平行速度) | 個人本地極難:總參數過大,地端若要使用需要 NVIDIA DGX Spark GB10 或 MacBook Pro 128GB ,雲端版則主打超便宜 API。 |
| GLM 5.2 (Max) | 旗艦開源架構 IndexShare 1M 視窗 | 開源長文本與智慧工程天花板。支援「可控深度思考模式」。 | Arena 總榜第 25 名 (Terminal-Bench: 81.0) | API/多卡:40 – 80 TPS (深度思考模式:10-20 TPS) | 極高:一般人設備跑不動,KV-Cache 會瞬間塞爆消費級顯卡。有高階卡者可跑量化版,企業級伺服器需多卡平行來跑。 |
| NVIDIA-Nemotron-3 Ultra-550B | 550B LatentMoE (Mamba-2 + 專家混合) | 物理 AI 與超大型 Agent 旗艦。原生支援 FP4 預訓練,可開關深度思考。 | 官方測試直逼頂級閉源 (支援 enable_thinking) | 專用集群 (HGX/Blackwell): 極快 (地端個體無法測) | 神級門檻:個人地端無緣,最低需 8xH100 或 4xGB200。 |
| Claude-Fable-5 / GPT-5.5-High (參考) | 頂級閉源叢集 | 全能智商、複雜邏輯、系統級架構工程。 | Arena 總榜第 1 與第 10 名 (Elo 突破 1480 ~ 1508) | 雲端 API:30 – 60 TPS | 無本地門檻:完全依賴雲端付費 API。 |
幾個重點的 AI 模型說明
Google Gemma 4 12B 是人人玩得起的多模態 Agent
Google 這次直接砍掉了傳統的音訊與影像編碼器,讓多模態輸入直接進 LLM Backbone。它不是用來取代雲端旗艦的,而是讓你可以在筆電上做長度在 30 秒音訊、60 秒影片內的本地智慧分析與桌面自動化。
因為原生自帶草稿模型做推測解碼,地端執行效率高,16GB 的 Mac 或筆電大約能穩跑 30-60 TPS,但智商離雲端大模型有顯著的距離,拿來跑小任務可以,但複雜任務你用過就不會想讓它做。
Qwen3.6-27B (MTP) 很多人愛的本地 Code 戰神
這次 Qwen 3.6 回歸全稠密架構(Fully Dense),放棄了 MoE 的路由複雜度,換來極致的代碼庫(Repository-level)跨檔案理解能力。它在終端環境(Terminal)表現驚人,在本地幾乎沒有對手。
原版跑起來大約 20-30 TPS,但如果加載官方的 MTP 速度層變體(會多吃大約 1GB 顯存),配合 vLLM、SGLang 或 Mac 上的 MLX 優化,速度可以直接飆到 100 – 184 TPS,打字機速度快到眼睛跟不上。連一般的電腦拿 NVIDIA RTX 5060 ti 16GB 消費級顯示卡來跑,都能夠跑到 40 – 50 TPS,是中低階平價機器這類等級的優秀選項之一,但需要留意 KV 大小,太複雜的任務會吃不消爆記憶體而中止。
DeepSeek-V4-Flash 是價格破壞者,高平行任務首選
在實際程式碼測試(SWE-bench)中,Flash 版跟自家 1.6 兆參數的 V4-Pro 只差了不到 2%,但在世界知識(常識問答)上稍微笨一點。不過,你可以用 1/5 的極低成本多開幾個子代理(Sub-agents)來互相檢查,用數量彌補智商。
透過官方 API 調用,速度穩定在 100-150 TPS 之間,適合需要大量、快速吐出 Token 的自動化或爬蟲任務。
GLM 5.2 實力極強,但與普通人的顯卡無緣
這是目前開源界少數能在 100 萬(1M)超長上下文中穩定維持高度推理的模型。它引入了 思考深度控制(Flexible Effort),遇到難題時會進入思考模式,在程式碼撰寫工程基準測試上直接威脅到 Claude Opus 4.8。
為什麼跑不動?一般人的消費級顯卡(如單張 RTX 4090 24GB)光是把模型塞進去就已經很勉強了。GLM 5.2 只要讀入幾萬字,其 KV-Cache(上下文快取記憶體) 產生的顯存需求會呈幾何級數暴增。沒有多卡聯動或專用推論加速卡(如華騰、H100/A100 集群),本地執行基本上是不可能的,因此一般人都是透過雲端 API API 或企業私有化機房來調用它。
NVIDIA 的 2026 最新開源模型
NVIDIA 放招的方向與 Google、阿里巴巴不太一樣。黃教主現在全面押寶Agent 執行力與物理 AI(Physical AI)。他們最新端出來的開源大作,在架構上非常具有前瞻性。
NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4
這是 NVIDIA 針對高階推理與複雜 Agent 任務打造的旗艦級開源模型。
超混合架構(LatentMoE),它拋棄了傳統純 Transformer 的束縛,採用了 Mamba-2(線性注意力機制)+ MoE(混合專家)+ 傳統 Attention 的混合架構。總參數高達 5500 億(550B),但每次只啟用 550 億(55B)。
原生 NVFP4 與 MTP,這款模型在預訓練階段就直接使用了 NVIDIA 自家的 FP4(4位元浮點數)硬體優化技術,並內建了多詞元預測(MTP)。它在 NVIDIA Blackwell 或 Hopper 晶片上,即使體積巨大,吐 Token 的速度也很快。
1M 上下文與可控式思考模式是重點,它支援高達 100 萬(1M) 的超長上下文。最酷的是,它的提示詞模板支援 enable_thinking=True/False 的開關。你可以讓它像 DeepSeek-R1 一樣,在回答前進行瘋狂的深度碎碎念推理(Reasoning trace),遇到簡單任務時也能關掉思考直接秒回。
硬體門檻非常高,這隻一般人的設備真的完全跑不動。它的最低部署要求通常需要 8 張 H100 或最新的 Blackwell (如 4 張 GB200/B200) 級別叢集。一般開發者都是直接去 NVIDIA Build 官網呼叫其雲端 API,本地普通 PC 只能看看。
NVIDIA 其他垂直領域的開源新星
除了純文字,NVIDIA 還同步釋出了幾款改變產業未來的垂直模型。
Nemotron RAG 系列,專門最佳化過的多模態「嵌入(Embed)與重排(Rerank)」模型,專治企業內部包含海量圖表、複雜 PDF 的 RAG 知識庫,精準度極高。
Alpamayo 家族,NVIDIA 專門為「自主載具/自動駕駛」開發的推理與決策模型。
Cosmos 平台,用於物理 AI 與機器人學的世界模型(World Models),讓 AI 能真正理解現實世界的物理規律(重力、碰撞、空間關係)。
硬體與選型建議
如果你的硬體只有單張 16G ~ 24G 顯卡(或主流筆電)
留守 Gemma 4 12B 是體驗地端多模態最舒服的平衡點,如果想嘗試極限去挑戰 Gemma 4 26B MoE 的量化版,還不如用 CyberQ 實作跑起來也很舒服的 Qwen 3.6 量化版本 + MTB。
如果你有雙卡、AI 工作站或 Mac 頂規
直接部署 Gemma 4 31B Dense,去享受那份開源前三名的 AI 智商,或者是拿來跑 DS4,去執行性價比極高的 DeepSeek V4 Flash。
至於 NVIDIA Nemotron-3-Ultra 550B
不要為難自己的顯卡,直接去 NVIDIA 平台申請免費的 API Key 來調用。拿它來做高難度的 Agentic 任務(例如自動化操作複雜軟體、跨多個長文件的關聯分析),效果會讓你非常震撼。
橫向選型核心觀察
最後,CyberQ 總結一些選型的經驗和觀察,提醒就是,純地端智商 vs 記憶力的抉擇在 Gemma 4 家族中是很常見的問題,如果你要丟一整部代碼庫或厚重的 PDF 請選 26B MoE,因為 256K 視窗跟少量的啟動參數能確保速度。但如果你是要丟一小段燒腦的演算法或邏輯推理,選 31B Dense 比較能榨出地端 AI 智商,但還是離雲端閉源大模型有一大段距離噢。
速度與效率優秀的 Qwen3.6-27B 加上 MTP,是目前能在本地端把輸出速度噴到 180 TPS 以上的唯一高智商選擇。
相比之下,雲端調用 DeepSeek-V4-Flash 則是解決高平行自動化任務時最划算的省錢選擇,如果你有 NVIDIA DGX Spark GB10 或 MacBook Pro 128GB ,用 DS4 來跑量化過的 DeepSeek V4 Flash,那就是家裡、辦公室最好的全天候 AI 代理人可調用 AI 算力平台。
雲端大模型能力的降維打擊,可說呈現在 GLM 5.2 與 NVIDIA 550B 這兩個超優秀地端大模型上,雖然他們代表了開源界目前能摸到的最高天花板,但因為需要極為龐大的集群算力來應付長上下文的 KV-Cache,一般個人開發者在本地部署基本上是看得到、吃不到,直接調用官方 API 或是去專用平台體驗其 Agentic 執行力更現實的做法,也歡迎試用 GLM、NVIDIA 雲端提供的 API ,相信用過之後,確實會有感覺。雖然不如第一名的 Claude,甚至離 Claude 最新的 Fable 5 也有一段距離,但便宜治百病,也是很多開發團隊迭代的主要選擇之一。









