Google Gemma 4 開源模型解析，Ollama / vLLM Gemma 4 實作指南

就在開源 AI 社群還在熱烈討論各種大語言模型的發展時，Google DeepMind 正式推出了新一代開放模型家族 Gemma 4。這次的升級可說是誠意滿滿，不僅將上下文長度一舉推升到 25.6 萬（256K）個 Token，更將思考模式（Reasoning）、原生多模態（Multimodal）能力全面下放至全系列模型，並改採友善的 Apache 2.0 授權。

CyberQ 實測 Gemma 4 ，也教你如何在本地端（Ollama）與伺服器端（vLLM）快速部署實作。

重塑邊緣運算與開源商業生態的市場趨勢

CyberQ 認為，Gemma 4 的問世，可說是能處理目前 AI 市場的幾個核心問題，並預示了未來的發展趨勢。

全面擁抱 Apache 2.0，打破生態系鎖定

有別於過去的 Gemma 版本受限於 Google 的特定使用條款，Gemma 4 這次霸氣切換為對商業極度友善的 Apache 2.0 授權。這意味著企業與開發者可以自由地將其整合進商業產品中，無需擔心後續的版稅或合規風險，為主權 AI（Sovereign AI）與資料在地化提供了最堅實的底座。

邊緣 AI (Edge AI) 的全模態革命

Gemma 4 提供了四款尺寸：E2B（Effective 2B）、E4B（Effective 4B）、26B A4B（MoE 架構）與 31B（Dense 架構）。其中針對行動裝置與物聯網（IoT）設計的 E2B 與 E4B 模型，透過層間嵌入（Per-Layer Embeddings）等技術讓體積變得極小，不但能在本地高效率執行，更原生支援音訊與影片的輸入處理。這將推動真正離線、高隱私的端側 AI 助理普及化，未來的智慧型手機或樹莓派本身即是可用的 AI 載體。

推動 Agentic（自主代理）工作流的標準化

Gemma 4 這次導入了原生的 System Prompt 支援與精準的執行函式呼叫（Function-calling）執行能力。這讓其成為企業構建自動化工作流的引擎，開發者能在本地端穩定輸出 JSON 格式或呼叫外部 API，大幅降低了依賴雲端閉源模型所帶來的Token 稅

Gemma 4 現階段的優缺點

Gemma 4 採用了獨特的混合式注意力機制（交錯使用局部滑動視窗與全域注意力），並結合比例 RoPE (p-RoPE) 技術，達成了效能與記憶體的高效平衡。

優點 (Pros)

夠大的上下文窗口：小型模型（E2B/E4B）具備高達 128K 的上下文，中大型模型（26B/31B）更達到 256K，能輕鬆吞下整本書籍或龐大的專案程式碼，進行跨文件檢索與分析。

屬性	E2B	E4B	31B Dense
參數總數	23 億個有效權杖 (含嵌入為 51 億個)	45 億個有效參數 (含嵌入層為 80 億個)	307 億
圖層	35	42	60
滑動視窗	512 個權杖	512 個權杖	1024 個符記
脈絡長度	128,000 個符記	128,000 個符記	256,000 個權杖
詞彙大小	26.2 萬	26.2 萬	26.2 萬
支援的模態	文字、圖片、音訊	文字、圖片、音訊	文字、圖片
視覺編碼器參數	約 1.5 億	約 1.5 億	~5.5 億
音訊編碼器參數	~3 億	~3 億	沒有音訊

越級的推論與思考能力：全系列皆支援可配置的思考模式（Thinking mode），在面對複雜數學（如 AIME 2026 測試）、程式碼（LiveCodeBench）或邏輯題時，能先在後台進行多步驟深度規劃再作答。

高性價比的 MoE 架構：26B A4B 採用混合專家（MoE）架構，總參數達 252 億，但在推理時僅啟動約 38 億參數（激活 8 個專家 + 1 個共享專家），提供了極高的生成速度與低延遲，完美平衡了高智商與硬體負載。

屬性	26B A4B MoE
參數總數	252 億次
有效參數	38 億
圖層	30
滑動視窗	1024 個符記
脈絡長度	256,000 個權杖
詞彙大小	26.2 萬
專家人數	8 個有效 / 128 個總數和 1 個共用
支援的模態	文字、圖片
視覺編碼器參數	~5.5 億

無損視覺解析：視覺系統不再將圖片強制壓縮或裁切成正方形，而是根據動態長寬比配給軟 Token（最高支援 1120 個 Token），且導入 2D 空間 RoPE，讓模型天生具備極強的空間與圖表感知力。

缺點與限制 (Cons)

極限上下文的 VRAM 門檻：雖然模型支援 256K 的上下文，但要真正吃滿這麼長的文本，其產生的 KV Cache 會消耗極大的顯示卡記憶體（VRAM）。對於一般消費級顯卡而言，若沒有做好量化或長度限制，極易遭遇記憶體耗盡（OOM）的風險。

MoE 架構的記憶體載入限制：26B A4B 雖然推論速度極快，但在初始化載入時仍需具備容納完整 252 億參數權重的實體記憶體空間，對低階設備的 RAM 仍是一大考驗。

參數天花板限制：Gemma 4 最大版本停留在 31B。若企業場景需要極端廣泛的冷門世界知識儲備，對照其他市場上千億級別（100B+）的開源大模型，31B 在絕對的知識廣度上仍存在物理極限。

開發者社群快速部署與因應

在 Reddit 的 r/LocalLLaMA 與 Hugging Face 等開源 AI 社群中，Gemma 4 的發布引起了爆炸性的討論，甚至有開發者以Google 不經意間丟出了現階段最受矚目的開源權重來形容此次發布：

Day-Zero 的完美生態支援：此次最受開發者讚譽的是各大生態系框架的第零天同步支援。發布首日，Ollama、vLLM、llama.cpp 和 Hugging Face Transformers 就已全面相容，開發體驗順利。

多模態 E2B/E4B 讓創客逐步投入測試開發：能直接將語音或圖片丟給只有在樹莓派、Jetson 甚至手機上執行的本地小模型，並迅速得到回覆，讓許多物聯網與邊緣運算開發者感受不錯。

原生 System Prompt 解決痛點：過去使用 Gemma 系列開發時常因為系統指令不穩定而苦惱。開發者大讚導入原生系統角色後，Gemma 4 對話的語氣控制變得極為精準，非常適合用來打造自定義性格的 AI。

CyberQ 實測發現，在複雜邏輯與長文本檢索上，Gemma 4 31B/26B 展現了超越其體積的 Frontier-level 模型實力，在多語言（140+）支援與原生影音處理上，更是對比現有開源競品（如 Qwen 3.5、DeepSeek 等）拿下了差異化的優勢。

Google 官方表格中標示的評估結果，同樣適用於指令微調模型 :

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (無思考)
MMLU Pro	85.2%	82.6%	69.4%	60.0%	67.6%
AIME 2026 no tools	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	940	633	110
GPQA Diamond	84.3%	82.3%	58.6%	43.4%	42.4%
Tau2 (平均值，以 3 為基準)	76.9%	68.2%	42.2%	24.5%	16.2%
HLE no tools	19.5%	8.7%	–	–	–
HLE with search	26.5%	17.2%	–	–	–
BigBench Extra Hard	74.4%	64.8%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	76.6%	67.4%	70.7%
視覺輔助
MMMU Pro	76.9%	73.8%	52.6%	44.2%	49.7%
OmniDocBench 1.5 (平均編輯距離，越低越好)	0.131	0.149	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	28.7%	23.5%	–
音訊
CoVoST	–	–	35.54	33.47	–
FLEURS (越低越好)	–	–	0.08	0.09	–
長篇脈絡資訊
MRCR v2 8 針 128k (平均)	66.4%	44.1%	25.4%	19.1%	13.5%

如何在 Ollama 與 vLLM 中實作部署 Gemma 4

CyberQ 實際部署，在本地或伺服器端執行 Gemma 4 是很方便的。

方法 1：使用 Ollama 進行本地端輕量化部署 (適合個人電腦 / Mac / 筆電 / NAS)

Ollama 透過 GGUF 量化格式，讓我們能用最少的運算資源跑起 Gemma 4，且原生支援多模態輸入。

1、下載與執行確認已安裝最新版 Ollama 後，開啟終端機並輸入指令。可以根據硬體資源選擇適合的尺寸：

適合一般輕薄筆電或邊緣設備，原生支援音訊與影像處理，輸入

ollama run gemma4:e2b

適合配備獨立顯卡的 PC 或 Mac M 系列，輸入

ollama run gemma4:e4b

適合具備 16GB VRAM 以上的設備 (26B MoE 架構，速度與智商的最佳平衡)，輸入

ollama run gemma4:26b

CyberQ 實測 gemma4:26b，這個版本的成績很漂亮（AIME 逼近 31B 旗艦），是優秀的模型。但因為總參數有 26B，經過 4-bit 量化後，大約會吃掉 14GB ~ 15GB 的 VRAM。

CyberQ 測試的 QNAP NAS 有搭載 NVIDIA A2000 顯卡，具備 12GB VRAM，因此也可以在 QNAP 中的 Docker 跑 Ollama 再搭配這個 Gemma4 模型，透過 Open WebUI 也是可以很方便地部署 Gemma4 來跑。

如果你有 18GB 以上或 24GB 以上 VRAM 的設備

也可以下這個指令跑 31B 的

ollama run gemma4:31b

2、多模態圖像指令測試

Gemma 4 支援視覺輸入，可以直接在對話框中附上圖片的本機路徑：

ollama run gemma4:e4b “請詳細描述這張架構圖，並用 JSON 格式輸出其中的伺服器節點 /Users/Name/Desktop/architecture.png”

可以看到 Gemma 4 可以正確辨識圖片的內容，並且針對指令做後續處理和節點資訊用指定的 JSON 格式輸出給我們。

方法 2：使用 vLLM 進行高併發伺服器部署 (適合生產環境)

對於需要高吞吐量與多併發請求的企業級部署，vLLM 是目前的最佳解決方案。它已經原生支援 Gemma 4 的動態視覺解析度與 MoE 架構。

1、安裝或更新 vLLM

pip install -U vllm transformers

2、啟動 OpenAI 相容的 API 伺服器

以下指令以 31B 密集模型為例。CyberQ 建議，為了避免超長文本耗盡伺服器記憶體，請根據你的硬體狀況，使用 –max-model-len 來限制最大 Token 長度。若單卡 VRAM 不足，可使用 –tensor-parallel-size 跨卡分散運算。

vllm serve google/gemma-4-31b-it \
–trust-remote-code \
–max-model-len 32768 \
–tensor-parallel-size 2 \
–port 8000

CyberQ 建議，若追求極致的 TPS (Tokens per second) 推理速度，可將模型替換為 google/gemma-4-26b-a4b-it MoE 版本，能大幅提升企業內部 API 的生成吞吐量。

啟動後，我們就可以使用標準的 OpenAI Python SDK 來呼叫本地端的 Gemma 4，將 base_url 指向 http://localhost:8000/v1，立即將這顆強大的地端模型納入我們的應用專案與工作流中使用。

快來用 Gemma 4 吧

CyberQ 認為，Google Gemma 4 的問世，不僅確立了邊緣多模態 AI 的新標準，更透過 Apache 2.0 授權與強悍的推理模式，將開源模型的實用性拉升到了一個全新層次。

無論我們是想在終端裝置上跑一個智慧語音助手的開發者，還是需要建立極高安全性主權雲的企業，Gemma 4 都絕對是我們專案工具箱中不容錯過的好夥伴喔。

Mac 本機跑模型速度翻倍！Ollama 正式支援 MLX，釋放 Apple Silicon 潛能

ComfyUI v0.18.0 繼續最佳化 VRAM 並全面升級多精度支援

ComfyUI v0.15.0 原生整合 Gemma 3、重構 LTX-Video，引領全模態混合工作流

開箱迷你 AI 超級電腦，ASUS Ascent GX10 (NVIDIA DGX Spark) 搭配 QNAP NAS 擴充可用空間

vLLM-Omni 推出，開源 AI 推論引擎新生態與 Ollama 的定位之爭

突破 LLM 記憶體之牆 ? 解析 GitHub 爆紅神作 TurboQuant+ 與 KV Cache 壓縮革命

NVIDIA DGX Spark 從單機推進至四節點，AI 電腦叢集讓 Agent 基礎設施成形

NVIDIA 全新 KVTC 技術讓大語言模型記憶體用量銳減 20 倍，解析KV Cache 最佳化技術與市場趨勢

llama.cpp 團隊 GGML 正式加入 Hugging Face

你們家的 AI 伺服器在網路上裸奔嗎 ? Cisco 揭露上千台 Ollama LLM 設備曝險門戶洞開

在 QNAP NAS 上使用 OLLAMA 執行 AI 模型基礎教學

利用 QNAP NAS 搭配 NVIDIA GPU算力：部署輕量級 AI 推論應用

標籤: Gemma Gemma 4 Google

Google Gemma 4 開源模型解析，Ollama / vLLM Gemma 4 實作指南

LPDDR4 一年暴漲 7 倍導致樹莓派全線大漲，SBC 創客市場面臨考驗

Cloudflare 推出開源 CMS EmDash 想取代 WordPress，瞄準 AI 時代的網站革命與變現新玩法

為什麼看起來寫得不夠嚴謹的 Claude Code 能創造 25 億美元營收？50 萬行外流原始碼的拆解啟示

LPDDR4 一年暴漲 7 倍導致樹莓派全線大漲，SBC 創客市場面臨考驗

Icewind

相關文章

LPDDR4 一年暴漲 7 倍導致樹莓派全線大漲，SBC 創客市場面臨考驗

Cloudflare 推出開源 CMS EmDash 想取代 WordPress，瞄準 AI 時代的網站革命與變現新玩法

為什麼看起來寫得不夠嚴謹的 Claude Code 能創造 25 億美元營收？50 萬行外流原始碼的拆解啟示

測試純 HDD ZFS 的效能極限，Toshiba 1.44 PB 高密度儲存實測報告解析

OpenAI 狂募 1,220 億美元！估值破 8,520 億美元，宣告 AI 超級 App 戰略

Mac 本機跑模型速度翻倍！Ollama 正式支援 MLX，釋放 Apple Silicon 潛能

推薦閱讀