CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
  • AI 人工智慧
    • AI 應用實戰
    • AI 代理
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊
聯繫我們
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
  • AI 人工智慧
    • AI 應用實戰
    • AI 代理
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊
沒有結果
觀看所有搜尋結果
CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • 首頁
  • 新聞
  • AI 人工智慧
  • 資安
  • Docker
  • 進階應用
  • 網通
  • NAS
  • 開箱測試
  • 教學
  • 展覽直擊
首頁 進階應用 AI 應用實戰

Ollama 0.31 導入多 Token 預測技術,邊緣端執行 Gemma 4 效能提升近九成

BabyQ by BabyQ
2026 年 07 月 04 日 12:00
in AI 應用實戰, 新聞
閱讀時間: 3 分鐘
A A
Ollama 0.31 導入多 Token 預測技術,邊緣端執行 Gemma 4 效能提升近九成
309
觀看數
分享到臉書分享到 X分享到Line分享到 Threads分享到 Linkedin

邊緣端模型部署社群最近有很不錯的技術突破。開源模型執行框架 Ollama 正式發布 0.31 版本,針對蘋果生態系的晶片架構帶來了前所未有的效能躍進。根據 Ollama 官方技術團隊發布的最新報告指出,在結合了 Apple 開源的 MLX 機器學習框架與全新的「多 Token 預測」(Multi-Token Prediction, MTP)技術後,Gemma 4 系列模型在 Apple Silicon 平台上的開發者代理測試中,平均生成速度大幅提升了將近九成。這項最佳化機制在更新後為預設開啟,且在完全不改變模型原本輸出品質的前提下,為桌上型與筆記型電腦的在地端推理注入了強大動能。

RELATED POSTS

AI 術語百科全書|瀏覽器替代方案彙整|企業 AI 避險策略|產業精選 07.04

閉源與開源模型的差距被高估?從 Reddit 熱議看 AI 外掛開發的隱形實力

【下篇】2026 年全球 NAS 市場成長背後的結構轉變:AI、儲存需求與基礎設施升級

MTP 技術原理解析:多 Token 預測與動態草稿長度

傳統的大型語言模型在解碼時,往往採用單次生成單一 Token 的自迴歸模式,這在許多邊緣端硬體上容易受限於記憶體頻寬。而此次技術更新的核心在於協同運作的三種創新機制,動態調整草稿長度、核心引擎協同作業以及顯示晶片排程效率的提升。

我們其實在之前測試 DS4 實作時,已經成功使用過 MTP 多 Token 預測模型來加速 DeepSeek V4 Flash 大模型的本地端執行效率,在 NVIDIA DGX Spark 上的表現還可以,而 MTP 這樣的技術,在 Ollama 中也採用了。

在執行過程中,系統不再採用單一固定的草稿長度,而是根據特定硬體配置、模型的量化格式以及文本當下的可預測性,進行即時的動態調整。Ollama 會在執行時追蹤草稿的接受率與每次驗證所花費的時間,自動選出能夠產生最高每秒 Token 輸出的最佳長度。當預測接受率降低時,系統會流暢地切換回標準的單一解碼模式,確保推測解碼技術不會在無法提供幫助時拖慢整體速度。此外,多項關鍵算子透過 MLX 的即時編譯功能融合成單一的金屬(Metal)核心,讓顯示晶片的取樣工作更具效率。

本次速度的成長,主要是受惠於 Ollama 0.31 在執行階段的動態最佳化,系統能即時評估軟硬體狀態並動態調整驗證長度,使不適用的文本情境能無縫回退至傳統解碼,免除無謂的算力浪費。

CyberQ 實測:MacBook M5 Air 的地端 AI 效能改善

為了驗證這項官方技術報告的可信度,CyberQ 第一時間採用了配備 24GB 統一記憶體的 MacBook M5 Air 進行深度測試。雖然 Air 機型採用無風扇的散熱設計,但在最新的 Ollama 0.31 框架下執行 Gemma 4 12B 模型,展現出了不錯的在地端 AI 運作實力。

在我們特別設計的程式碼生成專案情境中,如果是在 MacBook Pro 上跑,原本標準解碼模式下的速度約為每秒 31.5 個 Token,而在開啟 MTP 多 Token 預測技術後,速度直接飆升至每秒 58.2 個 Token,效能提升幅度高達 84.8% ,印證了官方報告中所宣稱的效能提升。

如果是輕薄便攜的 Air 系列筆記型電腦,在處理複雜的代理工作流與長文本內容時,也能擁有流暢且實用的回應速度,徹底解決了過往邊緣端執行大型模型時回應遲滯的問題。

以下為 CyberQ 實驗室在 MacBook M5 Air 24GB 設備上針對 Gemma 4 12B 模型的真實測試資料對比:

測試基準情境標準解碼速度 (Plain)MTP 加速速度 (Ollama 0.31)效能實際提升幅度
一般對話與文本續寫 (Text Generation)12.33 tokens/s22.52 tokens/s+82.6%
程式碼生成專案 (Coding Agent)9.73 tokens/s18.92 tokens/s+94.5%

在相對增幅方面,多 Token 預測技術在程式碼生成情境下寫下了高達百分之九十四點五的成長率,甚至超越了文本續寫的表現。這強力證實了 Ollama 官方的技術理論:程式碼高度規律的語法結構與特徵,確實能大幅提升內建草稿模型的預測命中率,讓主模型省去大量重複驗證的時間。

然而在絕對速度方面,這台筆電呢,程式碼生成的每秒 18.92 個 Token 確實低於預期。這種成長率極高、絕對速度卻卡住的現象,核心問題在於邊緣端硬體的物理天花板。MacBook Air 所搭載的晶片在記憶體頻寬上,與官方測試所使用的 Max 等級頂級晶片有著不可逾越的硬體差距。由於大型語言模型在解碼生成階段屬於極度依賴記憶體頻寬(Memory Bandwidth Bound)的任務,當 Gemma 4 12B 模型龐大的權重在頻寬較窄的 Air 統一記憶體中循環讀取時,硬體極限就直接鎖死了絕對速度的上限。

Ollama 0.31 的全新架構確實發揮了如同魔法般的底層最佳化效益,成功將原本在 Air 上執行起來極為吃力、每秒不到 10 個 Token 且近乎不可用的 12B 程式碼生成任務,直接翻倍催化到每秒接近 20 個 Token 的流暢實用門檻。軟體層面的推測解碼完全兌現了它的技術承諾,只是它依然得在無風扇輕薄筆電的硬體物理限制內就會比較慢了,如果你是需要更好效能的開發者,沒有地端 AI 伺服器的情況下,購買記憶體夠大又快的 MacBook Pro 絕對是最佳選擇。

展望 Mac 平台的地端生成

CyberQ 認為,從本次 Ollama 0.31 的更新可以看出,AI 軟體底層框架與硬體原生驅動的深度融合,正在加速將前沿技術落地到使用者的日常設備中。

大廠 Google 開源的 Gemma 4 模型家族憑藉著優異的推理與堪用的程式開發能力,搭配上 Apple MLX 框架對統一記憶體架構的處理,讓在地端執行 AI 代理不再是高階工作站的專利。這項更新為需要高隱私度、零 API 成本以及離線執行的企業與開發者,提供了具競爭力的便宜最佳化方案。

詳細資料可以再參考這份 Ollama 官方效能指標說明:Ollama’s highest performance on Apple Silicon yet with MLX

部署 Hermes Agent 實戰,24 小時不間斷的地端自動化 AI 助理
100GbE NFS over RDMA 實戰,直連 DGX Spark 執行 DS4 大型模型突破 AI 推理儲存瓶頸
Mac Apple Silicon 專屬的本地 AI 選型與採購指南
Mac 本機跑模型速度翻倍!Ollama 正式支援 MLX,釋放 Apple Silicon 潛能
oMLX 本地大語言模型伺服器 MacOS 平台地端 LLM 部署實作
NVIDIA N1X 晶片與 2026 Computex 的 Agentic AI PC 革命
解放 Gemma 4 31B 潛力!破解版地端 AI 無審查模型 CRACK 解析與部署實作建議
榨乾 16GB VRAM!算力與應用完美分離的個人 AI 工作站建置教學
標籤: Apple MLX frameworkGemma 4MacBook AirMacBook PromacOSMLXMTPOLLAMA地端AI
Share4Tweet2ShareShareShare1
上一篇

AI 術語百科全書|瀏覽器替代方案彙整|企業 AI 避險策略|產業精選 07.04

BabyQ

BabyQ

IT 工程師,專長是資訊系統管理、企業 AI Infra、雲端服務,協助客戶解決問題。 Switch 轉 Steam 新手用戶,夢想是看極光、大堡礁、冰山、熔岩等地球美景。

相關文章

AI 術語百科全書|瀏覽器替代方案彙整|企業 AI 避險策略|產業精選 07.04
新聞

AI 術語百科全書|瀏覽器替代方案彙整|企業 AI 避險策略|產業精選 07.04

2026 年 7 月 4 日
閉源與開源模型的差距被高估?從 Reddit 熱議看 AI 外掛開發的隱形實力
AI 人工智慧

閉源與開源模型的差距被高估?從 Reddit 熱議看 AI 外掛開發的隱形實力

2026 年 7 月 3 日
【下篇】2026 年全球 NAS 市場成長背後的結構轉變:AI、儲存需求與基礎設施升級
NAS

【下篇】2026 年全球 NAS 市場成長背後的結構轉變:AI、儲存需求與基礎設施升級

2026 年 7 月 3 日
新聞

AI進展不如預期、太空軍事競賽升溫|產業精選 07.03

2026 年 7 月 3 日
AI 裁員決策大轉彎 ? 部分公司重新招募人類員工
AI 人工智慧

AI 裁員決策大轉彎 ? 部分公司重新招募人類員工

2026 年 7 月 2 日
新聞

Spoons上市首日飆漲40%|Anthropic 恢復全球最強 AI Claude Fable 5 使用|產業精選 07.02

2026 年 7 月 2 日

推薦閱讀

Ollama 0.31 導入多 Token 預測技術,邊緣端執行 Gemma 4 效能提升近九成

Ollama 0.31 導入多 Token 預測技術,邊緣端執行 Gemma 4 效能提升近九成

2026 年 7 月 4 日
AI 術語百科全書|瀏覽器替代方案彙整|企業 AI 避險策略|產業精選 07.04

AI 術語百科全書|瀏覽器替代方案彙整|企業 AI 避險策略|產業精選 07.04

2026 年 7 月 4 日
閉源與開源模型的差距被高估?從 Reddit 熱議看 AI 外掛開發的隱形實力

閉源與開源模型的差距被高估?從 Reddit 熱議看 AI 外掛開發的隱形實力

2026 年 7 月 3 日
【下篇】2026 年全球 NAS 市場成長背後的結構轉變:AI、儲存需求與基礎設施升級

【下篇】2026 年全球 NAS 市場成長背後的結構轉變:AI、儲存需求與基礎設施升級

2026 年 7 月 3 日
【中篇】開放架構的真正價值:從資料儲存走向 AI 與智慧家庭中樞

【中篇】開放架構的真正價值:從資料儲存走向 AI 與智慧家庭中樞

2026 年 7 月 3 日

近期熱門

  • 母公司喊安、子公司爆外洩?PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗

    母公司喊安、子公司爆外洩?PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗

    189 shares
    Share 76 Tweet 47
  • 部署 Hermes Agent 實戰,24 小時不間斷的地端自動化 AI 助理

    164 shares
    Share 66 Tweet 41
  • 美國政府同意重新開放 Anthropic 新模型部署於關鍵基礎設施,三大 AI 大廠次世代模型管制與延期內幕

    231 shares
    Share 92 Tweet 58
  • 100GbE NFS over RDMA 實戰,直連 DGX Spark 執行 DS4 大型模型突破 AI 推理儲存瓶頸

    156 shares
    Share 62 Tweet 39
  • Google AI 人才大撤退:OpenAI 與 Anthropic 正在重塑下一代模型版圖

    151 shares
    Share 60 Tweet 38
  • GitHub 趨勢周報 Vol.21:本機優先專案與 AI 代理安全防線的演進

    141 shares
    Share 56 Tweet 35
  • AI 裁員決策大轉彎 ? 部分公司重新招募人類員工

    124 shares
    Share 50 Tweet 31
  • Anthropic 低價 Sonnet 5 衝刺 IPO,美政府亦解除對Fable 5 和 Mythos 5 的出口管制|產業精選 07.01

    121 shares
    Share 48 Tweet 30
  • Gemini 個人化影像生成免費|DeepSeek DSpark 開源加速推論|Claude Code 需關注供應鏈攻擊|產業精選 06.30 上

    119 shares
    Share 48 Tweet 30
  • 別再開 Port 裸奔!用 Tailscale + QNAP 打造免網管的跨國 10GbE 影音協作圈

    119 shares
    Share 48 Tweet 30

關於 CyberQ 賽博客

CyberQ 賽博客網站的命名正是 Cyber + Q ,是賽博網路、資訊、共識 / 高可用叢集、量子科技與品質的綜合體。

我們專注於企業級網路與儲存環境建構、NAS 系統整合、資安解決方案與 AI 應用顧問服務。透過以下三大面向的「Q」核心元素,我們為您提供從基礎架構到資料智慧的雙引擎驅動力:

Quorum 與 Quantum-safe

在技術架構上,是基於信任的基礎架構,CyberQ 深入掌握分散式系統中的 Quorum(一致性)、Queue(任務調度) 與 QoS(服務品質),以 Quick(效率) 解決複雜的 IT 與資安問題。同時,我們積極投入 Quantum-safe(後量子密碼學) 等新興資安領域,確保企業基礎設施在未來運算時代具備堅不可摧的長期競爭力。

Query 與 Quotient

CyberQ 是協助企業成長的 AI 引擎,在堅韌的架構之上,我們透過 Query(洞察) 解析大量資料,並以 Quotient(提升企業科技智商) 的顧問服務,將 AI 導入本機端環境與自動化工作流程中,將資料轉化為企業最具價值的數位資產。

Quest與 Quantum Leap

專業媒體與技術顧問是我們的核心雙動能。

作為科技媒體,我們秉持駭客精神持續進行科技 Quest(探索),探索海內外產業動態。

作為顧問團隊,我們結合多年第一線實務經驗,提供量身打造的最佳化解決方案,協助企業完成數位轉型的 Quantum Leap(躍進)。

新聞稿、採訪、授權、內容投訴、行銷合作、投稿刊登:[email protected]
廣告委刊、展覽會議、系統整合、資安顧問、業務提攜:[email protected]

Copyright ©2026 CyberQ.tw All Rights Reserved.

沒有結果
觀看所有搜尋結果
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
  • AI 人工智慧
    • AI 應用實戰
    • AI 代理
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊

© 2025 CyberQ NAS、資安、資訊科技、AI應用的日常 關於 CyberQ 賽博客 NAS 系統與電腦、手機一起的生活故事 多年的系統整合與資訊安全經驗,協助智慧家居、小型工作室、辦公室與機構,導入更便利、更安全的資訊環境與應用。