Mac 本機跑模型速度翻倍！Ollama 正式支援 MLX，釋放 Apple Silicon 潛能

對於廣大的 Mac 開發者與本地端 AI 玩家來說，這可是近期很讓令人開心振奮的消息，知名開源本地 AI 執行工具 Ollama 近日在 X (原 Twitter) 上發布了一則熱門推文，宣佈在最新釋出的 Ollama 0.19 預覽版中，正式將 Apple 專屬的機器學習框架 MLX 納入底層支援。

Ollama is now updated to run the fastest on Apple silicon, powered by MLX, Apple's machine learning framework.

This change unlocks much faster performance to accelerate demanding work on macOS:

– Personal assistants like OpenClaw
– Coding agents like Claude Code, OpenCode,… pic.twitter.com/WImO0lyYnp
— ollama (@ollama) March 31, 2026

這項底層架構的重大革新，意味著 Mac 終於能徹底解除封印，發揮 Apple Silicon統一記憶體（Unified Memory）的極致優勢。究竟這次升級帶來了怎樣的效能躍進呢？ CyberQ 解析這些核心的重點。

支援 MLX 讓 M5 晶片的神經加速器大顯神威

過去，在 Mac 上執行大語言模型（LLM）多半仰賴 llama.cpp 等泛用框架，雖然相容性極佳，但在面對 Mac 獨特的硬體架構時，往往難以榨乾 100% 的效能。

為了解決這個問題，Ollama 0.19 預覽版直接建構於 Apple 開源的 MLX 框架之上。這讓 CPU 與 GPU 得以實現零拷貝共享同一塊記憶體池，徹底消除資料傳輸的延遲。更驚人的是，在最新的 M5、M5 Pro 與 M5 Max 晶片上，Ollama 能直接調用全新的GPU 神經網路加速器（Neural Accelerators），讓首字元生成（TTFT）與解碼速度獲得有體感的加速。

實測資料公開，解碼速度近乎翻倍！

效能到底提升了多少？官方以阿里巴巴最新開源的 Qwen3.5-35B-A3B 模型進行了嚴格的基準測試（對比 0.18 版與 0.19 MLX 預覽版）：

預填充（Prefill / 提示詞處理速度），從 1,154 tokens/s 狂飆至 1,810 tokens/s（提升約 1.56 倍）。

解碼（Decode / 內容生成速度），從 58 tokens/s 躍升至 112 tokens/s（提升高達 93%，幾乎翻倍！）。

官方更預告，若改用 int4 精度量化，預填充速度甚至可上看 1,851 tokens/s，解碼速度達 134 tokens/s。這樣的表現，讓過去需要稍微等待模型思考的空窗期幾乎被抹平，真正實現了隨問隨答的體驗。

導入 NVFP4 格式與專為 AI Agent 打造的智慧快取

除了速度提升，這次更新還帶來了針對進階開發者與自動化代理（Agentic Workflows）的深度最佳化：

支援 NVIDIA NVFP4 量化格式是一大好處，Ollama 導入了 NVFP4 格式支援，能在極限壓縮記憶體頻寬與儲存空間的同時，維持與未壓縮前幾乎無異的模型準確度。這代表開發者在本地 Mac 上，就能獲得與雲端企業級生產環境對齊的輸出品質。

升級版智慧快取（Intelligent Caching），不少用戶常結合 Claude Code、OpenCode 或個人助理 OpenClaw 執行複雜的自動化任務。Ollama 為此徹底最佳化了記憶體管理：

跨對話快取重用（Reuse Cache），當使用共用的系統提示詞（System Prompts）時，能大幅提高快取命中率並降低整體記憶體佔用。

智慧檢查點（Intelligent checkpoints），在 Prompt 的關鍵節點自動儲存快照，當 Agent 進行思考任務分支時，可省去重複處理提詞的時間。

更聰明的清除機制（Smarter eviction），即使舊的對話分支被刪除，共用的上下文前綴也能保留更久，非常適合長時間的寫程式輔助。

硬體門檻與社群實測建議（32GB 記憶體起跳）

雖然這次更新很香，但是呢，要享受良好的本地 AI 體驗也是有硬體門檻的。

Ollama 官方強烈建議：您的 Mac 必須具備至少32GB 以上的統一記憶體。根據 Reddit (r/LocalLLaMA) 科技社群玩家的早期實測，35B 級別的模型載入後大約會吃掉 20GB 的 RAM，剩下約 12GB 留給 KV Cache 運作。

如果你只是進行一般長度的專案對話，32GB 綽綽有餘，但若要處理超長文本，或把 Ollama 作為複雜 Agent 框架的後端，很容易就會觸碰到記憶體天花板並動用到虛擬記憶體（Swap）導致降速。因此，對於重度 AI 開發者來說，配備 48GB 甚至 64GB 記憶體的機型將會是更游刃有餘的完美選擇。

即刻搶先體驗本地 AI 革命

CyberQ 認為，Ollama + Apple MLX ，造福更多本地端 AI 生態系的用戶，繼續讓 Mac 能擔任 AI 開發者設備的好選擇。現在，你只需靠一台高階 Mac，就能擁有媲美雲端 AI 的生成速度，且完全不需擔心商業機密或隱私外洩的風險。

如果你手邊正好有一台規格達標的 Apple Silicon Mac，別猶豫了！立刻下載最新的 Ollama 0.19 預覽版，打開終端機輸入以下指令啟動專為寫程式優化的 35B 模型並與之對話，或搭配 Claude Code 等工具於背景啟動：

ollama run qwen3.5:35b-a3b-coding-nvfp4

ollama launch claude –model qwen3.5:35b-a3b-coding-nvfp4

如果對現有自己在 Mac 上跑本地模型覺得不夠快，可以去更新看看 Ollama，這次搭配 MLX 帶來的本地 AI 是有進步的了。

vLLM-Omni 推出，開源 AI 推論引擎新生態與 Ollama 的定位之爭

你們家的 AI 伺服器在網路上裸奔嗎 ? Cisco 揭露上千台 Ollama LLM 設備曝險門戶洞開

在 QNAP NAS 上使用 OLLAMA 執行 AI 模型基礎教學

ComfyUI v0.15.0 原生整合 Gemma 3、重構 LTX-Video，引領全模態混合工作流

標籤: AI Apple Apple MLX framework M5 OLLAMA

Mac 本機跑模型速度翻倍！Ollama 正式支援 MLX，釋放 Apple Silicon 潛能

Google I/O 2026 重點：Google 把 Gemini 推向代理式 AI 時代，搜尋、工作、開發與商務全面改寫

AI 已經突破科技圈邊界

Google I/O 2026：Gemini 新介面改版，Deep Think 納入可自訂思考程度

Oracle 預計裁員3萬人豪賭 AI 基礎建設

OpenAI 狂募 1,220 億美元！估值破 8,520 億美元，宣告 AI 超級 App 戰略

Icewind

相關文章

Google I/O 2026 重點：Google 把 Gemini 推向代理式 AI 時代，搜尋、工作、開發與商務全面改寫

AI 已經突破科技圈邊界

Google I/O 2026：Gemini 新介面改版，Deep Think 納入可自訂思考程度

馬斯克控告 OpenAI 敗訴 IPO 障礙已清除

GitHub 趨勢周報 Vol.15：AI Agent 技能市集化爆發，個人 AI、研究助理與地端語音模型成為本週開源主軸

Google 前執行長演講遭噓，年輕世代對 AI 反感加劇

OpenAI 狂募 1,220 億美元！估值破 8,520 億美元，宣告 AI 超級 App 戰略

測試純 HDD ZFS 的效能極限，Toshiba 1.44 PB 高密度儲存實測報告解析

推薦閱讀

Google I/O 2026 重點：Google 把 Gemini 推向代理式 AI 時代，搜尋、工作、開發與商務全面改寫

AI 已經突破科技圈邊界

Google I/O 2026：Gemini 新介面改版，Deep Think 納入可自訂思考程度

馬斯克控告 OpenAI 敗訴 IPO 障礙已清除

GitHub 趨勢周報 Vol.15：AI Agent 技能市集化爆發，個人 AI、研究助理與地端語音模型成為本週開源主軸

近期熱門

ds4 實作指引，128GB 記憶體機器搭配 NAS + Ollama 建立可落地的地端推論工作流

透過 AI Skills 最佳化公文與論文流程

GitHub 趨勢周報 Vol.15：AI Agent 技能市集化爆發，個人 AI、研究助理與地端語音模型成為本週開源主軸

買 NAS 不只是備份，QNAP Virtualization Station 如何把 NAS 變成輕量級虛擬化平台

Fragnesia 再揭 Linux 核心提權風險：Dirty Frag 同類攻擊面，低權限使用者可能取得 root

Pwn2Own Berlin 2026 戰況 DEVCORE領先與大廠防護焦點

Nature 最新研究指出國家媒體控制如何影響大型語言模型

馬斯克控告 OpenAI 敗訴 IPO 障礙已清除

Virtualization Station 與其它 VM 的差異

跨點備份免搞網路設定！QNAP QuWAN Express 輕量級 VPN，打造 NAS 異地互聯的無痛救星

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap

Mac 本機跑模型速度翻倍！Ollama 正式支援 MLX，釋放 Apple Silicon 潛能

RELATED POSTS

支援 MLX 讓 M5 晶片的神經加速器大顯神威

實測資料公開，解碼速度近乎翻倍！

導入 NVFP4 格式與專為 AI Agent 打造的智慧快取

硬體門檻與社群實測建議（32GB 記憶體起跳）

即刻搶先體驗本地 AI 革命

Oracle 預計裁員3萬人 豪賭 AI 基礎建設

OpenAI 狂募 1,220 億美元！估值破 8,520 億美元，宣告 AI 超級 App 戰略

相關文章

推薦閱讀

近期熱門

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap

Oracle 預計裁員3萬人豪賭 AI 基礎建設