對於廣大的 Mac 開發者與本地端 AI 玩家來說,這可是近期很讓令人開心振奮的消息,知名開源本地 AI 執行工具 Ollama 近日在 X (原 Twitter) 上發布了一則熱門推文,宣佈在最新釋出的 Ollama 0.19 預覽版中,正式將 Apple 專屬的機器學習框架 MLX 納入底層支援。
這項底層架構的重大革新,意味著 Mac 終於能徹底解除封印,發揮 Apple Silicon統一記憶體(Unified Memory)的極致優勢。究竟這次升級帶來了怎樣的效能躍進呢? CyberQ 解析這些核心的重點。
支援 MLX 讓 M5 晶片的神經加速器大顯神威
過去,在 Mac 上執行大語言模型(LLM)多半仰賴 llama.cpp 等泛用框架,雖然相容性極佳,但在面對 Mac 獨特的硬體架構時,往往難以榨乾 100% 的效能。
為了解決這個問題,Ollama 0.19 預覽版直接建構於 Apple 開源的 MLX 框架之上。這讓 CPU 與 GPU 得以實現零拷貝共享同一塊記憶體池,徹底消除資料傳輸的延遲。更驚人的是,在最新的 M5、M5 Pro 與 M5 Max 晶片上,Ollama 能直接調用全新的GPU 神經網路加速器(Neural Accelerators),讓首字元生成(TTFT)與解碼速度獲得有體感的加速。
實測資料公開,解碼速度近乎翻倍!
效能到底提升了多少?官方以阿里巴巴最新開源的 Qwen3.5-35B-A3B 模型進行了嚴格的基準測試(對比 0.18 版與 0.19 MLX 預覽版):
預填充(Prefill / 提示詞處理速度),從 1,154 tokens/s 狂飆至 1,810 tokens/s(提升約 1.56 倍)。
解碼(Decode / 內容生成速度),從 58 tokens/s 躍升至 112 tokens/s(提升高達 93%,幾乎翻倍!)。
官方更預告,若改用 int4 精度量化,預填充速度甚至可上看 1,851 tokens/s,解碼速度達 134 tokens/s。這樣的表現,讓過去需要稍微等待模型思考的空窗期幾乎被抹平,真正實現了隨問隨答的體驗。
導入 NVFP4 格式與專為 AI Agent 打造的智慧快取
除了速度提升,這次更新還帶來了針對進階開發者與自動化代理(Agentic Workflows)的深度最佳化:
支援 NVIDIA NVFP4 量化格式是一大好處,Ollama 導入了 NVFP4 格式支援,能在極限壓縮記憶體頻寬與儲存空間的同時,維持與未壓縮前幾乎無異的模型準確度。這代表開發者在本地 Mac 上,就能獲得與雲端企業級生產環境對齊的輸出品質。
升級版智慧快取(Intelligent Caching),不少用戶常結合 Claude Code、OpenCode 或個人助理 OpenClaw 執行複雜的自動化任務。Ollama 為此徹底最佳化了記憶體管理:
跨對話快取重用(Reuse Cache),當使用共用的系統提示詞(System Prompts)時,能大幅提高快取命中率並降低整體記憶體佔用。
智慧檢查點(Intelligent checkpoints),在 Prompt 的關鍵節點自動儲存快照,當 Agent 進行思考任務分支時,可省去重複處理提詞的時間。
更聰明的清除機制(Smarter eviction),即使舊的對話分支被刪除,共用的上下文前綴也能保留更久,非常適合長時間的寫程式輔助。
硬體門檻與社群實測建議(32GB 記憶體起跳)
雖然這次更新很香,但是呢,要享受良好的本地 AI 體驗也是有硬體門檻的。
Ollama 官方強烈建議:您的 Mac 必須具備至少32GB 以上的統一記憶體。根據 Reddit (r/LocalLLaMA) 科技社群玩家的早期實測,35B 級別的模型載入後大約會吃掉 20GB 的 RAM,剩下約 12GB 留給 KV Cache 運作。
如果你只是進行一般長度的專案對話,32GB 綽綽有餘,但若要處理超長文本,或把 Ollama 作為複雜 Agent 框架的後端,很容易就會觸碰到記憶體天花板並動用到虛擬記憶體(Swap)導致降速。因此,對於重度 AI 開發者來說,配備 48GB 甚至 64GB 記憶體的機型將會是更游刃有餘的完美選擇。
即刻搶先體驗本地 AI 革命
CyberQ 認為,Ollama + Apple MLX ,造福更多本地端 AI 生態系的用戶,繼續讓 Mac 能擔任 AI 開發者設備的好選擇。現在,你只需靠一台高階 Mac,就能擁有媲美雲端 AI 的生成速度,且完全不需擔心商業機密或隱私外洩的風險。
如果你手邊正好有一台規格達標的 Apple Silicon Mac,別猶豫了!立刻下載最新的 Ollama 0.19 預覽版,打開終端機輸入以下指令啟動專為寫程式優化的 35B 模型並與之對話,或搭配 Claude Code 等工具於背景啟動:
ollama run qwen3.5:35b-a3b-coding-nvfp4
ollama launch claude –model qwen3.5:35b-a3b-coding-nvfp4
如果對現有自己在 Mac 上跑本地模型覺得不夠快,可以去更新看看 Ollama,這次搭配 MLX 帶來的本地 AI 是有進步的了。







