Qwen3.6-27B 開源模型登場，本地端 Agentic Coding 神器？

在 AI 業界正追求龐大參數與混合專家 (MoE) 架構的同時，阿里巴巴通義實驗室 (Qwen Team) 這次釋出的全新的開源模型 Qwen3.6-27B 受到了業界高度關注。這是一款擁有 270 億參數的稠密模型 (Dense Model)，並主打頂尖的代理程式開發 (Agentic Coding) 能力。

根據 Qwen 官方部落格的最新發布，這款僅有 27B 參數的模型，在多項程式開發指標上，竟然全面擊敗了自家總參數高達 3,970 億的前代旗艦 MoE 模型 Qwen3.5-397B-A17B。CyberQ 實測部署了這款模型，並參考官方基準測試資料，以及實際應用來看它之後的潛力。

捨棄 MoE，回歸稠密的實用主義

官方強調，這次的開發不受刷跑分 (benchmark optimization)驅動，而是建立在開發者社群真實的回饋之上，專注於穩定性與真實世界的實用性。為了讓開發者更容易部署，Qwen3.6-27B 移除了 MoE 的路由複雜度，回歸全稠密 (Fully Dense) 架構，並帶來了幾項重大創新：

混合注意力架構 (Hybrid Architecture)

模型結合了 Gated DeltaNet 線性注意力機制與傳統的自注意力 (Self-attention)。這種混合設計不僅提升了生成效率，更原生支援高達 262,144 個 Token（可擴展至 100 萬）的超大上下文視窗。

思維保留機制 (Thinking Preservation)

這是一項專為 AI Agent 開發打造的全新機制。透過 API 中的 preserve_thinking 功能，模型能夠在多輪對話歷史中，保留先前的思考與推理脈絡。這能大幅減少反覆迭代與多步驟除錯時的運算開銷。

代理程式開發升級 (Agentic Coding)

模型針對前端工作流程與儲存庫級別 (Repository-level) 的推理進行了大幅最佳化，能深入理解大型程式碼庫、進行跨檔案導航與產生可執行的輸出。

原生多模態 (Natively Multimodal)

在單一模型權重下支援視覺與語言，處理圖片與影片，並允許在思考模式 (Thinking mode)與非思考模式 (Non-thinking mode)之間切換。

官方測試小蝦米戰勝大鯨魚

根據官方提供的測試資料，Qwen3.6-27B 效能超越了體積是其約 15 倍的前代開源旗艦模型 Qwen3.5-397B-A17B (397B 總參數 / 17B 活躍參數)：

SWE-bench Verified: 77.2 (勝過 397B 模型的 76.2)

SWE-bench Pro: 53.5 (勝過 397B 模型的 50.9)

Terminal-Bench 2.0: 59.3 (勝過 397B 模型的 52.5)

SkillsBench: 48.2 (大幅超越 397B 模型的 30.0)

此外，在涵蓋多種類別的內部中英雙語前端基準測試 QwenWebBench 中，它獲得了1487 分（對照千問的上一代 27B 模型僅 1068 分），在進階邏輯推理測試 GPQA Diamond 中，亦取得 87.8 的優異成績，實力已逐步接近幾倍大的頂級 AI 模型。

實機測試感想

官方跑分固然亮眼，但它在本地端 (Local) 的真實表現如何？ CyberQ 用個人電腦與 AI 工作站測試，讓模型權重檔案放在 QNAP NAS 的 NFS 上，本機和 NVIDIA DGX Spark 都可以來讀取，它在本機端具備不錯的執行流暢度。透過 llama-server 載入約 16.8GB 的 Unsloth Q4_K_M 量化版本是可行的。

另外，實際測試中，它也可以整合到流行的第三方程式設計助手中，比方說熱門的龍蝦 OpenClaw、Hermes Agent、OpenCode等等。

Qwen API 也支援 Anthropic API 協議，所以可以這樣整合進去 :

# Install Claude Code
npm install -g @anthropic-ai/claude-code

# Configure environment
export ANTHROPIC_MODEL="qwen3.6-27b"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"
export ANTHROPIC_BASE_URL=https://dashscope.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>

# Launch the CLI
claude

CyberQ 指出，這款模型的硬體門檻相對不會太高，進行初次執行時，把約 17GB 的模型快取至本地，對於具備足夠記憶體的電腦或工作站來說是好部署的。

從 llama-server 測試，讀取速度達 53 tokens/s，生成測試約為 25 tokens/s。繪圖與空間推理品質也不錯，對於一個 16.8GB 的本地模型來說已經很不簡單了。

開源部署資訊

Qwen3.6-27B 的出現是件好事，實務上確實我們在本機跑不動動輒上千億參數的模型，但只要架構創新，比方說捨棄 MoE 帶來的複雜度，加上預訓練用的資料品質優秀，27B 的稠密模型也能成為強大的本機端程式 AI Agent，搭配 AI 代理人會是好用的。

該模型採用 Apache 2.0 授權，完全免費且可用於商業用途。阿里巴巴通義官方目前已於 Hugging Face 上釋出 Qwen3.6-27B 標準的 BF16 權重與精細的 FP8 量化版本，且已能相容於 vLLM (>=0.19.0)、SGLang、KTransformers 等主流 AI 生態工具。

另外，這款模型也支援在 Ollama 上跑，並且能在 16GB VRAM 的顯示卡上使用，但會觸發系統的記憶體分載（Offloading）機制，建議是要用更大的卡來跑比較好。

針對 16GB VRAM ，要留意記憶體佔用與 CPU 分載 (Offloading) 機制，這是因為 Ollama 預設會拉取 4-bit 量化版本 (如 Q4_K_M)。27B 模型的 4-bit 權重體積大約落在 15GB 到 16GB 之間。當加上推論所需的上下文快取（KV Cache）後，總記憶體需求通常會來到 17GB 到 18GB 左右。在 16GB VRAM 的環境下，Ollama 不會報錯崩潰，而是會自動將無法塞入顯存的模型層溢出，分載到系統記憶體 (System RAM) 交由 CPU 運算，速度就會變慢了。

對 Agent 框架長文本執行的影響方面，在執行 OpenClaw 或 Claude Code 這類自主 AI Agent 框架時，由於需要不斷讀取專案檔案或分析程式碼，上下文長度會迅速攀升。這會導致 KV Cache 膨脹，迫使更多模型層被擠出 VRAM。雖然模型依然能給出高品質的推理結果，但生成速度會因為頻繁的 VRAM 與系統 RAM 資料交換而出現明顯下降。

在儲存與載入架構上，若你的電腦只有 16GB VRAM 的險卡，這台主機是跑在 PVE 虛擬化環境，並搭配高速網路連接至 QNAP NAS 的 ZFS 儲存池，模型初次載入至系統記憶體的速度會非常優異。若要進一步突破推論速度的瓶頸，CyberQ 建議可以選擇手動降級量化，改為拉取 qwen3.6:27b-q3_K_M（3-bit 量化版本），權重體積會降至約 12GB 左右，保留充足的 VRAM 空間給 Agent 的長文本快取使用。

但是呢，如果你手邊的 Apple Silicon 設備如 M5 Mac Mini、M5 MacBook Pro 擁有較大的統一記憶體（例如 32GB 或 64GB），利用其架構來跑這類 27B 模型，在執行長文本任務時的整體流暢度，有時反而會優於受限於 16GB VRAM 的獨立顯卡。

想要更快可以採用 vLLM 多卡叢集，手邊資源夠或有擴充的計畫，可考慮切換至 vLLM 進行張量平行（Tensor Parallelism）部署，可解決單卡 VRAM 的限制並最大化吞吐量。

CyberQ 建議，如果你正在尋找一款能在個人電腦上流暢運作，卻想要能夠擁有稍微接近旗艦級 Agentic Coding 能力的 AI 助手來省日常工作用的 token ，Qwen3.6-27B 是目前最值得嘗試的選擇。

你的電腦跑得動本地 AI 嗎？CanIRun.ai一鍵硬體檢測神器解析與效能解密

榨乾 16GB VRAM！算力與應用完美分離的個人 AI 工作站建置教學

解放 Gemma 4 31B 潛力！破解版地端 AI 無審查模型 CRACK 解析與部署實作建議

利用 OpenCode 搭配 DGX Spark 與 QNAP NAS 打造企業級私有化 AI 開發大腦

Google Gemma 4 開源模型解析，Ollama / vLLM Gemma 4 實作指南

Qwen3.6-27B 開源模型登場，本地端 Agentic Coding 神器？

SpaceX 砸 600 億美元震撼結盟 Cursor？馬斯克為史上最大 IPO 圈錢佈局

實測OpenAI ChatGPT Images 2.0，在 AI Arena 狂甩對手 242 分！

NVIDIA 釋出佛心大禮包？免費用 1 年頂級 AI 模型 API 解析與教學

SpaceX 砸 600 億美元震撼結盟 Cursor？馬斯克為史上最大 IPO 圈錢佈局

Chen Glenn

相關文章

SpaceX 砸 600 億美元震撼結盟 Cursor？馬斯克為史上最大 IPO 圈錢佈局

實測OpenAI ChatGPT Images 2.0，在 AI Arena 狂甩對手 242 分！

NVIDIA 釋出佛心大禮包？免費用 1 年頂級 AI 模型 API 解析與教學

GitHub 趨勢周報 Vol.11：AI 代理群體作戰時代加碼

從 DigitalOcean 到 Hetzner 每月狂省 83%？下雲會是一個趨勢嗎？

Anthropic 推出 Claude Design 迎戰 Figma！AI 設計的同質化與未來

推薦閱讀