在你的電腦與 NAS 上跑本地端 ChatGPT，OpenAI 釋出開源模型 gpt-oss

OpenAI 終於在 2025 年 8 月釋出首個以 ChatGPT 架構為基礎、可供本地端部署的開源模型 gpt-oss，分成gpt-oss-20b 與 gpt-oss-120b兩個不同參數的版本，前者因為比較小，可以在有 16GB 以上VRAM記憶體顯示卡的電腦執行，或者是統一記憶體容量夠的電腦執行 (NVIDIA新款AI電腦、蘋果 Mx 系列筆電)，為 AI 社群投下一顆震撼彈。

根據 OpenAI 的說法，這兩個模型都採用彈性的 Apache 2.0 授權條款發佈，在推理任務上的表現優於同規模的開源模型，具備強大的工具使用能力，並針對消費級硬體上的高效部署進行了最佳化。它們採用強化學習與結合 OpenAI 最先進內部模型 (包括 o3 及其他尖端系統) 所啟發的技術進行訓練。

OpenAI 還說，gpt-oss-120b 模型在核心推理基準測試中的表現趨近 OpenAI o4-mini，同時可在單一 80GB GPU 上高效運作。gpt-oss-20b 模型在常見基準測試中的表現與 OpenAI o3‑mini 相近，且僅需 16 GB VRAM顯卡記憶體，即可在邊緣裝置上運行，非常適合用於裝置端應用、本地推論，或在無需昂貴基礎設施的情況下進行快速最佳化。(最少要有 16GB 的 NVIDIA 顯示卡，不然會很慢)

上圖是 CyberQ 測試 cpt-gss-20b 在本地端電腦上執行時的資源耗用截圖，GPU 記憶體和運算當然是吃滿的。

另外，這兩款模型在工具使用、少量示範函式調用、思路鏈推理 (可見於 Tau-Bench 智慧體評估套件的結果）以及 HealthBench 測試中表現優異，甚至超越 OpenAI o1 和 GPT‑4o 等部分專有模型。

gpt-oss-20b 與 gpt-oss-120b

這次開源共包含兩個版本的模型：

模型	圖層	總參數量	每個字元啟動參數數量	專家總數	每個字元啟動的專家數量	上下文長度
gpt-oss-120b	36	117b	5.1b	128	4	128K
gpt-oss-20b	24	21b	3.6b	32	4	128K

gpt-oss-120b：總參數1170億，每個token預設啟用約51億參數參與推理。定位為高推理需求的生產型應用，可在單張80GB VRAM 的 H100 GPU上運作。

gpt-oss-20b：總參數210億，每個token啟用36億參數，主打低延遲與本地部署場景，僅需 16GB VRAM 記憶體的顯示卡即可運行，適合邊緣設備或客製化應用。

實際執行 gpt-oss-20b 的效果

我們部署在我們自己電腦上的 OLLAMA 搭配 Open WebUI 中去執行，效果確實不錯，也能製作表格和更多衍生任務。

gpt-oss 的離線版 ChatGPT 模型是採用 Apache 2.0授權，這樣對開發者和社群都是很友善的，允許我們能自由進行研究、修改與商業部署，不用擔心專利風險或copyleft 條款的限制。

gpt-oss 其他主要的功能特點還包含：

針對程式碼任務，可支援函式呼叫、Python程式碼執行、網頁查詢與結構化輸出。

提供完整CoT（思維鏈）推理紀錄，這點是很不錯的。

訓練時導入MXFP4原生量化技術，強化運算效率。

推理資源配置彈性，開發者可依需求去設定高、中、低等級來進行。

下方是我們在 Open WebUI 中管理 Ollama 的模型頁面，下指令 ollama run gpt-oss:20b，用管理模型頁的下載功能去下載 gpt-oss-20b 模型，它的名稱為 gpt-oss:20b。如果是更大版本的模型，名稱為 gpt-oss:120b 。

檔案不大，12.8GB而已，很快就下載完畢。

完成之後會顯示已成功下載。

開啟之後的畫面是這樣，和其他在 Ollama 跑模型的輸入框都是一樣的。

有搭配 NVIDIA 顯示卡後，執行的效率就很快了，問題的回答與反應都很好，以這個 20b 參數的小模型來說，接近之前我們在線上 ChatGPT 官方網站跑 OpenAI o3‑mini 的效果接近，然後實際應用當然是沒有官方最新版的大模型好用，但是呀，這可是開源模型可以在本地端跑的，可以再訓練自己的資料集，以及針對不同任務下，我們去自訂，開發人員和研究人員可以在自己的環境中客製化 AI ，推動新的 AI 工作流程。

對個人來說，日常的問題在不耗費雲端付費 token 的情況下，可以用這個模型來完成一些不需要太深入推論的日常任務，已經是相當好用了，推薦大家部署在具備 NVIDIA顯示卡的機器上，記憶體越多越好，不論是機房內的伺服器、有安裝 NVIDIA 顯示卡的 QNAP NAS (如QAI-h1290FX NAS)，以及家用電腦和工作站都很適合。

資源夠多的機構就可以使用 120b 參數的模型 gpt-oss-120b ，gpt-oss-120b 在競賽編碼 (Codeforces)、一般問題解決 (MMLU 與 HLE) 以及工具調用 (TauBench) 方面的表現優於 OpenAI o3‑mini，並與 OpenAI o4-mini 相當或更佳。此外，它在健康相關查詢 (HealthBench⁠) 及競賽數學 (AIME 2024 與 2025) 上的表現更勝 o4-mini。gpt-oss-20b 雖然規模較小，但在相同測試中與 OpenAI o3‑mini 相當或更佳，甚至在競賽數學與健康領域的表現上超越了 o3‑mini。

功能多樣，支援網頁搜尋與繼續跟進

實務上使用，在 gpt-oss 模型上，同樣可以自動產生跟進的問題和往下延伸。

而只要有先設定好搜尋引擎的 key ，就可以如下方圖片所示，支援網頁搜尋，請先自己去 Google 等搜尋引擎設定好客製化的搜尋引擎 api key ，再把 key 導入於 web-ui 與 ollama 中使用即可，這樣可讓 cht-oss 本地端小模型的能力增加，透過搜尋來強化基本日常任務的處理能力。

私密資料不外流，進階還能處理程式碼、用語音問問題

支援語音搜尋，這樣你在家裡或公司都可以用口說的方式問問題，讓 gpt-oss 回答你。

以在家或辦公室內透過手機來問問題的應用場景來說就很適合。

手機版網頁的界面和跟進問問題的 UI 與回應是友善的 :

而程式碼的編寫與直譯，在 gtp-oss 進行不要太複雜的小型專案，也可以達到可用的程度，但不如 Claude.ai 的程式撰寫功能強大，你可以把它當作一些程式碼在本地端的輔助撰寫工作，困難的問題再拿去給 Claude.ai 去展開也是可行的方式。

以上諸多任務中，使用本地端 LLM 在企業與家中最大的好處是，你所有覺得有個人隱私、公司商業機密的內容，都可以在本地端的電腦或伺服器、NAS 上實現，而不用擔心資料外流的問題，真的有需要上雲處理的，就記得要去識別化個人資訊，避免之前新聞報導過的 ChatGPT 雲端對話紀錄被分享公開、可搜尋到的資安議題。

部署和執行本地端 AI 模型，可以參考我們的方式，使用 gpt-oss 與其它包括微軟 phi4、Google gemma3 等高品質可在地端執行的 LLM 模型，提升你的生產力和個人學習、資料整理等多種日常任務的工作。