OpenAI 正式於官網發表專為複雜專業工作打造的旗艦級模型,ChatGPT 平台上部署最新的 GPT-5.4 以及效能全開的 GPT-5.4 Pro。實測上,我們過去看更早版本的 AI 是坐在螢幕後方給你建議的顧問,GPT-5.4 這次則繼續進化為能夠親自幫你鍵入指令的全能數位員工,GPT-5.4 可說是第一個內建原生電腦操作能力能力的主流模型(the first mainline model with built-in computer-use capabilities)。
GPT-5.4 的三大核心技術突破
根據 OpenAI 官方公告的資料與內容,CyberQ 也進行了測試,認為 GPT-5.4 這次的升級完全針對真實世界的專業工作流而來,目前可用方案如下:
| 方案 | GPT-5.4 | GPT-5.4 Pro |
|---|---|---|
| Free | 部分自動路由 | ❌ |
| Plus | ✅(Thinking) | ❌ |
| Team | ✅ | ❌ |
| Pro | ✅ | ✅ |
| Enterprise | ✅ | ✅ |
原生接管電腦能力 (Native Computer-Use)
這是 GPT-5.4 相對較顯著的突破。繼生成文字或程式碼的持續進步後,GPT-5.4 在看懂螢幕截圖的功能更強,還能辨識 UI 介面,並自主發出滑鼠點擊與鍵盤輸入指令。這代表你可以直接指派 AI 去操作各種企業軟體、網頁,徹底實現了跨應用程式的自動化作業。
100 萬 Token 的超大上下文視窗 (1M Context Window)
在 Codex 平台與 API 開發環境中,GPT-5.4 實驗性地支援高達 105 萬 Token 的輸入範圍。開發者可以直接將大量文獻資料、幾十本財報或複雜的程式碼庫一次丟給它處理,讓 AI 進行全局深度的關聯分析與除錯
智慧工具搜尋 (Scalable Tool Search) 大幅降低成本
透過全新的工具搜尋架構,代理 AI 在調用龐大的外部 API 或工具庫時,能精準只抓取需要的定義。實測資料顯示,這能在維持準確率不變的前提下,大幅減少 47% 的 Token 消耗,為企業省下可觀的運算成本。
測試在多項指標中超越人類專家
GPT-5.4 的官方定位是針對複雜專業工作最強大且最高效的先進 AI 模型,而它交出的 Benchmark(基準測試)成績單確實證明了它在專業領域的能力。
OSWorld-Verified(真實電腦操作測試)75.0%
這是一項評估 AI 在真實桌面環境中導航與操作軟體能力的嚴苛指標。OSWorld 是評估 AI 代理在真實電腦作業系統中完成任務的權威測試。在該測試的學術標準中,一般人類測試者的平均基準線(Human Baseline)為 72.4%,而 GPT-5.4 以 75.0% 的破紀錄成績首度超越了人類!因此,這次官方的數字,代表 AI 在這項代客操作電腦的實測指標上,確實首度超越了人類的平均水準,OpenAI 試圖證明其代客操作已達商用等級。
GDPval(專業職場能力)83.0%
而這項測試涵蓋了推動美國 GDP 核心的多種真實世界高薪職業。在 GDPval 測試中,GPT-5.4 在與人類產業專家的盲測對決,有 83.0% 的機率追平或擊敗人類專家(前代 GPT-5.2 僅為 70.9%)。
財務建模與試算表分析 87.3%
在針對投資銀行初階分析師等級的內部 Excel 建模測試中,GPT-5.4 拿下了 87.3% 的驚人高分(遠超前代的 68.4%)。
SWE-Bench Pro(軟體工程)57.7%
在複雜的開源軟體除錯挑戰中,超越了先前專注於程式開發的專用模型 GPT-5.3-Codex。
從 GPT-5.4 看 2026 年 AI 市場三大趨勢
GPT-5.4 的規格、微軟 Azure AI Foundry 的深度整合以及定價策略,清楚勾勒出了 2026 年 AI 產業的發展軌跡。
從生成式 AI (Generative AI) 全面走向代理型 AI (Agentic AI)
市場需求已經明確轉向。除了寫 Email 草稿,製作簡報和整理會議紀錄外,現在已經能要求 AI 幫我登入 CRM 系統抓出未結案客戶,分析原因後自動發送 Email 並更新 Excel 報表。GPT-5.4 的電腦操作能力,讓 2026 年的 AI 跨出對話框,成為能獨立完成多步驟任務的自動化勞動力。
可控性 (Steerability) 與企業級部署為優先
當 AI 有能力直接控制你的電腦滑鼠時,安全與治理就成為了首要考量。OpenAI 這次特別強調了中途可控性,允許用戶在 AI 思考途中介入調整,並允許企業設定符合自身風險容忍度的自訂確認策略。未來的 AI 導入,將以可靠執行與資料安全為絕對導向。
高階專業市場的價格分層戰
CyberQ 認為,面對激烈的市場競爭,OpenAI 這次打出了極具侵略性的定價。GPT-5.4 的 API 價格為每百萬輸入 Token $2.50 美元 / 輸出 $15.00 美元(快取輸入更低至 $0.25),主打高頻率的企業自動化。
該公司還推出了定價更貴的 GPT-5.4 Pro(輸入 $30 / 輸出 $180),專攻需要極致分析深度的科學研究與決策。AI 大廠的戰場已精準轉向依據ROI 投資報酬率進行分段收費。
CyberQ 測試目前三大主流市場模型的能力以及檢視其價格競爭力,確實現階段已逐步有了更明確的界線,我們會在不同的工作流選用適合的模型,預算夠的話都用會比較有彈性。目前 1M context 已經變成新標準。 幾乎所有 frontier model 都有達到,這在前二年的 AI 發展期是沒辦法想像的事。
| 模型 | Context | Max Output | 主要定位 |
|---|---|---|---|
| GPT-5.4 | 1M tokens | 128K | 通用 agent + reasoning |
| Claude Opus 4.6 | 1M tokens | 128K | coding / complex planning |
| Gemini 3.1 Pro | 1M tokens | 64K | multimodal + cost efficiency |
以程式開發能力來說,Claude 還是比較多工程師偏愛,但是呢,在這次 GPT-5.4 的官方與新聞稿中,OpenAI 刻意避開了傳統的跑分,而是改採難度更高、專注於長線代理任務的 SWE-Bench Pro 作為官方宣傳指標。 GPT-5.4 成績 57.7% 比前代特化模型 (GPT-5.3-Codex) 的 56.8% 、前代通用模型 (GPT-5.2) 55.6% 都高。雖然 57.7% 看似不高,但在這個極度困難的測試中,GPT-5.4 成功擊敗了 OpenAI 之前專門為了寫程式而打造的 GPT-5.3-Codex,我們就不再需要糾結要選通用模型還是寫碼模型,GPT-5.4 已經將兩者的最強能力合而為一。 此外,官方強調 GPT-5.4 在維持高勝率的同時,處理程式碼的延遲更低(在 Codex 中開啟 /fast 模式可提速 1.5 倍)。
如果是用產業界過去一年最常使用的傳統標準 SWE-Bench Verified 來看,OpenAI 官方這次其實技術性省略了這個數字,這個數字在 Reddit 和 Hacker News 等開發者論壇引起了熱烈討論。許多工程師指出,OpenAI 這次之所以在官方文件中略過傳統的 SWE-Bench Verified,是因為在這個項目上,GPT-5.4 (77.2%) 依然微幅落後給 Anthropic 最新推出的 Claude Opus 4.6 (79.2%)。
雖然在純粹的學術榜上(Verified 榜單),它與宿敵 Claude Opus 4.6 互有勝負。但 GPT-5.4 真正的殺手鐧在於它結合了這次解鎖的原生電腦操作與視覺辨識。它可以自己寫出網頁或 App 程式碼,然後親自打開測試環境、用 AI 的眼睛看畫面有沒有跑版、並自己點擊滑鼠進行 UI 的動態除錯 (Visual Debugging)。這種全端代理的實戰能力,是目前 SWE-Bench 分數無法完全反映出來的優勢。
至於使用成本方面,CyberQ 認為確實還是 Gemini 最便宜,適合大量快速迭代使用 :
| 模型 | Input | Output |
|---|---|---|
| Gemini 3.1 Pro | $2 / 1M | $12 |
| GPT-5.4 | $2.5 / 1M | $20 |
| Claude Opus 4.6 | $5 / 1M | $25 |
準備好迎接你的全能虛擬員工了嗎?
CyberQ 觀察,GPT-5.4 在大語言模型(LLM)的進化還不錯,以很快的速度與實體的數位操作介面融合。預期其他競爭對手也會把這些都一起補上,市場的 AI 代理人、多模態 AI 模型、整合電腦視覺和實際操作軟體的能力會進一步陸續補完,人類可以將更多任務讓 AI 來進行自動化和分擔更多生產力的情形將逐漸普及。
CyberQ 認為,2026 年 LLM 的真正技術瓶頸確實還是推理成本(Inference Cost),原因在於 Frontier 模型普遍 數千億到數兆參數,Context window 已經到 1M tokens ,推理計算量大量成長。CyberQ 在客戶端與 Lab 端的實際應用結果是單次 agent 任務可能花數十到數百次推理,一個 AI workflow 可能消耗數美元。對企業來說,這直接影響 SaaS 產品毛利,以及大規模部署可行性和成本。因此產業中不少人們現在都在研究 MoE(Mixture of Experts)、speculative decoding 、KV cache reuse 、token compression 等方面的技術和實作。
對於開發者和企業經營者而言,當 AI 已經能以 75% 的超人類高水準直接操作你的電腦軟體時,你的企業工作流該如何重新設計?這場生產力革命的下半場,正要進入新的階段了呢。







