OpenAI 推出 GPT-5.4 解鎖原生電腦操作，實測跑分首度擊敗人類

OpenAI 正式於官網發表專為複雜專業工作打造的旗艦級模型，ChatGPT 平台上部署最新的 GPT-5.4 以及效能全開的 GPT-5.4 Pro。實測上，我們過去看更早版本的 AI 是坐在螢幕後方給你建議的顧問，GPT-5.4 這次則繼續進化為能夠親自幫你鍵入指令的全能數位員工，GPT-5.4 可說是第一個內建原生電腦操作能力能力的主流模型（the first mainline model with built-in computer-use capabilities）。

GPT-5.4 的三大核心技術突破

根據 OpenAI 官方公告的資料與內容，CyberQ 也進行了測試，認為 GPT-5.4 這次的升級完全針對真實世界的專業工作流而來，目前可用方案如下：

方案	GPT-5.4	GPT-5.4 Pro
Free	部分自動路由	❌
Plus	✅（Thinking）	❌
Team	✅	❌
Pro	✅	✅
Enterprise	✅	✅

原生接管電腦能力 (Native Computer-Use)

這是 GPT-5.4 相對較顯著的突破。繼生成文字或程式碼的持續進步後，GPT-5.4 在看懂螢幕截圖的功能更強，還能辨識 UI 介面，並自主發出滑鼠點擊與鍵盤輸入指令。這代表你可以直接指派 AI 去操作各種企業軟體、網頁，徹底實現了跨應用程式的自動化作業。

100 萬 Token 的超大上下文視窗 (1M Context Window)

在 Codex 平台與 API 開發環境中，GPT-5.4 實驗性地支援高達 105 萬 Token 的輸入範圍。開發者可以直接將大量文獻資料、幾十本財報或複雜的程式碼庫一次丟給它處理，讓 AI 進行全局深度的關聯分析與除錯

智慧工具搜尋 (Scalable Tool Search) 大幅降低成本

透過全新的工具搜尋架構，代理 AI 在調用龐大的外部 API 或工具庫時，能精準只抓取需要的定義。實測資料顯示，這能在維持準確率不變的前提下，大幅減少 47% 的 Token 消耗，為企業省下可觀的運算成本。

測試在多項指標中超越人類專家

GPT-5.4 的官方定位是針對複雜專業工作最強大且最高效的先進 AI 模型，而它交出的 Benchmark（基準測試）成績單確實證明了它在專業領域的能力。

OSWorld-Verified（真實電腦操作測試）75.0%

這是一項評估 AI 在真實桌面環境中導航與操作軟體能力的嚴苛指標。OSWorld 是評估 AI 代理在真實電腦作業系統中完成任務的權威測試。在該測試的學術標準中，一般人類測試者的平均基準線（Human Baseline）為 72.4%，而 GPT-5.4 以 75.0% 的破紀錄成績首度超越了人類！因此，這次官方的數字，代表 AI 在這項代客操作電腦的實測指標上，確實首度超越了人類的平均水準，OpenAI 試圖證明其代客操作已達商用等級。

GDPval（專業職場能力）83.0%

而這項測試涵蓋了推動美國 GDP 核心的多種真實世界高薪職業。在 GDPval 測試中，GPT-5.4 在與人類產業專家的盲測對決，有 83.0% 的機率追平或擊敗人類專家（前代 GPT-5.2 僅為 70.9%）。

財務建模與試算表分析 87.3%

在針對投資銀行初階分析師等級的內部 Excel 建模測試中，GPT-5.4 拿下了 87.3% 的驚人高分（遠超前代的 68.4%）。

SWE-Bench Pro（軟體工程）57.7%

在複雜的開源軟體除錯挑戰中，超越了先前專注於程式開發的專用模型 GPT-5.3-Codex。

從 GPT-5.4 看 2026 年 AI 市場三大趨勢

GPT-5.4 的規格、微軟 Azure AI Foundry 的深度整合以及定價策略，清楚勾勒出了 2026 年 AI 產業的發展軌跡。

從生成式 AI (Generative AI) 全面走向代理型 AI (Agentic AI)

市場需求已經明確轉向。除了寫 Email 草稿，製作簡報和整理會議紀錄外，現在已經能要求 AI 幫我登入 CRM 系統抓出未結案客戶，分析原因後自動發送 Email 並更新 Excel 報表。GPT-5.4 的電腦操作能力，讓 2026 年的 AI 跨出對話框，成為能獨立完成多步驟任務的自動化勞動力。

可控性 (Steerability) 與企業級部署為優先

當 AI 有能力直接控制你的電腦滑鼠時，安全與治理就成為了首要考量。OpenAI 這次特別強調了中途可控性，允許用戶在 AI 思考途中介入調整，並允許企業設定符合自身風險容忍度的自訂確認策略。未來的 AI 導入，將以可靠執行與資料安全為絕對導向。

高階專業市場的價格分層戰

CyberQ 認為，面對激烈的市場競爭，OpenAI 這次打出了極具侵略性的定價。GPT-5.4 的 API 價格為每百萬輸入 Token $2.50 美元 / 輸出 $15.00 美元（快取輸入更低至 $0.25），主打高頻率的企業自動化。

該公司還推出了定價更貴的 GPT-5.4 Pro（輸入 $30 / 輸出 $180），專攻需要極致分析深度的科學研究與決策。AI 大廠的戰場已精準轉向依據ROI 投資報酬率進行分段收費。

CyberQ 測試目前三大主流市場模型的能力以及檢視其價格競爭力，確實現階段已逐步有了更明確的界線，我們會在不同的工作流選用適合的模型，預算夠的話都用會比較有彈性。目前 1M context 已經變成新標準。幾乎所有 frontier model 都有達到，這在前二年的 AI 發展期是沒辦法想像的事。

模型	Context	Max Output	主要定位
GPT-5.4	1M tokens	128K	通用 agent + reasoning
Claude Opus 4.6	1M tokens	128K	coding / complex planning
Gemini 3.1 Pro	1M tokens	64K	multimodal + cost efficiency

以程式開發能力來說，Claude 還是比較多工程師偏愛，但是呢，在這次 GPT-5.4 的官方與新聞稿中，OpenAI 刻意避開了傳統的跑分，而是改採難度更高、專注於長線代理任務的 SWE-Bench Pro 作為官方宣傳指標。 GPT-5.4 成績 57.7% 比前代特化模型 (GPT-5.3-Codex) 的 56.8% 、前代通用模型 (GPT-5.2) 55.6% 都高。雖然 57.7% 看似不高，但在這個極度困難的測試中，GPT-5.4 成功擊敗了 OpenAI 之前專門為了寫程式而打造的 GPT-5.3-Codex，我們就不再需要糾結要選通用模型還是寫碼模型，GPT-5.4 已經將兩者的最強能力合而為一。此外，官方強調 GPT-5.4 在維持高勝率的同時，處理程式碼的延遲更低（在 Codex 中開啟 /fast 模式可提速 1.5 倍）。

如果是用產業界過去一年最常使用的傳統標準 SWE-Bench Verified 來看，OpenAI 官方這次其實技術性省略了這個數字，這個數字在 Reddit 和 Hacker News 等開發者論壇引起了熱烈討論。許多工程師指出，OpenAI 這次之所以在官方文件中略過傳統的 SWE-Bench Verified，是因為在這個項目上，GPT-5.4 (77.2%) 依然微幅落後給 Anthropic 最新推出的 Claude Opus 4.6 (79.2%)。

雖然在純粹的學術榜上（Verified 榜單），它與宿敵 Claude Opus 4.6 互有勝負。但 GPT-5.4 真正的殺手鐧在於它結合了這次解鎖的原生電腦操作與視覺辨識。它可以自己寫出網頁或 App 程式碼，然後親自打開測試環境、用 AI 的眼睛看畫面有沒有跑版、並自己點擊滑鼠進行 UI 的動態除錯 (Visual Debugging)。這種全端代理的實戰能力，是目前 SWE-Bench 分數無法完全反映出來的優勢。

至於使用成本方面，CyberQ 認為確實還是 Gemini 最便宜，適合大量快速迭代使用 :

模型	Input	Output
Gemini 3.1 Pro	$2 / 1M	$12
GPT-5.4	$2.5 / 1M	$20
Claude Opus 4.6	$5 / 1M	$25

準備好迎接你的全能虛擬員工了嗎？

CyberQ 觀察，GPT-5.4 在大語言模型（LLM）的進化還不錯，以很快的速度與實體的數位操作介面融合。預期其他競爭對手也會把這些都一起補上，市場的 AI 代理人、多模態 AI 模型、整合電腦視覺和實際操作軟體的能力會進一步陸續補完，人類可以將更多任務讓 AI 來進行自動化和分擔更多生產力的情形將逐漸普及。

CyberQ 認為，2026 年 LLM 的真正技術瓶頸確實還是推理成本（Inference Cost），原因在於 Frontier 模型普遍數千億到數兆參數，Context window 已經到 1M tokens ，推理計算量大量成長。CyberQ 在客戶端與 Lab 端的實際應用結果是單次 agent 任務可能花數十到數百次推理，一個 AI workflow 可能消耗數美元。對企業來說，這直接影響 SaaS 產品毛利，以及大規模部署可行性和成本。因此產業中不少人們現在都在研究 MoE（Mixture of Experts）、speculative decoding 、KV cache reuse 、token compression 等方面的技術和實作。

對於開發者和企業經營者而言，當 AI 已經能以 75% 的超人類高水準直接操作你的電腦軟體時，你的企業工作流該如何重新設計？這場生產力革命的下半場，正要進入新的階段了呢。

五角大廈的 AI 權力遊戲，Anthropic 遭封殺後 OpenAI 如何透過技術性防護拿下軍方大單？

OpenClaw 創辦人 Peter Steinberger 加入 OpenAI，自主代理人時代加速

Google AI 成長力道強勁超越 OpenAI，2026 年將豪擲1,850 億美元資本支出

OpenAI 推 Frontier 平台　瞄準企業資料整合與 AI 自動化

ServiceNow 攜手 OpenAI 打造企業級 AI 代理

OpenAI 將青少年保護寫入 Model Spec 建立 AI 安全新標準

GPT-5.2 登場，成人模式將於 2026 解禁，迪士尼入股 OpenAI 並授權 IP 給 Sora

沒學歷也能進 OpenAI 當工程師，AI 時代大學教育價值正在崩解

OpenAI 正式推出 GPT-5.1 強化推理能力與人性化互動體驗

OpenAI 股權重組，未來投資 1.4 兆美元豪賭 AGI，微軟繼掌 AI 市場關鍵

標籤: AI ChatGPT GPT-5.4 GPT-5.4 Pro OpenAI

OpenAI 推出 GPT-5.4 解鎖原生電腦操作，實測跑分首度擊敗人類

NVIDIA 釋出佛心大禮包？免費用 1 年頂級 AI 模型 API 解析與教學

GitHub 趨勢周報 Vol.11：AI 代理群體作戰時代加碼

從 DigitalOcean 到 Hetzner 每月狂省 83%？下雲會是一個趨勢嗎？

ComfyUI 0.16 新版預設啟用動態 VRAM，導入更多新世代影像與影片生成模型

打造零停機企業儲存架構：QNAP High Availability 雙機熱備援實測與 Failover 驗證

Chen Glenn

相關文章

NVIDIA 釋出佛心大禮包？免費用 1 年頂級 AI 模型 API 解析與教學

GitHub 趨勢周報 Vol.11：AI 代理群體作戰時代加碼

從 DigitalOcean 到 Hetzner 每月狂省 83%？下雲會是一個趨勢嗎？

Anthropic 推出 Claude Design 迎戰 Figma！AI 設計的同質化與未來

Alice Protocol 去中心化 AI 訓練平台設法平衡大廠算力壟斷

新竹物流大當機超過24小時！官網癱瘓僅靠臨時網址撐場

打造零停機企業儲存架構：QNAP High Availability 雙機熱備援實測與 Failover 驗證

AI 修圖虛擬裝修引發房屋詐欺爭議

推薦閱讀

從 Delve 合規造假醜聞到部分企業大量資料外流的資安風暴

NVIDIA 釋出佛心大禮包？免費用 1 年頂級 AI 模型 API 解析與教學

GitHub 趨勢周報 Vol.11：AI 代理群體作戰時代加碼

從 DigitalOcean 到 Hetzner 每月狂省 83%？下雲會是一個趨勢嗎？

Anthropic 推出 Claude Design 迎戰 Figma！AI 設計的同質化與未來

近期熱門

新竹物流大當機超過24小時！官網癱瘓僅靠臨時網址撐場

Anthropic 推出 Claude Design 迎戰 Figma！AI 設計的同質化與未來

Alice Protocol 去中心化 AI 訓練平台設法平衡大廠算力壟斷

你的雲端資料真的有被備份到嗎？Backblaze 悄悄排除 OneDrive 與 Dropbox 備份引爆社群危機

GitHub 趨勢周報 Vol.11：AI 代理群體作戰時代加碼

找回資料主導權：QNAP 企業級原生雲地備份與同步實作 (HBS 3 & HDP 解析)

NVIDIA 釋出佛心大禮包？免費用 1 年頂級 AI 模型 API 解析與教學

從 DigitalOcean 到 Hetzner 每月狂省 83%？下雲會是一個趨勢嗎？

微軟 KB5083769 釋出修復 sfc 誤報並增強 RDP 安全，有使用 BitLocker 的請先備份

馬斯克證實 Tesla AI5 晶片定案，效能提升背後的硬體焦慮與技術挑戰

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap

OpenAI 推出 GPT-5.4 解鎖原生電腦操作，實測跑分首度擊敗人類

RELATED POSTS

GPT-5.4 的三大核心技術突破

測試在多項指標中超越人類專家

從 GPT-5.4 看 2026 年 AI 市場三大趨勢

高階專業市場的價格分層戰

準備好迎接你的全能虛擬員工了嗎？

ComfyUI 0.16 新版預設啟用動態 VRAM，導入更多新世代影像與影片生成模型

打造零停機企業儲存架構：QNAP High Availability 雙機熱備援實測與 Failover 驗證

相關文章

推薦閱讀

近期熱門

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap