CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
    • AI 人工智慧
  • AI 代理
  • 龍蝦
  • AI 應用實戰
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊
聯繫我們
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
    • AI 人工智慧
  • AI 代理
  • 龍蝦
  • AI 應用實戰
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊
沒有結果
觀看所有搜尋結果
CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • 首頁
  • 新聞
  • AI 代理
  • 龍蝦
  • AI 應用實戰
  • 資安
  • Docker
  • 進階應用
  • 網通
  • NAS
  • 開箱測試
  • 教學
  • 展覽直擊
首頁 新聞 AI 人工智慧

OpenAI 推出 GPT-5.4 解鎖原生電腦操作,實測跑分首度擊敗人類

Chen Glenn by Chen Glenn
2026 年 03 月 06 日 09:00
閱讀時間: 4 分鐘
A A
OpenAI 推出 GPT-5.4 解鎖原生電腦操作,實測跑分首度擊敗人類
6.9k
觀看數
分享到臉書分享到 X分享到Line分享到 Threads分享到 Linkedin

OpenAI 正式於官網發表專為複雜專業工作打造的旗艦級模型,ChatGPT 平台上部署最新的 GPT-5.4 以及效能全開的 GPT-5.4 Pro。實測上,我們過去看更早版本的 AI 是坐在螢幕後方給你建議的顧問,GPT-5.4 這次則繼續進化為能夠親自幫你鍵入指令的全能數位員工,GPT-5.4 可說是第一個內建原生電腦操作能力能力的主流模型(the first mainline model with built-in computer-use capabilities)。

RELATED POSTS

NVIDIA 釋出佛心大禮包?免費用 1 年頂級 AI 模型 API 解析與教學

GitHub 趨勢周報 Vol.11:AI 代理群體作戰時代加碼

從 DigitalOcean 到 Hetzner 每月狂省 83%?下雲會是一個趨勢嗎?

GPT-5.4 的三大核心技術突破

根據 OpenAI 官方公告的資料與內容,CyberQ 也進行了測試,認為 GPT-5.4 這次的升級完全針對真實世界的專業工作流而來,目前可用方案如下:

方案GPT-5.4GPT-5.4 Pro
Free部分自動路由❌
Plus✅(Thinking)❌
Team✅❌
Pro✅✅
Enterprise✅✅

原生接管電腦能力 (Native Computer-Use)

這是 GPT-5.4 相對較顯著的突破。繼生成文字或程式碼的持續進步後,GPT-5.4 在看懂螢幕截圖的功能更強,還能辨識 UI 介面,並自主發出滑鼠點擊與鍵盤輸入指令。這代表你可以直接指派 AI 去操作各種企業軟體、網頁,徹底實現了跨應用程式的自動化作業。

100 萬 Token 的超大上下文視窗 (1M Context Window)

在 Codex 平台與 API 開發環境中,GPT-5.4 實驗性地支援高達 105 萬 Token 的輸入範圍。開發者可以直接將大量文獻資料、幾十本財報或複雜的程式碼庫一次丟給它處理,讓 AI 進行全局深度的關聯分析與除錯

智慧工具搜尋 (Scalable Tool Search) 大幅降低成本

透過全新的工具搜尋架構,代理 AI 在調用龐大的外部 API 或工具庫時,能精準只抓取需要的定義。實測資料顯示,這能在維持準確率不變的前提下,大幅減少 47% 的 Token 消耗,為企業省下可觀的運算成本。

測試在多項指標中超越人類專家

GPT-5.4 的官方定位是針對複雜專業工作最強大且最高效的先進 AI 模型,而它交出的 Benchmark(基準測試)成績單確實證明了它在專業領域的能力。

OSWorld-Verified(真實電腦操作測試)75.0%

這是一項評估 AI 在真實桌面環境中導航與操作軟體能力的嚴苛指標。OSWorld 是評估 AI 代理在真實電腦作業系統中完成任務的權威測試。在該測試的學術標準中,一般人類測試者的平均基準線(Human Baseline)為 72.4%,而 GPT-5.4 以 75.0% 的破紀錄成績首度超越了人類!因此,這次官方的數字,代表 AI 在這項代客操作電腦的實測指標上,確實首度超越了人類的平均水準,OpenAI 試圖證明其代客操作已達商用等級。

GDPval(專業職場能力)83.0%

而這項測試涵蓋了推動美國 GDP 核心的多種真實世界高薪職業。在 GDPval 測試中,GPT-5.4 在與人類產業專家的盲測對決,有 83.0% 的機率追平或擊敗人類專家(前代 GPT-5.2 僅為 70.9%)。

財務建模與試算表分析 87.3%

在針對投資銀行初階分析師等級的內部 Excel 建模測試中,GPT-5.4 拿下了 87.3% 的驚人高分(遠超前代的 68.4%)。

SWE-Bench Pro(軟體工程)57.7%

在複雜的開源軟體除錯挑戰中,超越了先前專注於程式開發的專用模型 GPT-5.3-Codex。

從 GPT-5.4 看 2026 年 AI 市場三大趨勢

GPT-5.4 的規格、微軟 Azure AI Foundry 的深度整合以及定價策略,清楚勾勒出了 2026 年 AI 產業的發展軌跡。

從生成式 AI (Generative AI) 全面走向代理型 AI (Agentic AI)

市場需求已經明確轉向。除了寫 Email 草稿,製作簡報和整理會議紀錄外,現在已經能要求 AI 幫我登入 CRM 系統抓出未結案客戶,分析原因後自動發送 Email 並更新 Excel 報表。GPT-5.4 的電腦操作能力,讓 2026 年的 AI 跨出對話框,成為能獨立完成多步驟任務的自動化勞動力。

可控性 (Steerability) 與企業級部署為優先

當 AI 有能力直接控制你的電腦滑鼠時,安全與治理就成為了首要考量。OpenAI 這次特別強調了中途可控性,允許用戶在 AI 思考途中介入調整,並允許企業設定符合自身風險容忍度的自訂確認策略。未來的 AI 導入,將以可靠執行與資料安全為絕對導向。

高階專業市場的價格分層戰

CyberQ 認為,面對激烈的市場競爭,OpenAI 這次打出了極具侵略性的定價。GPT-5.4 的 API 價格為每百萬輸入 Token $2.50 美元 / 輸出 $15.00 美元(快取輸入更低至 $0.25),主打高頻率的企業自動化。

該公司還推出了定價更貴的 GPT-5.4 Pro(輸入 $30 / 輸出 $180),專攻需要極致分析深度的科學研究與決策。AI 大廠的戰場已精準轉向依據ROI 投資報酬率進行分段收費。

CyberQ 測試目前三大主流市場模型的能力以及檢視其價格競爭力,確實現階段已逐步有了更明確的界線,我們會在不同的工作流選用適合的模型,預算夠的話都用會比較有彈性。目前 1M context 已經變成新標準。 幾乎所有 frontier model 都有達到,這在前二年的 AI 發展期是沒辦法想像的事。

模型ContextMax Output主要定位
GPT-5.41M tokens128K通用 agent + reasoning
Claude Opus 4.61M tokens128Kcoding / complex planning
Gemini 3.1 Pro1M tokens64Kmultimodal + cost efficiency

以程式開發能力來說,Claude 還是比較多工程師偏愛,但是呢,在這次 GPT-5.4 的官方與新聞稿中,OpenAI 刻意避開了傳統的跑分,而是改採難度更高、專注於長線代理任務的 SWE-Bench Pro 作為官方宣傳指標。 GPT-5.4 成績 57.7% 比前代特化模型 (GPT-5.3-Codex) 的 56.8% 、前代通用模型 (GPT-5.2) 55.6% 都高。雖然 57.7% 看似不高,但在這個極度困難的測試中,GPT-5.4 成功擊敗了 OpenAI 之前專門為了寫程式而打造的 GPT-5.3-Codex,我們就不再需要糾結要選通用模型還是寫碼模型,GPT-5.4 已經將兩者的最強能力合而為一。 此外,官方強調 GPT-5.4 在維持高勝率的同時,處理程式碼的延遲更低(在 Codex 中開啟 /fast 模式可提速 1.5 倍)。

如果是用產業界過去一年最常使用的傳統標準 SWE-Bench Verified 來看,OpenAI 官方這次其實技術性省略了這個數字,這個數字在 Reddit 和 Hacker News 等開發者論壇引起了熱烈討論。許多工程師指出,OpenAI 這次之所以在官方文件中略過傳統的 SWE-Bench Verified,是因為在這個項目上,GPT-5.4 (77.2%) 依然微幅落後給 Anthropic 最新推出的 Claude Opus 4.6 (79.2%)。

雖然在純粹的學術榜上(Verified 榜單),它與宿敵 Claude Opus 4.6 互有勝負。但 GPT-5.4 真正的殺手鐧在於它結合了這次解鎖的原生電腦操作與視覺辨識。它可以自己寫出網頁或 App 程式碼,然後親自打開測試環境、用 AI 的眼睛看畫面有沒有跑版、並自己點擊滑鼠進行 UI 的動態除錯 (Visual Debugging)。這種全端代理的實戰能力,是目前 SWE-Bench 分數無法完全反映出來的優勢。

至於使用成本方面,CyberQ 認為確實還是 Gemini 最便宜,適合大量快速迭代使用 :

模型InputOutput
Gemini 3.1 Pro$2 / 1M$12
GPT-5.4$2.5 / 1M$20
Claude Opus 4.6$5 / 1M$25

準備好迎接你的全能虛擬員工了嗎?

CyberQ 觀察,GPT-5.4 在大語言模型(LLM)的進化還不錯,以很快的速度與實體的數位操作介面融合。預期其他競爭對手也會把這些都一起補上,市場的 AI 代理人、多模態 AI 模型、整合電腦視覺和實際操作軟體的能力會進一步陸續補完,人類可以將更多任務讓 AI 來進行自動化和分擔更多生產力的情形將逐漸普及。

CyberQ 認為,2026 年 LLM 的真正技術瓶頸確實還是推理成本(Inference Cost),原因在於 Frontier 模型普遍 數千億到數兆參數,Context window 已經到 1M tokens ,推理計算量大量成長。CyberQ 在客戶端與 Lab 端的實際應用結果是單次 agent 任務可能花數十到數百次推理,一個 AI workflow 可能消耗數美元。對企業來說,這直接影響 SaaS 產品毛利,以及大規模部署可行性和成本。因此產業中不少人們現在都在研究 MoE(Mixture of Experts)、speculative decoding 、KV cache reuse 、token compression 等方面的技術和實作。

對於開發者和企業經營者而言,當 AI 已經能以 75% 的超人類高水準直接操作你的電腦軟體時,你的企業工作流該如何重新設計?這場生產力革命的下半場,正要進入新的階段了呢。

五角大廈的 AI 權力遊戲,Anthropic 遭封殺後 OpenAI 如何透過技術性防護拿下軍方大單?
OpenClaw 創辦人 Peter Steinberger 加入 OpenAI,自主代理人時代加速
Google AI 成長力道強勁超越 OpenAI,2026 年將豪擲1,850 億美元資本支出
OpenAI 推 Frontier 平台 瞄準企業資料整合與 AI 自動化
ServiceNow 攜手 OpenAI 打造企業級 AI 代理
OpenAI 將青少年保護寫入 Model Spec 建立 AI 安全新標準
GPT-5.2 登場,成人模式將於 2026 解禁,迪士尼入股 OpenAI 並授權 IP 給 Sora
沒學歷也能進 OpenAI 當工程師,AI 時代大學教育價值正在崩解
OpenAI 正式推出 GPT-5.1 強化推理能力與人性化互動體驗
OpenAI 股權重組,未來投資 1.4 兆美元豪賭 AGI,微軟繼掌 AI 市場關鍵
標籤: AIChatGPTGPT-5.4GPT-5.4 ProOpenAI
Share83Tweet52ShareShareShare15
上一篇

ComfyUI 0.16 新版預設啟用動態 VRAM,導入更多新世代影像與影片生成模型

下一篇

打造零停機企業儲存架構:QNAP High Availability 雙機熱備援實測與 Failover 驗證

Chen Glenn

Chen Glenn

開發工程師,目前在北台灣的科技業任職。

相關文章

NVIDIA 釋出佛心大禮包?免費用 1 年頂級 AI 模型 API 解析與教學
AI 人工智慧

NVIDIA 釋出佛心大禮包?免費用 1 年頂級 AI 模型 API 解析與教學

2026 年 4 月 20 日
GitHub 趨勢周報 Vol.11:AI 代理群體作戰時代加碼
新聞

GitHub 趨勢周報 Vol.11:AI 代理群體作戰時代加碼

2026 年 4 月 20 日
從 DigitalOcean 到 Hetzner 每月狂省 83%?下雲會是一個趨勢嗎?
企業解決方案

從 DigitalOcean 到 Hetzner 每月狂省 83%?下雲會是一個趨勢嗎?

2026 年 4 月 19 日
Anthropic 推出 Claude Design 迎戰 Figma!AI 設計的同質化與未來
AI 人工智慧

Anthropic 推出 Claude Design 迎戰 Figma!AI 設計的同質化與未來

2026 年 4 月 18 日
Alice Protocol 去中心化 AI 訓練平台設法平衡大廠算力壟斷
AI 人工智慧

Alice Protocol 去中心化 AI 訓練平台設法平衡大廠算力壟斷

2026 年 4 月 18 日
新竹物流大當機超過24小時!官網癱瘓僅靠臨時網址撐場
新聞

新竹物流大當機超過24小時!官網癱瘓僅靠臨時網址撐場

2026 年 4 月 18 日
下一篇
打造零停機企業儲存架構:QNAP High Availability 雙機熱備援實測與 Failover 驗證

打造零停機企業儲存架構:QNAP High Availability 雙機熱備援實測與 Failover 驗證

AI 修圖虛擬裝修引發房屋詐欺爭議

AI 修圖虛擬裝修引發房屋詐欺爭議

推薦閱讀

從 Delve 合規造假醜聞到部分企業大量資料外流的資安風暴

從 Delve 合規造假醜聞到部分企業大量資料外流的資安風暴

2026 年 4 月 21 日
NVIDIA 釋出佛心大禮包?免費用 1 年頂級 AI 模型 API 解析與教學

NVIDIA 釋出佛心大禮包?免費用 1 年頂級 AI 模型 API 解析與教學

2026 年 4 月 20 日
GitHub 趨勢周報 Vol.11:AI 代理群體作戰時代加碼

GitHub 趨勢周報 Vol.11:AI 代理群體作戰時代加碼

2026 年 4 月 20 日
從 DigitalOcean 到 Hetzner 每月狂省 83%?下雲會是一個趨勢嗎?

從 DigitalOcean 到 Hetzner 每月狂省 83%?下雲會是一個趨勢嗎?

2026 年 4 月 19 日
Anthropic 推出 Claude Design 迎戰 Figma!AI 設計的同質化與未來

Anthropic 推出 Claude Design 迎戰 Figma!AI 設計的同質化與未來

2026 年 4 月 18 日

近期熱門

  • 新竹物流大當機超過24小時!官網癱瘓僅靠臨時網址撐場

    新竹物流大當機超過24小時!官網癱瘓僅靠臨時網址撐場

    353 shares
    Share 141 Tweet 88
  • Anthropic 推出 Claude Design 迎戰 Figma!AI 設計的同質化與未來

    305 shares
    Share 122 Tweet 76
  • Alice Protocol 去中心化 AI 訓練平台設法平衡大廠算力壟斷

    302 shares
    Share 121 Tweet 76
  • 你的雲端資料真的有被備份到嗎?Backblaze 悄悄排除 OneDrive 與 Dropbox 備份引爆社群危機

    246 shares
    Share 98 Tweet 62
  • GitHub 趨勢周報 Vol.11:AI 代理群體作戰時代加碼

    209 shares
    Share 84 Tweet 52
  • 找回資料主導權:QNAP 企業級原生雲地備份與同步實作 (HBS 3 & HDP 解析)

    208 shares
    Share 83 Tweet 52
  • NVIDIA 釋出佛心大禮包?免費用 1 年頂級 AI 模型 API 解析與教學

    206 shares
    Share 82 Tweet 52
  • 從 DigitalOcean 到 Hetzner 每月狂省 83%?下雲會是一個趨勢嗎?

    205 shares
    Share 82 Tweet 51
  • 微軟 KB5083769 釋出修復 sfc 誤報並增強 RDP 安全,有使用 BitLocker 的請先備份

    177 shares
    Share 71 Tweet 44
  • 馬斯克證實 Tesla AI5 晶片定案,效能提升背後的硬體焦慮與技術挑戰

    170 shares
    Share 68 Tweet 43

關於 CyberQ 賽博客

CyberQ 賽博客網站的命名正是 Cyber + Q ,是賽博網路、資訊、共識 / 高可用叢集、量子科技與品質的綜合體。

我們專注於企業級網路與儲存環境建構、NAS 系統整合、資安解決方案與 AI 應用顧問服務。透過以下三大面向的「Q」核心元素,我們為您提供從基礎架構到資料智慧的雙引擎驅動力:

Quorum 與 Quantum-safe

在技術架構上,是基於信任的基礎架構,CyberQ 深入掌握分散式系統中的 Quorum(一致性)、Queue(任務調度) 與 QoS(服務品質),以 Quick(效率) 解決複雜的 IT 與資安問題。同時,我們積極投入 Quantum-safe(後量子密碼學) 等新興資安領域,確保企業基礎設施在未來運算時代具備堅不可摧的長期競爭力。

Query 與 Quotient

CyberQ 是協助企業成長的 AI 引擎,在堅韌的架構之上,我們透過 Query(洞察) 解析大量資料,並以 Quotient(提升企業科技智商) 的顧問服務,將 AI 導入本機端環境與自動化工作流程中,將資料轉化為企業最具價值的數位資產。

Quest與 Quantum Leap

專業媒體與技術顧問是我們的核心雙動能。

作為科技媒體,我們秉持駭客精神持續進行科技 Quest(探索),探索海內外產業動態。

作為顧問團隊,我們結合多年第一線實務經驗,提供量身打造的最佳化解決方案,協助企業完成數位轉型的 Quantum Leap(躍進)。

新聞稿、採訪、授權、內容投訴、行銷合作、投稿刊登:[email protected]
廣告委刊、展覽會議、系統整合、資安顧問、業務提攜:[email protected]

Copyright ©2026 CyberQ.tw All Rights Reserved.

沒有結果
觀看所有搜尋結果
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
    • AI 人工智慧
  • AI 代理
  • 龍蝦
  • AI 應用實戰
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊

© 2025 CyberQ NAS、資安、資訊科技、AI應用的日常 關於 CyberQ 賽博客 NAS 系統與電腦、手機一起的生活故事 多年的系統整合與資訊安全經驗,協助智慧家居、小型工作室、辦公室與機構,導入更便利、更安全的資訊環境與應用。