人工智慧大廠 OpenAI 日前正式宣布,旗下的 Codex 「Computer Use」功能已全面擴大支援範疇,正式進軍全球市佔率最高的桌面作業系統 Windows 平臺,趕上之前 Claude 已經在 Windows 等平台登陸的態勢, AI 可不侷限於瀏覽器或特定 API 的串接,而是能夠像真實人類使用者一樣,直接接管並操作各類 Windows 桌面應用程式。
CyberQ 觀察,這項功能的核心和 Claude 的電腦視覺功能類似,同樣都是於賦予 AI 視覺與周邊控制能力。系統透過即時觀看螢幕畫面、精準定位虛擬座標,進而執行滑鼠點擊、拖曳以及鍵盤輸入文字等複合式動作。這種模仿人類行為的操作模式,徹底打破了傳統自動化軟體必須依賴特定 API 的限制,讓過去難以串接的舊型系統或封閉式桌面軟體,也能輕鬆納入 AI 自動化的工作流程中。
但這種技術最大的問題就是會吃掉一堆本來不會消耗掉的 Token 數,造成電力的消耗和使用者成本的增加。
以下這二個軟體的簡單比較差異 :
| Claude Computer Use | Codex Computer Use | |
|---|---|---|
| 主導廠商 | Anthropic | OpenAI |
| 底層架構 | 視覺-動作循環(靜態截圖驅動) | 語意與視覺辨識(視窗與物件驅動) |
| 環境安全防護 | 應用程式層級勾記與局部放大確認 | 作業系統核心層級沙箱防護 |
| 獨門特色功能 | 手機遠端調度,出門在外也能指派任務 | 支援電腦鎖定與關螢幕狀態下的背景自動化 |
| 網頁協同模式 | 整合瀏覽器外掛,依序切換 API 與螢幕操作 | 專屬隔離分頁群組,不干擾使用者主視窗 |
| 互動與執行風格 | 謹慎且重視前期溝通,文件與推理完整 | 高執行力、追求速度與節省 Token,直接切入實作 |
跨越 API 限制:桌面生態系的全面自動化
這項功能的推出,對於企業工作流程的升級帶來了全新想像。在過去,自動化流程(RPA)往往需要耗費工程師大量的時間進行環境布署與腳本撰寫,一旦應用程式的介面發生微調,整個系統就可能宣告失效。
Codex 的運作機制則完全不同。它具備強大的語意理解與視覺辨識能力,可以自動辨識視窗中的按鈕、表單與輸入框。所以當我們在進行跨軟體資料搬移、繁瑣的行政報表填寫,或是多個獨立桌面應用程式之間的協同作業時,不再需要另外開發昂貴的客製化中介軟體。AI 能夠直接開啟 Excel 提取資料,接著自動打開企業內部的舊款 ERP 系統進行輸入,最後甚至能啟動通訊工具發布成果,達成跨領域的無縫協同。
資安與合規,便利背後的關鍵權衡
管理者在引進這類革命性技術時,也必須嚴肅檢視其所帶來的資安風險。當 AI 具備了直接操作 Windows 作業系統的能力,等於在系統層級開闢了一個全新的存取管道。
首先面臨的挑戰是權限管理。AI 在執行任務時,必須明確被限縮在特定的低權限帳戶中,避免因模型誤判或遭受惡意提示詞攻擊,而導致作業系統的核心設定遭竄改。其次,這類操作行為的軌跡紀錄就得好好留存了。企業在最佳化工作流程的同時,必須同步建立完整的端點稽核機制,全面記錄 AI 的視覺擷取範圍與滑鼠點擊軌跡,以符合 ISO 27001 等國際資安標準對於資料存取與操作不可否認性的嚴格要求。
CyberQ 認為,要等各大廠共同或分別能解決這些潛在的安全問題,才是這類技術能否順利推向金融、醫療等高合規需求產業的決定性因素。
Claude 與 OpenAI Codex 電腦視覺使用版的差異
Claude 的電腦操控技術主要建立在「視覺-動作循環」架構上。當接到任務後,系統會先嘗試使用 API 連接器處理,若無連接器則透過瀏覽器外掛操作,最後才進入最靈活但速度較慢的螢幕操作。其螢幕操作是透過不斷擷取靜態畫面截圖、判讀使用者介面像素座標、模擬滑鼠與鍵盤輸入來循環推進。為了進一步解決微小介面的點擊誤差,其新增的局部放大功能有效提升了精準度。
相較之下,OpenAI 的 Codex 是透過語意與視覺辨識能力,能自動辨識視窗中的按鈕與表單,特別擅長在封閉式的舊型企業系統或不同桌面視窗之間進行資料搬移與協同作業。
在實際應用上,兩者展現出完全不同的產品思維。Claude 強調跨裝置的遠端協同,其設計的遠端調度功能允許使用者在通勤時利用手機對辦公室的電腦發送複雜任務,讓電腦自動完成檔案分類、報表整理等工作,完成後再將結果同步回傳手機。
Codex 則在自動化深度上取得突破,其桌面版本支援鎖螢幕背景執行。在電腦鎖定、螢幕關閉的狀態下,只要獲得使用者明確授權,Codex 依然能在背景安全地操作各項授權軟體。此外,在執行複雜的網頁研究任務時,Codex 會在彼此隔離的專屬分頁群組中處理事務,完全不會干擾到使用者當前的主瀏覽視窗。
在資源消耗與運作邏輯方面,兩者的風格各有千秋。Claude 在面對模糊指令時就像一位謹慎的資深顧問,會先透過前期溝通提問來釐清需求才動工,建構出的成品邏輯嚴謹且文件完整,但這種深度的推理過程往往會消耗大量的 Token,且執行速度相對居中。
Codex 在長時間或複合式的自動化任務中,Token 的利用效率會比 Claude 好,展現出成本與速度優勢,不過其輸出過程有時較偏向黑箱,缺乏詳細的推理步驟,需要使用者在最終時進行把關。
展望未來當然是瞄準更多的人機協作
OpenAI 讓 Codex 支援 Windows 平臺,將 AI 從繼續往前又推了一步,是否會趕上 Claude 還未知,但目前不論是軟體開發者用來執行自動化測試,還是辦公室白領用來處理常態性的重複工作,這類技術確實都有其實用價值,但伴隨著就是大量的 Token 會額外消耗掉。隨著未來模型執行效率的提升與辨識準確度的持續最佳化,或許會再降低 Token 的消耗程度,CyberQ 預期桌面作業的型態會有很大的轉變。
若想了解更多關於功能細節與開發者文件的讀者,可至 OpenAI 官方網站 瀏覽最新釋出的技術說明與安全規範指南,提早布局這波由 Windows 桌面自動化帶來的新局,想看看有哪些流程可以因應和搭配變化的,還有哪些其實可以最佳化。













