人工智慧大廠 OpenAI 日前正式宣布,旗下的 Codex 「Computer Use」功能已全面擴大支援範疇,正式進軍全球市佔率最高的桌面作業系統 Windows 平臺,趕上之前 Claude 已經在 Windows 等平台登陸的態勢, AI 可不侷限於瀏覽器或特定 API 的串接,而是能夠像真實人類使用者一樣,直接接管並操作各類 Windows 桌面應用程式。
CyberQ 觀察,這項功能的核心和 Claude 的電腦視覺功能類似,同樣都是於賦予 AI 視覺與周邊控制能力。系統透過即時觀看螢幕畫面、精準定位虛擬座標,進而執行滑鼠點擊、拖曳以及鍵盤輸入文字等複合式動作。這種模仿人類行為的操作模式,徹底打破了傳統自動化軟體必須依賴特定 API 的限制,讓過去難以串接的舊型系統或封閉式桌面軟體,也能輕鬆納入 AI 自動化的工作流程中。
但這種技術最大的問題就是會吃掉一堆本來不會消耗掉的 Token 數,造成電力的消耗和使用者成本的增加。
跨越 API 限制:桌面生態系的全面自動化
這項功能的推出,對於企業工作流程的升級帶來了全新想像。在過去,自動化流程(RPA)往往需要耗費工程師大量的時間進行環境布署與腳本撰寫,一旦應用程式的介面發生微調,整個系統就可能宣告失效。
Codex 的運作機制則完全不同。它具備強大的語意理解與視覺辨識能力,可以自動辨識視窗中的按鈕、表單與輸入框。所以當我們在進行跨軟體資料搬移、繁瑣的行政報表填寫,或是多個獨立桌面應用程式之間的協同作業時,不再需要另外開發昂貴的客製化中介軟體。AI 能夠直接開啟 Excel 提取資料,接著自動打開企業內部的舊款 ERP 系統進行輸入,最後甚至能啟動通訊工具發布成果,達成跨領域的無縫協同。
資安與合規,便利背後的關鍵權衡
身為資訊安全與合規架構的管理者,在引進這類革命性技術時,也必須嚴肅檢視其所帶來的資安風險。當 AI 具備了直接操作 Windows 作業系統的能力,等於在系統層級開闢了一個全新的存取管道。
首先面臨的挑戰是權限管理。AI 在執行任務時,必須明確被限縮在特定的低權限帳戶中,避免因模型誤判或遭受惡意提示詞攻擊,而導致作業系統的核心設定遭竄改。其次,這類操作行為的軌跡紀錄就得好好留存了。企業在最佳化工作流程的同時,必須同步建立完整的端點稽核機制,全面記錄 AI 的視覺擷取範圍與滑鼠點擊軌跡,以符合 ISO 27001 等國際資安標準對於資料存取與操作不可否認性的嚴格要求。
CyberQ 認為,要等各大廠共同或分別能解決這些潛在的安全問題,才是這類技術能否順利推向金融、醫療等高合規需求產業的決定性因素。
展望未來當然是瞄準更多的人機協作
OpenAI 讓 Codex 支援 Windows 平臺,將 AI 從繼續往前又推了一步,是否會趕上 Claude 還未知,但目前不論是軟體開發者用來執行自動化測試,還是辦公室白領用來處理常態性的重複工作,這類技術確實都有其實用價值,但伴隨著就是大量的 Token 會額外消耗掉。隨著未來模型執行效率的提升與辨識準確度的持續最佳化,或許會再降低 Token 的消耗程度,CyberQ 預期桌面作業的型態會有很大的轉變。
若想了解更多關於功能細節與開發者文件的讀者,可至 OpenAI 官方網站 瀏覽最新釋出的技術說明與安全規範指南,提早布局這波由 Windows 桌面自動化帶來的新局,想看看有哪些流程可以因應和搭配變化的,還有哪些其實可以最佳化。








