OpenAI 近日展現了 GPT-5.4 在全新開發的醫療評測基準 HealthBench Professional 中的實力。這份報告顯示,AI 在處理複雜臨床任務的能力上已經超越受測的人類醫師,能為智慧醫療的應用情境提供更紮實的資料支持。同時,本週他們也推出了給具備證照的醫師、護理從業人員及藥師使用的 AI 工具,稱之為 ChatGPT for Clinicians,在美國地區是免費提供的,未來會再擴充到其他國家的市場去,畢竟醫療相關法規各國都不太一樣,有很多東西要和醫療監管單位確認。
GPT-5.4 在臨床基準測試拿下高分
根據 OpenAI 發表的技術報告,GPT-5.4 在專為醫療人員設計的 HealthBench Professional 評測中獲得 59.0 的高分,對照組的人類醫師平均得分則為 43.7。這項評測涵蓋了護理諮詢、病歷撰寫與文書作業,以及醫學研究等三大核心領域,模擬了醫師在實際工作中與 AI 互動的真實情境。
這項測試與以往單純的選擇題式考核不同,它更注重多輪對話的邏輯性與實務性。換言之,AI 必須在持續的溝通中理解醫療術語,並產出符合專業規範的內容。OpenAI 表示,GPT-5.4 的優異表現來自於其更深層的推理能力,使其在處理醫療資料時能展現更高的精確度。CyberQ 預期相關工具導入 GPT 5.5 與後續新的模型後,可行性和功能都將比現有版本再更強勁。
臨床安全性獲得專業醫師高度認可
為了確保 AI 技術在醫療環境中能夠安全執行,OpenAI 與數百位醫師密切合作。在開發過程中,專業醫療人員審閱了超過 70 萬份模型回覆。在最終的驗證階段,針對近 7,000 場臨床對話進行評估,結果顯示高達 99.6% 的模型回應被醫師評為安全且準確。
這份成果說明了 OpenAI 在提升模型可靠程度上的努力。透過與賓州大學醫學院等頂尖機構的合作,公司將醫師的實務經驗融入訓練流程中。換句話說,GPT-5.4 不再僅是通用的對話工具,而是一套經過專業醫療邏輯磨練的支援系統,能在極低風險的前提下,協助醫療團隊過濾龐雜的檢驗資料。
專業空間助力醫療人員減輕行政壓力
伴隨評測結果的發布,OpenAI 同時推出了專屬醫療人員的使用空間。這項工具針對美國通過身分驗證的醫師與護理人員免費開放,提供包含引用正確醫學文獻的搜尋功能,以及可重複執行的工作流程管理。針對隱私保護,該方案也提供符合 HIPAA 規範的保障,確保病患資料不會被用於訓練基礎模型。
這套系統的核心目標在於將醫療人員從繁重的文書工作中解放。當 AI 能夠自動生成精準的轉診信或病歷摘要時,醫師就能有更多時間面對面照護病患。對於大廠如 OpenAI 來說,這不僅是技術展示,更是將 AI 轉化為實際生產力的關鍵嘗試。
醫界導入率創新高,深度文獻研究成為關鍵推力
除了行政流程的自動化,AI 在醫療界的普及率也正迎來快速成長。根據 OpenAI 報告中引述的美國醫學會(AMA)2026 年最新調查,目前已有高達 72% 的醫師將 AI 應用於臨床實務,相較 2025 年的 48% 大幅提升。為了回應這波強烈的需求,ChatGPT for Clinicians 特別整合了針對醫學期刊的深度研究(Deep Research)能力。
醫療人員可以委託 AI 進行龐雜的醫學文獻回顧、設定可信任的文獻來源邊界,並在幾分鐘內自動彙整出具備詳盡引用的專業報告,系統甚至支援醫師在查詢符合資格的臨床問題時,同步獲取持續醫學教育(CME)學分。從資安與合規顧問的角度來看,這種強調資料溯源與封閉引用框架的設計,不僅大幅降低了模型產生幻覺的風險,更精準解決了醫療人員過去在處理大量實證醫學文獻時,耗時且難以即時查核的問題。
CyberQ 觀點 醫療人員核心價值難以被科技取代
雖然 GPT-5.4 在評測分數上超越了人類醫師,但這並不代表醫護人員將面臨失業危機。從目前的技術特性來看,AI 展現的是強化而非取代的能力。目前的評測主要聚焦於行政效能與資訊統整,這些任務雖然繁重,卻只是醫療行為的一部分。
臨床診斷的精髓在於人類的感官判斷與同理心,這些溫暖且具備直覺的特質仍是 AI 難以企及的領域。AI 的強項在於處理資料與提升效率,而醫護人員的價值在於對生命的關懷與複雜醫病關係的處理。當科技能分擔行政重擔,醫護人員反而能回歸專業初衷。換言之,AI 是最佳的後勤助手,而醫療行為的最終決策與關懷核心,始終會保留在人類手中。
首圖由 Nano Banana AI 生成







