美國麻省總醫院布里格姆分院 (Mass General Brigham) 的研究團隊開發出一套能夠完全自行偵測判斷認知疾病的人工智慧系統,這套系統能透過分析日常臨床筆記就偵測患者早期的認知障礙跡象。
這項發表於《npj Digital Medicine》期刊的研究成果指出,該 AI 系統在真實世界的驗證測試中展現了高達 98% 的特異度,可說為阿茲海默症這類認知疾病的早期篩檢帶來重大突破。
由五位AI代理人組成的虛擬醫療團隊
這套系統是一個由五個不同專業的 AI 代理人組成的數位臨床團隊。麻省總醫院布里格姆分院臨床擴增智慧研究小組主任 Hossein Estiri 指出,這五位 AI 代理人各司其職,能像真實的醫生在病例研討會那樣互動,彼此檢視並修正對方的推論。
這種專業分工及合作的機制讓系統能在沒有人類介入的情況下自主運作,透過結構化的合作不斷優化偵測能力,直到達成預定的效能目標。
保障隱私的在地化模型運作
為了能更加有效地捕捉高風險患者及兼顧患者的隱私,研究團隊採用了開放權重(Open Weights)的大型語言模型,將其部署在醫院內部的資訊基礎設施中。
CyberQ 觀察,該醫院在這部分的實作呢,可以讓所有資料處理都能在本地端完成,病患的隱私資料完全不會傳送到外部伺服器或雲端服務。這套創新的系統將日常就診產生的大量臨床紀錄,作為早期篩檢的判斷依據,找出那些可能需要進一步正式評估的潛在患者。
誠實面對AI校準挑戰與資料意義
在真實環境的測試中,該系統雖然維持了極高的特異度,但敏感度從平衡測試環境下的 91% 下降至 62%。為了讓外界更理解這些資料的臨床意義,CyberQ 解析了這兩項指標的落差。
98% 的特異度意味著如果有 100 位認知功能正常的民眾接受測試,這套 AI 系統能夠準確地將其中 98 人判定為正常,只有 2 個人會被錯誤地標記為有風險。這種低誤報率對醫療資源分配是滿重要的,由於系統不會產生大量錯誤警報來干擾醫生,讓醫生能在這種情況下,提高對系統跳出警示的信任,而這些警示將大多具備參考價值。
但是相對地,62%的敏感度則揭示了目前的技術瓶頸。這表示在 100 位確實患有認知障礙的病患中,AI 目前僅能抓出62位,剩下的 38位可能會被遺漏。這種「寧可漏抓,也不隨意誤判」的保守策略,是研究團隊面前仍需努力的校準挑戰。Hossein Estiri 強調,唯有誠實面對並解決這些挑戰,針對病歷紀錄的侷限性繼續進行最佳化,才能真正建立臨床 AI 的信任度。
首圖由 Nano Banana AI 生成







