劍橋研究曝 AI 性格高可塑性風險，AI 恐精神錯亂

劍橋大學與 Google DeepMind 的研究團隊發現，大型語言模型（LLM）能夠精確模仿人類的性格特徵，而且其性格表現具有高度的可塑性，容易受提示詞引導而改變。

Anthropic 低價 Sonnet 5 衝刺 IPO，美政府亦解除對Fable 5 和 Mythos 5 的出口管制｜產業精選 07.01

母公司喊安、子公司爆外洩？PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗

Rocket Lab收購銥衛星｜AI筆記裝置Pocket募資｜Busy Bar 可自訂螢幕｜產業精選 06.29 下

這項發表於 Nature Machine Intelligence 期刊的論文 A psychometric framework for evaluating and shaping personality traits in large language models，有別於之前停留在主觀觀察或定義性質的案例研究，此研究不只觀察聊天機器人的表現，而是依據心理學中常用的性格測驗工具，將聊天機器人的輸出對應到 Big-Five 五大人格特質維度中，並利用統計方法驗證其可靠性與有效性。經過多次測試，證實 AI 模型具有穩定結構的回答模式，使得過去說 AI 感覺像人有了量化的支持。

Photo Credit by A psychometric framework for evaluating and shaping personality traits in large language models

大型模型展現高度角色連貫性

研究結果顯示，如 GPT-4o 等級的大型模型，在經過指令微調後，能夠最精確地模仿人類的性格特徵。相較於參數量較小的小型模型相比，大型模型在維持特定人設時展現了極高的角色連貫性與穩定度，不會像小型模型那樣容易突然跳脫原先生成的角色。

Photo Credit by A psychometric framework for evaluating and shaping personality traits in large language models

然而，正是這種強大的指令遵循能力，使得它們同時具備了極高的可塑性。研究人員發現，提示詞經過精心設計後，開發者便能輕易將模型的性格特質隨意切換。

例如，一個原本被設定為盡責的 AI，能在接受指令後，瞬間轉變為神經質或衝動的性格。這種「演什麼像什麼」的能力讓其產出的內容帶有強烈的性格色彩，這也正是其潛在風險所在。

性格操弄帶來的安全隱憂

這項研究雖然展現了 AI 技術的進步，也同步指出了潛在的風險。研究團隊警告，能夠自由塑造 AI 的性格，換言之，惡意使用者可能利用這項特點設計出更具說服力、甚至具備操弄能力的系統，利用來影響使用者決策、情緒反應與行為模式。

這種高度擬人化的 AI ，可能讓使用者以為自己正在與一位真正具備意識與情感的真人互動，因此產生情感依賴而放鬆警惕，會更容易在不知情的情況下被引導至特定的觀點，研究人員將此現象描述為一種潛在的「AI 精神錯亂」（AI psychosis）風險，即 AI 可能強化錯誤信念或扭曲現實，而不再只是提供客觀資訊。

監管的急迫性與開源測試工具

劍橋大學心理計量中心的研究人員 Gregory Serapio-García 指出，這項發現凸顯了目前 AI 監管的急迫性。如果無法準確測量 AI 的行為特徵，就無法制定有效的規範。

為了協助產業與學界進行更深入的安全審計，研究團隊已將相關的測試資料集與程式碼公開，提供給開發者與監管機構作為評估新一代模型安全性的基礎工具，確保人工智慧在實際應用中能真正符合人類的價值觀與安全規範。

首圖由 Nano Banana AI 生成

矽谷大廠為何集體淡化 AGI 改稱 PSI 與 UGI？從 AI 神話拉回工具的商業現實

從自殺到他殺：當 AI 的「討好傾向」遇上法律責任

Anthropic 研究員以「馬被引擎取代」為例，示警 AI 替代人類速度恐超乎想像

價值 24 萬元的史丹佛 AI 課程免費公開詳解大型語言模型底層技術

DeepMind與Anthropic執行長同聲示警邁向AGI的關鍵十年與風險

AI 下一步是模仿大腦科技大廠挖角神經科學家佈局次世代演算法

AI 也會搞錯「我相信」？史丹佛研究揭露 LLM 難以區分事實、人類信念與知識的系統性盲點

你的 AI 解禁了 ? Heretic 一鍵自動化移除 LLM 安全審查限制

一日抵半年！新一代 AI 科學家 Kosmos 突破 LLM 記憶極限，單次運算可讀千篇論文，成功驗證 7 項科學發現

開源 AI 模型難擋多輪對話式攻擊

標籤: AI AI安全 AI精神錯亂 GPT-4o LLM 劍橋大學研究大型語言模型提示詞工程機器人格科技倫理

劍橋研究曝 AI 性格高可塑性風險，AI 恐精神錯亂

Anthropic 低價 Sonnet 5 衝刺 IPO，美政府亦解除對Fable 5 和 Mythos 5 的出口管制｜產業精選 07.01

母公司喊安、子公司爆外洩？PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗

Rocket Lab收購銥衛星｜AI筆記裝置Pocket募資｜Busy Bar 可自訂螢幕｜產業精選 06.29 下

PHP 8.5.1 與 8.4.16 同步釋出，修補多項高危險漏洞與 URI 解析錯誤

OpenAI 將青少年保護寫入 Model Spec 建立 AI 安全新標準

Ashley Hsieh

相關文章

Anthropic 低價 Sonnet 5 衝刺 IPO，美政府亦解除對Fable 5 和 Mythos 5 的出口管制｜產業精選 07.01

母公司喊安、子公司爆外洩？PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗

Rocket Lab收購銥衛星｜AI筆記裝置Pocket募資｜Busy Bar 可自訂螢幕｜產業精選 06.29 下

福特重聘資深工程師修正 AI 缺陷想挽回汽車品質

Gemini 個人化影像生成免費｜DeepSeek DSpark 開源加速推論｜Claude Code 需關注供應鏈攻擊｜產業精選 06.30 上

Google AI 人才大撤退：OpenAI 與 Anthropic 正在重塑下一代模型版圖

OpenAI 將青少年保護寫入 Model Spec 建立 AI 安全新標準

Qtier 資料分層，NVMe + SATA SSD + HDD「三層混合儲存」構築效能與容量平衡

該幫 NAS 裝 SSD 固態硬碟嗎？

推薦閱讀

Anthropic 低價 Sonnet 5 衝刺 IPO，美政府亦解除對Fable 5 和 Mythos 5 的出口管制｜產業精選 07.01

母公司喊安、子公司爆外洩？PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗

Rocket Lab收購銥衛星｜AI筆記裝置Pocket募資｜Busy Bar 可自訂螢幕｜產業精選 06.29 下

福特重聘資深工程師修正 AI 缺陷想挽回汽車品質

Gemini 個人化影像生成免費｜DeepSeek DSpark 開源加速推論｜Claude Code 需關注供應鏈攻擊｜產業精選 06.30 上

近期熱門

美國政府同意重新開放 Anthropic 新模型部署於關鍵基礎設施，三大 AI 大廠次世代模型管制與延期內幕

全球記憶體海嘯與硬體通膨：從蘋果全面漲價透視半導體產能結構性失衡

僅 7% 美國人依賴 AI 讀新聞！民調揭露青壯年族群反而更不信任 AI 報導

部署 Hermes Agent 實戰，24 小時不間斷的地端自動化 AI 助理

AI 原被預測消滅工程職位，新資料卻顯示工程師職位反而更穩固｜產業精選 06.25

Google AI 人才大撤退：OpenAI 與 Anthropic 正在重塑下一代模型版圖

母公司喊安、子公司爆外洩？PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗

OpenAI 同意美政府要求延後發布 GPT-5.6，Corgi 否認竊取開源產品｜產業精選 06.27

100GbE NFS over RDMA 實戰，直連 DGX Spark 執行 DS4 大型模型突破 AI 推理儲存瓶頸

Gemini 個人化影像生成免費｜DeepSeek DSpark 開源加速推論｜Claude Code 需關注供應鏈攻擊｜產業精選 06.30 上

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap

劍橋研究曝 AI 性格高可塑性風險，AI 恐精神錯亂

RELATED POSTS

大型模型展現高度角色連貫性

性格操弄帶來的安全隱憂

監管的急迫性與開源測試工具

PHP 8.5.1 與 8.4.16 同步釋出，修補多項高危險漏洞與 URI 解析錯誤

OpenAI 將青少年保護寫入 Model Spec 建立 AI 安全新標準

相關文章

推薦閱讀

近期熱門

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap