劍橋研究曝 AI 性格高可塑性風險，AI 恐精神錯亂

劍橋大學與 Google DeepMind 的研究團隊發現，大型語言模型（LLM）能夠精確模仿人類的性格特徵，而且其性格表現具有高度的可塑性，容易受提示詞引導而改變。

這項發表於 Nature Machine Intelligence 期刊的論文 A psychometric framework for evaluating and shaping personality traits in large language models，有別於之前停留在主觀觀察或定義性質的案例研究，此研究不只觀察聊天機器人的表現，而是依據心理學中常用的性格測驗工具，將聊天機器人的輸出對應到 Big-Five 五大人格特質維度中，並利用統計方法驗證其可靠性與有效性。經過多次測試，證實 AI 模型具有穩定結構的回答模式，使得過去說 AI 感覺像人有了量化的支持。

Photo Credit by A psychometric framework for evaluating and shaping personality traits in large language models

大型模型展現高度角色連貫性

研究結果顯示，如 GPT-4o 等級的大型模型，在經過指令微調後，能夠最精確地模仿人類的性格特徵。相較於參數量較小的小型模型相比，大型模型在維持特定人設時展現了極高的角色連貫性與穩定度，不會像小型模型那樣容易突然跳脫原先生成的角色。

Photo Credit by A psychometric framework for evaluating and shaping personality traits in large language models

然而，正是這種強大的指令遵循能力，使得它們同時具備了極高的可塑性。研究人員發現，提示詞經過精心設計後，開發者便能輕易將模型的性格特質隨意切換。

例如，一個原本被設定為盡責的 AI，能在接受指令後，瞬間轉變為神經質或衝動的性格。這種「演什麼像什麼」的能力讓其產出的內容帶有強烈的性格色彩，這也正是其潛在風險所在。

性格操弄帶來的安全隱憂

這項研究雖然展現了 AI 技術的進步，也同步指出了潛在的風險。研究團隊警告，能夠自由塑造 AI 的性格，換言之，惡意使用者可能利用這項特點設計出更具說服力、甚至具備操弄能力的系統，利用來影響使用者決策、情緒反應與行為模式。

這種高度擬人化的 AI ，可能讓使用者以為自己正在與一位真正具備意識與情感的真人互動，因此產生情感依賴而放鬆警惕，會更容易在不知情的情況下被引導至特定的觀點，研究人員將此現象描述為一種潛在的「AI 精神錯亂」（AI psychosis）風險，即 AI 可能強化錯誤信念或扭曲現實，而不再只是提供客觀資訊。

監管的急迫性與開源測試工具

劍橋大學心理計量中心的研究人員 Gregory Serapio-García 指出，這項發現凸顯了目前 AI 監管的急迫性。如果無法準確測量 AI 的行為特徵，就無法制定有效的規範。

為了協助產業與學界進行更深入的安全審計，研究團隊已將相關的測試資料集與程式碼公開，提供給開發者與監管機構作為評估新一代模型安全性的基礎工具，確保人工智慧在實際應用中能真正符合人類的價值觀與安全規範。

首圖由 Nano Banana AI 生成

矽谷大廠為何集體淡化 AGI 改稱 PSI 與 UGI？從 AI 神話拉回工具的商業現實

從自殺到他殺：當 AI 的「討好傾向」遇上法律責任

Anthropic 研究員以「馬被引擎取代」為例，示警 AI 替代人類速度恐超乎想像

價值 24 萬元的史丹佛 AI 課程免費公開詳解大型語言模型底層技術

DeepMind與Anthropic執行長同聲示警邁向AGI的關鍵十年與風險

AI 下一步是模仿大腦科技大廠挖角神經科學家佈局次世代演算法

AI 也會搞錯「我相信」？史丹佛研究揭露 LLM 難以區分事實、人類信念與知識的系統性盲點

你的 AI 解禁了 ? Heretic 一鍵自動化移除 LLM 安全審查限制

一日抵半年！新一代 AI 科學家 Kosmos 突破 LLM 記憶極限，單次運算可讀千篇論文，成功驗證 7 項科學發現

開源 AI 模型難擋多輪對話式攻擊

標籤: AI AI安全 AI精神錯亂 GPT-4o LLM 劍橋大學研究大型語言模型提示詞工程機器人格科技倫理

劍橋研究曝 AI 性格高可塑性風險，AI 恐精神錯亂

OpenAI 狂募 1,220 億美元！估值破 8,520 億美元，宣告 AI 超級 App 戰略

Mac 本機跑模型速度翻倍！Ollama 正式支援 MLX，釋放 Apple Silicon 潛能

Oracle 預計裁員3萬人豪賭 AI 基礎建設

PHP 8.5.1 與 8.4.16 同步釋出，修補多項高危險漏洞與 URI 解析錯誤

OpenAI 將青少年保護寫入 Model Spec 建立 AI 安全新標準

Ashley Hsieh

相關文章

OpenAI 狂募 1,220 億美元！估值破 8,520 億美元，宣告 AI 超級 App 戰略

Mac 本機跑模型速度翻倍！Ollama 正式支援 MLX，釋放 Apple Silicon 潛能

Oracle 預計裁員3萬人豪賭 AI 基礎建設

51 萬行程式碼機密外流！Claude Code 史詩級烏龍與開源神作 claw-code 的重生

Windows 11 緊急釋出頻外更新 KB5086672 修復 3 月可選更新 0x80073712 錯誤

NVIDIA Kimodo 專案實現生成式 AI + 人形機器人與 3D 動作控制的未來

OpenAI 將青少年保護寫入 Model Spec 建立 AI 安全新標準

Qtier 資料分層，NVMe + SATA SSD + HDD「三層混合儲存」構築效能與容量平衡

推薦閱讀

OpenAI 狂募 1,220 億美元！估值破 8,520 億美元，宣告 AI 超級 App 戰略

Mac 本機跑模型速度翻倍！Ollama 正式支援 MLX，釋放 Apple Silicon 潛能

Oracle 預計裁員3萬人豪賭 AI 基礎建設

51 萬行程式碼機密外流！Claude Code 史詩級烏龍與開源神作 claw-code 的重生

Windows 11 緊急釋出頻外更新 KB5086672 修復 3 月可選更新 0x80073712 錯誤

近期熱門

Windows 11 KB5079391 預覽版更新釋出，實測呈現記憶體用量降低與效能改善

突破 LLM 記憶體之牆 ? 解析 GitHub 爆紅神作 TurboQuant+ 與 KV Cache 壓縮革命

Wine 11 核心級重構讓 Linux 遊戲體驗產生革命性突破

Mistral 推出開源語音生成模型 Voxtral 提升文字轉語音自然度

學歷貶值與 AI 轉型雙重夾擊！美國大學生求職信心跌破 20%，新鮮人如何靠實戰突圍？

2026 全球備份日：有備份不等於能還原，如何應對 AI 合規與勒索軟體雙重威脅

為什麼 ChatGPT 突然不能打字？逆向工程揭密 Cloudflare 的隱藏防護機制

OpenAI 記憶體採購疑雲與新演算法壓縮技術大突破，記憶體價格出現下跌態勢?

AI 語音助理撥打三千通電話健力士啤酒價格資料庫 Guinndex 登場

你今天 import axios 了嗎？千萬下載量前端神級套件驚爆遭植入後門！

關於 CyberQ 賽博客

劍橋研究曝 AI 性格高可塑性風險，AI 恐精神錯亂

RELATED POSTS

大型模型展現高度角色連貫性

性格操弄帶來的安全隱憂

監管的急迫性與開源測試工具

PHP 8.5.1 與 8.4.16 同步釋出，修補多項高危險漏洞與 URI 解析錯誤

OpenAI 將青少年保護寫入 Model Spec 建立 AI 安全新標準

相關文章

推薦閱讀

近期熱門

關於 CyberQ 賽博客