隱蔽限制尖端模型開發引發社群反彈
CyberQ 前一篇針對 Fable 5 的報導中有提到 Anthropic 近期推出的 Claude Fable 5 模型因安全分類器設定過於保守,已在開發者與研究社群間引發不少討論。而 WIRED 這篇 Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude 進一步指出,這波爭議的核心還包含 Anthropic 針對其他競爭對手的大型語言模型開發的相關請求採取了不公開的限制措施。
當使用者利用 Claude Fable 5 訓練競爭模型或進行高階人工智慧研發時,系統就會默默降低回應品質,但使用者本身並不會被通知已被 Fable 5 拒絕而降級到 Opus 4.8了。在社群強烈抗議後,Anthropic 承認這項政策的缺失,並承諾未來將防護機制改為明示,以後使用者將會清楚知道請求是否被拒絕或已被轉接至能力較弱的模型,而不會再默默感受到回應品質下降。
防護機制不透明將嚴重破壞使用者信任
從產業發展的角度來看,AI 相關企業確實有必要防止高階模型被用於危險研究,或是被競爭對手用於模型蒸餾。然而,當這些防護機制成為黑箱作業時,將衍生出更嚴重的問題。當防護機制未明確告知使用者,使用者在獲得低品質的回應時,就無法判斷是因為自身提示詞撰寫不佳、模型本身能力不足,還是遭到系統強制降階。而對於依賴模型進行測試的研究人員、開源社群以及第三方評測機構來說,Anthropic 原先的這種作法會直接破壞研究成果的可重現性,並且影響使用者對大廠的信任。
建立透明標準是未來高能力模型必經之路
開源人工智慧新創企業 Prime Intellect 研究負責人 Will Brown 與美國創新基金會資深研究員 Dean Ball 皆表達了對此類秘密干預政策的擔憂,認為這會阻礙人工智慧研究人員之間的交流。
回顧這起事件,Anthropic 的政策轉向也凸顯了人工智慧安全防護需要再擴充,我們認為未來高能力模型的安全機制,必須在防範風險與保持公開透明之間取得平衡。這包含提供更透明的拒答原因、清晰的模型轉接說明,甚至建立完善的申訴機制,才能在確保安全的同時,維持整體人工智慧生態系的健康發展。
首圖由 Nano Banana AI 生成







