最近一篇由多位美國政治學與社會學家共同發表在 Nature 期刊的論文 State media control influences large language models 指出,在主流的大型語言模型中,對於越集權的國家,模型給予的好感分數越高。這種現象特別是當使用者以該國官方語言輸入提示詞時會更為明顯。
研究進一步說明,當模型吸收了這些帶有特定立場的內容後,會將原本的政治宣傳轉化為看似客觀中立的文字。大型語言模型將訊息與傳遞者分離,原本來自強勢政府的戰略性敘事,在系統的轉述下,變成了彷彿是知識淵博的助理所提供的專業見解。由於缺乏來源信譽的標示,一般民眾難以察覺這些回答背後所隱藏的利益考量。
研究團隊認為,這背後的原因在於極權國家嚴格控制媒體,導致媒體上都是大量讚美當地政權的內容,當AI大廠將這些文章抓取來作為訓練資料,模型吸收了這些帶有特定立場的內容後,模型會自然而然地學會替該政權說好話,而且模型會將這些內容都轉化為看似客觀中立的文字,在模型的轉述下,看起來變成了專業見解,一般民眾難以察覺這些回答背後所隱藏的利益考量。
大型語言模型的核心能力來自海量文本訓練,模型的價值觀與敘事邏輯,很大程度上取決於訓練資料本身,如果某些語言環境中的網路內容長期受到國家媒體主導、言論審查或資訊過濾,模型便可能受到影響。
研究團隊分析發現,這種現象特別在當使用者以該國官方語言輸入提示詞時會更為明顯。為了解開這背後的因果關係,研究人員選用部分開放權重的模型進行實驗,將六萬篇中國官方媒體與合作媒體的新聞庫灌入系統做額外訓練,研究結果證實,當模型讀取越多的官媒內容,就越傾向給出對該政治機構有利的正面回覆。
而且這項影響不僅限於簡體中文,甚至還外溢到繁體中文甚至日文的提示詞,當模型大量吸收來自受控媒體體系的內容時,在涉及政治、人權與歷史事件等敏感議題時,便會出現與官方媒體高度相似的回應模式。
資料污染成為生成式AI全新風險
這項研究進一步提出了資料污染的結構性問題。當整個資訊生態本身存在系統性偏差時,人工智慧模型也會在不知不覺中受到影響,這種風險並非單一國家獨有,而是全球發展都必須面對的問題。
大型語言模型的訓練大量仰賴公開網路資料,而網路資訊本身就可能存在政治宣傳、假訊息與媒體操控。在生成式AI快速普及後,模型輸出的內容又會重新回流到網路世界,形成新的資料循環。研究人員警告,若缺乏有效治理,未來恐出現偏見再生產現象,使特定敘事不斷被放大與複製。
地緣政治與數位主權問題浮現
近年包括歐盟、中國以及部分國家,都開始積極推動本地 AI 模型、生態系與監管制度,這背後的原因除了產業競爭的因素之外,也涉及數位主權與資訊控制權。部分國家開始強調本土化AI,要求模型符合在地法律與規範,這種趨勢可能進一步導致全球系統出現不同版本的價值觀與內容限制。
大型語言模型已經逐漸成為資訊傳播與知識建構的重要基礎設施,未來誰掌握訓練資料以及誰能影響資訊來源,將可能成為競爭中的關鍵。
建立資料審核與第三方驗證機制
CyberQ 認為,從這篇論文可知現在開源AI與資料透明化將變得更受到重視,當外界無法得知模型實際使用哪些資料與如何篩選內容時,這些模型的可信度將可能受到質疑。
目前許多大廠並未完整公開訓練資料來源,當然一部分是因為商業機密、版權風險與安全考量。但是隨著生成式AI逐漸影響搜尋、教育、媒體與公共資訊,外界對於模型透明度勢必也會有所要求,這也是近年對於資料治理、模型稽核與第三方驗證機制的要求變多。但不可諱言,某些國家的大型語言模型已經成為特定政治敘事的延伸工具,這點就很難避免了。
首圖由 Nano Banana AI 生成








