把 AI 關進 1930 年的圖書館，Talkie 呈現有年代感的大語言模型

當多數 AI 公司都在競賽誰能接上更新的網頁、更多的資料、更即時的搜尋結果時，Talkie 選擇了一條完全相反的路，把語言模型的世界觀鎖在 1930 年以前。

Talkie 是由 Nick Levine、David Duvenaud 與 Alec Radford 發表的研究型語言模型專案，官方介紹標題直接寫著「a 13B vintage language model from 1930」，發表時間為 2026 年 4 月。它不是靠提示詞假裝自己來自 1930 年，而是從訓練資料源頭就限制在 1931 年以前的英文文本，讓模型真正缺乏現代世界的知識。

有年代感的 AI

Talkie 最核心的概念是 Vintage Language Model，也就是「復古語言模型」。Owain Evans 對這類模型的定義是，只使用某個時間點以前的資料來訓練，例如訓練到 2019 年、1900 年，甚至更早的歷史時期。這類模型的挑戰不只在於資料量不足，更在於不能讓未來資訊污染過去資料。

這一點讓 Talkie 和一般角色扮演型 AI 有本質差異。你可以要求一般模型「假裝自己是 1930 年的人」，但它仍然知道電腦、網際網路、二戰、冷戰、原子彈、ChatGPT 與半導體供應鏈。Talkie 的設計目標則是讓模型真的站在 1930 年以前的文本宇宙中，從那個時代的書籍、報紙、期刊、科學論文、專利與法律案例中學習世界。官方表示，Talkie-1930-13B-base 使用 2,600 億個 pre-1931 英文 token 訓練，並以 1930 年底作為截斷點，原因與美國公有領域作品時間邊界有關。

這讓 Talkie 變成一種很奇特的研究工具，它不是用來回答「今天發生什麼事」，而是用來觀察「一個不知道未來的 AI，能不能推理出未來可能發生什麼」。

為什麼這很重要？因為它能測試 AI 是否真的會泛化

現代語言模型最大的爭議之一，是我們很難知道模型是真的理解問題，還是只是看過太多類似答案。尤其在程式、數學、科學推理與歷史問答中，訓練資料污染經常讓評測結果被高估。Talkie 的研究價值正在於，它刻意切掉現代資料，讓研究者有機會觀察模型是否能從舊知識中推導新能力。官方也明確指出，資料污染是語言模型評測中持續存在的問題，而 Vintage LM 可以用來做獨特的泛化實驗，例如測試一個完全不知道數位電腦的模型，能否在少量範例提示下學會寫 Python。

官方實驗中，研究者讓 pre-1931 的 vintage model 和使用現代網路資料訓練的同架構模型接受 HumanEval 類型的 Python 程式測試。結果不意外，復古模型遠落後於現代模型。不過有趣的是，隨著模型規模增加，它們在少量範例提示下仍出現緩慢改善。官方也很克制地承認，目前正確解大多只是簡單一行程式，或是對範例程式做很小幅度改寫。

換句話說，Talkie 不是在宣稱「1930 年 AI 也會寫程式」，而是在提供一個相對乾淨的實驗場，如果模型沒有看過 Stack Overflow、GitHub、Python 教學和現代程式語料，它究竟能從語言結構與少量示範中學到多少抽象規則呢？

它也讓我們重新思考模型人格從哪裡來

Talkie 最有意思的地方，不只是知識截止，而是它暴露出一個更深的問題，現代 LLM 的性格、語氣、價值觀與回答習慣，到底有多少是模型架構帶來的，有多少只是因為大家都吃了同一批網路資料？

官方在介紹中指出，現代模型雖然能力與風格各有差異，但大多直接或間接受網路資料、蒸餾資料與合成資料影響。因此，訓練在不同來源上的模型，可能會產生截然不同的行為、人格與傾向。

這對 AI 安全、模型治理與人文研究都很有啟發。Talkie 不是單純懷舊，而是在問一個很根本的問題，我們今天看到的AI 助理人格，到底是智慧的自然形狀，還是 21 世紀網路文化的投影？CyberQ 認為，這應該都有。

復古模型也需要後訓練

Talkie 團隊不只釋出 base model，也釋出 instruction-tuned 版本 talkie-1930-13b-it。根據 Hugging Face 模型卡，這個版本是從 talkie-1930-13b-base 後訓練而來，使用來自 1931 年以前參考書籍所抽取的 instruction-response pairs，包括禮儀手冊、百科全書與書信寫作手冊等資料，之後再透過 online DPO 與 LLM-as-a-judge 改善指令遵循能力。

這裡反而是整個專案最迷人的矛盾點。為了讓 1930 年模型變得好聊一點，不能太難聊，研究團隊仍然需要現代 AI 訓練技術。官方也坦承，雖然他們努力避免現代影響，但使用 AI 回饋進行強化學習，仍不可避免會把某些現代聊天助理的行為模式帶進 Talkie。甚至早期 7B 版本在 RL 後會開始用現代網路常見的 listicle 條列文章風格回答問題。

這一點非常關鍵。Talkie 的挑戰是怎麼不讓 2026 年的 AI 訓練方法，把 1930 年模型重新污染成現代聊天機器人。

真正難題，時間洩漏與 OCR 噪音

Talkie 團隊沒有把問題包裝得太完美。官方明確承認，時間洩漏仍然存在。他們開發了 document-level n-gram anachronism classifier 來過濾訓練資料，但效果並不完美。早期 7B 版本已經知道羅斯福總統任期與新政內容，而 13B 版本也仍然知道部分二戰、聯合國與德國分裂等 1930 年後資訊。

另一個更硬的工程問題是 OCR。1930 年以前沒有原生數位出版，許多資料必須從實體書籍、報紙、期刊掃描轉錄。官方表示，在受控實驗中，使用傳統 OCR 轉錄的 pre-1931 文本訓練模型，學習效率只有人類轉錄文本的 30%；簡單 regex 清理後可提升到 70%，但仍有明顯落差。更麻煩的是，現代 VLM 雖然 OCR 準確率較高，卻可能把現代事實幻覺進歷史語料中，反而污染整個實驗。

這讓 Talkie 不只是語言模型專案，也是一個資料治理專案。它要處理資料年代、來源、轉錄品質、後設資料可信度與語料污染問題。

開源狀態與硬體門檻

Talkie 的推論程式碼已在 GitHub 公開，採 Apache-2.0 授權。官方 README 顯示，專案提供 Python API 與 CLI，可從 Hugging Face 下載模型並執行推論。環境需求包括 Python 3.11 以上、PyTorch 2.1 以上、至少 28GB VRAM 的 CUDA GPU，以及每個模型約 26GB 到 50GB 的磁碟空間。

模型方面，目前 Hugging Face 上可看到 talkie-1930-13b-base、talkie-1930-13b-it，以及作為對照組的 talkie-web-13b-base。後者使用 FineWeb 訓練，架構與 talkie-1930-13b-base 相同，目的在於比較「復古資料」與「現代網路資料」對模型能力與行為的影響。

CyberQ 觀點：AI 研究的時間隔離實驗室

Talkie 最值得關注的地方，不是它能不能取代 ChatGPT，也不是它能不能成為日常助理。它的價值在於，第一次把知識識時間邊界變成模型研究的核心變因。

對 AI 研究者來說，它可以用來測試預測、發明、科學推理與泛化能力。對人文學者來說，它提供了一種和歷史語料互動的新方法。對資安與治理研究者來說，它則提醒我們，模型行為並非只由架構決定，資料來源、資料年代、清理流程與後訓練方法，都可能深刻形塑模型的價值觀與輸出風格。

Talkie 用一種逆向設計提出了更重要的問題，如果一個模型不知道未來，它還能推理出什麼？如果一個模型只讀過某個時代的資料，它會長出怎樣的世界觀？而如果我們能訓練 1930 年的模型，未來是否也能訓練 1911 年、1850 年、甚至不同文明語料下的平行歷史 AI？這可能會有其他開發者想做，我們可以試想一個不同時代氛圍的 AI。

Talkie 目前還不完美，存在時間洩漏、OCR 品質、英文中心語料與現代後訓練污染等問題。但正因如此，它反而比許多追求榜單成績的模型更有意思。

標籤: AI AI 模型模型訓練

把 AI 關進 1930 年的圖書館，Talkie 呈現有年代感的大語言模型

AI 世紀審判開打：馬斯克指控 OpenAI 背叛非營利初心，Altman 陣營反擊「競爭者抹黑」

微軟與 OpenAI 終止獨家綁定與營收分成，AI 雲端重新洗牌

GitHub 趨勢週報 Vol.12：AI 代理與開發架構工具的新進展

AI 世紀審判開打：馬斯克指控 OpenAI 背叛非營利初心，Altman 陣營反擊「競爭者抹黑」

Ashley Hsieh

相關文章

AI 世紀審判開打：馬斯克指控 OpenAI 背叛非營利初心，Altman 陣營反擊「競爭者抹黑」

微軟與 OpenAI 終止獨家綁定與營收分成，AI 雲端重新洗牌

GitHub 趨勢週報 Vol.12：AI 代理與開發架構工具的新進展

GPT-5.4 醫療評測表現超越人類醫師，近期也推出 ChatGPT for Clinicians

GPT-5.5 變成數位好同事 ? 市場走向全自主全自主 AI 代理時代

Qwen3.6-27B 開源模型登場，本地端 Agentic Coding 神器？

推薦閱讀