知名菲爾茲獎得主、數學家 Timothy Gowers 日前在其個人部落格發表了一篇文章《A recent experience with ChatGPT 5.5 Pro》,引起不少關注和討論。Gowers 在原文開頭表示,ChatGPT 5.5 Pro 在幾乎沒有他提供嚴肅數學提示的情況下,於約一小時左右的互動過程中,產出了一段可被視為博士級研究水準的數學成果。需要注意的是,這裡的一小時左右是對整體互動與成果整理的概括描述,其中第一個關鍵構造,模型實際花了 17 分 5 秒完成。
17 分鐘提出關鍵構造
Gowers 在文章中提到,他將數學家 Mel Nathanson 關於加性數論(Additive Number Theory)中一個尚未完全解決的問題交給了 ChatGPT 5.5 Pro。問題探討的是在特定條件下,集合的直徑需要多大。令人驚訝的是,這款 AI 模型進行了約 17 分鐘的「思考」後,給出了一個二次方的上限(quadratic upper bound)構造,這顯然是最佳的可能解。隨後,AI 僅花了 2 分多鐘便將論證過程轉換成了標準的 LaTeX 數學預印本格式。Gowers 在仔細驗證後,確認了該證明的正確性。
Gowers 後來問的是,能不能把 Isaac Rajagopal 原本對一般 h 的結果再改進。這不是單純 h=2 的問題,而是更一般、更複雜的版本。這裡 ChatGPT 先做了一個從 exponential in k 改進到 exponential in k^(1/2+ε)」的中間成果,花了 16 分 41 秒,再寫成 preprint,花了 47 分 39 秒。這一段加起來約 64 分鐘。
Gowers 接著又要求 ChatGPT 嘗試推到 polynomial bound。ChatGPT 花 13 分 33 秒提出方向,再花 9 分 12 秒檢查技術命題,最後花 31 分 40 秒寫成 preprint。這三段加起來約 54 分 25 秒,這個想法是「original and clever」,而且 ChatGPT 用不到一小時找到並證明。這裡的「不到一小時」指的就是 polynomial bound 這個關鍵進展本身,不包括前面那個較例行的中間改進與第一次 preprint 整理。
Gowers 和 AI 的互動過程,並不是指整個實驗從頭到尾只花一小時,而是指其中一項關鍵研究成果在約一小時內完成。若把後續針對一般 h 的多輪推導、中間結果、技術檢查與兩次預印本整理全部加總,時間則接近兩小時。換言之,17 分鐘是第一個 h=2 問題的關鍵構造時間,約一小時是後續 polynomial bound 這項核心突破的時間,接近兩小時則是更完整的第二階段互動總耗時,而這樣的成果,正為大家驚艷。
對照業界測試
AI 早已在科學領域展露頭角 Gowers 的經歷並非孤例。回顧 OpenAI 在 2025 年 11 月發布的《Early experiments in accelerating science with GPT-5》報告,當時的模型已經展現出強大的數理邏輯能力,例如在物理學領域成功輔助重建了克爾黑洞(Kerr black hole)波動方程中隱藏的對稱代數。
然而,Gowers 這次對 ChatGPT 5.5 Pro 的測試進一步證明,AI 的能力已經在輔助整合已知結果這段固然已經不錯,如今更進化到了獨立推理並解決開放性學術問題,能力確實更上一層樓。
數學研究的危機與未來
正如《Startup Fortune》在近期的報導《Timothy Gowers says AI is forcing mathematics to rethink research》中所指出的,Gowers 提到的危機並不是指數學問題會被窮盡,而是指向了學術界的訓練機制與學術信用。傳統上,這類中等難度的開放性問題正是博士生用來鍛鍊研究能力的重要階梯,如今 AI 能夠輕易完成這項工作,未來的數學家該如何訓練?學術界又該如何認定研究貢獻?
CyberQ 認為,隨著大型語言模型不斷刷新我們對其數理能力的評估上限,人類科學家與 AI 的協作模式又有更好的進展,很值得關注和期待未來的進展。






