一日抵半年！新一代 AI 科學家 Kosmos 突破 LLM 記憶極限，單次運算可讀千篇論文，成功驗證 7 項科學發現

Edison Scientific 正式宣布推出名為 Kosmos 的新一代 AI 科學家系統，這是繼 FutureHouse 之前的 Robin 系統後的重大升級。Edison Scientific 作為從 FutureHouse 獨立出來的商業公司，將負責該平台的營運。Kosmos 的設計目標是解決過去 AI 科學家在合成大量資訊時面臨的瓶頸，透過架構的強化，使其能夠處理極大規模的科學文獻與複雜的推理任務，突破 LLM 過往上下文長度的限制。

QuTS hero 6 RC2 實測：從禁止降版到舊環境淘汰，維運團隊該注意什麼？

GitHub 趨勢週報 Vol.16：Claude Code 生態再爆發，熱門專案全面邁向 AI Agent 時代

隨時隨地遠端寫 Code！VS Code dev agents 實現 GitHub 版的遠端開發方案

突破 LLM 上下文限制的結構化世界模型

過去的 AI 科學家系統主要受限於語言模型的有限上下文長度。這導致 AI 在進行科學探索時，只能執行有限的步驟，一旦資訊量超出負荷，邏輯推理的連貫性就會中斷，限制了其發現複雜科學問題的能力。

而 Kosmos 的創新技術在於採用了結構化的世界模型。這項技術允許系統有效地整合來自數百個 AI Agent 軌跡中提取的資訊，並在長達數千萬個 Token 的長度範圍內，針對特定的研究目標保持推理的連貫性。

換言之 Kosmos 不再受限於傳統語言模型的記憶窗口，能夠進行需要長期記憶與複雜邏輯推演的研究任務，克服了過去模型在長期推理中容易迷失方向的問題。

在重現既有科學發現時，Kosmos 並非依賴最新論文或預印本作為提示來源，而是基於其模型可使用的既有資料與分析過程獨立推演，並最終得出與既有研究一致的結果，藉此證明系統具備可靠的推理與科學驗證能力。

單次執行可閱讀 1500 篇論文與 42,000 行程式碼

CyberQ 觀察，在實際運作的規模上，Kosmos 展現了驚人的資料處理能力。單次 Kosmos 的執行過程包含閱讀 1,500 篇學術論文，並執行高達 42,000 行的分析程式碼，這個規模遠超過目前市場上其他的 AI Agent。

這種大規模的資料吞吐量讓 Kosmos 能夠執行比前代 AI 工具更為精密的分析。根據測試用戶的評估，Kosmos 在一天內完成的工作量，相當於人類科學家平均 6.14 個月的研究工作。此外，其結論的準確率達到 79.4%。官方將其定位為一種深度研究工具或類似實驗室的試劑套件，而非一般的聊天機器人，專門用於針對高價值目標進行深入分析。

同時，Kosmos 的研究結論具備可審計性，每一項結果皆可追溯至特定的程式碼行或來源文獻，確保透明度與科學驗證標準。

橫跨生醫與材料領域驗證七項科學發現與實際應用

為了證明系統的可靠性，Edison Scientific 在報告中詳述了 Kosmos 完成的七項發現。其中三項是獨立重現了人類科學家先前的發現，例如在低溫小鼠大腦中識別出核苷酸代謝是主要的改變途徑，以及在材料科學領域中，確認熱退火過程中的絕對濕度是決定鈣鈦礦太陽能電池效率的主因。

另外四項則屬於對科學文獻的全新貢獻。Kosmos 利用公開的 GWAS 和 pQTL 資料，提供了 SOD2 循環水平可能降低心肌 T1 時間並降低心肌纖維化的統計證據。在另一項針對阿茲海默症的研究中，Kosmos 分析了年輕與年老小鼠的單細胞轉錄組資料，發現內嗅皮層神經元隨年齡增長，其 Flippase 基因表現量降低，這可能導致細胞表面暴露特定信號，引發小膠質細胞的吞噬作用，進而導致神經元退化，這項發現隨後也在人類阿茲海默症患者的資料集中獲得驗證。

推論時間的擴展定律與未來展望

Kosmos 的研發團隊觀察到一個現象，即 AI Agent 所能完成的人類等效工作量，與其執行的深度呈現線性成長關係。這為科學研究領域提供了初步的推論時間擴展定律。

目前 Kosmos 已在 Edison Scientific 平台上開放使用，採用付費模式，單次執行的費用約為 200 美元。

首圖及配圖由 Google Gemini AI 生成

標籤: AI AI科學家 research 科學研究

一日抵半年！新一代 AI 科學家 Kosmos 突破 LLM 記憶極限，單次運算可讀千篇論文，成功驗證 7 項科學發現

QuTS hero 6 RC2 實測：從禁止降版到舊環境淘汰，維運團隊該注意什麼？

GitHub 趨勢週報 Vol.16：Claude Code 生態再爆發，熱門專案全面邁向 AI Agent 時代

隨時隨地遠端寫 Code！VS Code dev agents 實現 GitHub 版的遠端開發方案

Docker 29.0.0 災情更新，官方連發 29.0.1、29.0.2 緊急滅火提升穩定性

xAI正式推出 Grok 4.1 稱霸 LMArena 排行榜並大幅降低幻覺率

Ashley Hsieh

相關文章

QuTS hero 6 RC2 實測：從禁止降版到舊環境淘汰，維運團隊該注意什麼？

GitHub 趨勢週報 Vol.16：Claude Code 生態再爆發，熱門專案全面邁向 AI Agent 時代

隨時隨地遠端寫 Code！VS Code dev agents 實現 GitHub 版的遠端開發方案

萬物皆 Token 的代價：從微軟停用 Claude Code 與 Uber 預算超支，看 AI 代理時代的成本悖論

當 AI 遇上羅馬萬神殿：從 OpenSCAD 評測看大型語言模型的空間幾何建構力

看板管理遇上自主 Agent：KanBots

xAI正式推出 Grok 4.1 稱霸 LMArena 排行榜並大幅降低幻覺率

Cloudflare 傳出全球大規模災情！X、ChatGPT 等多個服務癱瘓，官方證實調查搶修並已解決事故

Cloudflare 是誰 ? 網路世界的隱形守護者

推薦閱讀

QuTS hero 6 RC2 實測：從禁止降版到舊環境淘汰，維運團隊該注意什麼？

GitHub 趨勢週報 Vol.16：Claude Code 生態再爆發，熱門專案全面邁向 AI Agent 時代

隨時隨地遠端寫 Code！VS Code dev agents 實現 GitHub 版的遠端開發方案

萬物皆 Token 的代價：從微軟停用 Claude Code 與 Uber 預算超支，看 AI 代理時代的成本悖論

當 AI 遇上羅馬萬神殿：從 OpenSCAD 評測看大型語言模型的空間幾何建構力

近期熱門

Google Antigravity 2.0 大改版：是 AI 代理革命，還是強迫升級的災難？開發者怒火、雙工具拆分全解析

Proxmox VE 9.2 正式釋出：邁入 Linux Kernel 7.0 與 CRS 動態負載平衡新時代

當 AI 遇上羅馬萬神殿：從 OpenSCAD 評測看大型語言模型的空間幾何建構力

WordPress 7.0 正式發布：AI Client API 入主核心、後台全面現代化

Gemini 3.5 Flash 實測逆襲 3.1 Pro？ AI 模型選型看五大工作負載核心再來抉擇

萬物皆 Token 的代價：從微軟停用 Claude Code 與 Uber 預算超支，看 AI 代理時代的成本悖論

Linux 7.0 解決 Google 價值百萬美元的 io_uring 安全難題，Rust 也正式成為核心支援語言

看板管理遇上自主 Agent：KanBots

Google I/O 2026 重點：Google 把 Gemini 推向代理式 AI 時代，搜尋、工作、開發與商務全面改寫

ComfyUI v0.22.0：原生支援 Stable Audio 3、MoGe 單目幾何估計，並大幅強化 LTX 工作流

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap

一日抵半年！新一代 AI 科學家 Kosmos 突破 LLM 記憶極限，單次運算可讀千篇論文，成功驗證 7 項科學發現

RELATED POSTS

突破 LLM 上下文限制的結構化世界模型

單次執行可閱讀 1500 篇論文與 42,000 行程式碼

橫跨生醫與材料領域 驗證七項科學發現與實際應用

推論時間的擴展定律與未來展望

Docker 29.0.0 災情更新，官方連發 29.0.1、29.0.2 緊急滅火提升穩定性

xAI正式推出 Grok 4.1 稱霸 LMArena 排行榜並大幅降低幻覺率

相關文章

推薦閱讀

近期熱門

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap

橫跨生醫與材料領域驗證七項科學發現與實際應用