CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
  • AI 人工智慧
    • AI 應用實戰
    • AI 代理
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊
聯繫我們
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
  • AI 人工智慧
    • AI 應用實戰
    • AI 代理
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊
沒有結果
觀看所有搜尋結果
CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • 首頁
  • 新聞
  • AI 人工智慧
  • 資安
  • Docker
  • 進階應用
  • 網通
  • NAS
  • 開箱測試
  • 教學
  • 展覽直擊
首頁 新聞 AI 人工智慧

上帝不擲骰子,但 AI 會?Thinking Machines Lab 解密 LLM 推理不確定性的真正根源

Ashley Hsieh by Ashley Hsieh
2025 年 09 月 17 日 08:00
in AI 人工智慧, 新聞
閱讀時間: 2 分鐘
A A
上帝不擲骰子,但 AI 會?Thinking Machines Lab 解密 LLM 推理不確定性的真正根源
271
觀看數
分享到臉書分享到 X分享到Line分享到 Threads分享到 Linkedin

在人工智慧(AI)領域,開發者與研究人員普遍面臨一個挑戰,也就是即使我們給予完全相同的提詞(Prompt),大型語言模型(LLM) 在不同時間點也可能生成相異的結果。這種現象不僅妨礙了科學研究的再現性,也對需要高度穩定性的應用場景構成阻礙。

RELATED POSTS

Anthropic 低價 Sonnet 5 衝刺 IPO,美政府亦解除對Fable 5 和 Mythos 5 的出口管制|產業精選 07.01

母公司喊安、子公司爆外洩?PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗

Rocket Lab收購銥衛星|AI筆記裝置Pocket募資|Busy Bar 可自訂螢幕|產業精選 06.29 下

過往,LLM 的「不確定性」(Nondeterminism)學界普遍將此問題歸咎於「平行運算與浮點數的結合假說」(Concurrency + Floating Point Hypothesis)。該假說的核心在於,多 GPU 環境下的「平行運算」與電腦的「浮點數運算」這兩個特性結合後產生的放大效應。

在語言模型反覆無常的回答背後,科學家解密了令人意外的決定性因素,推翻過去對 AI 隨機性的常識。

首先,電腦在處理小數(即浮點數)時天生存在著微小的精確度限制,這導致了運算的「非結合性」,也就是(a + b) + c ≠ a + (b + c)。其次,在平行運算中,任務被分配給成千上萬個核心同時處理,但我們無法預測哪個核心會先完成。

AI 是否真的在擲骰子?究竟是怎麼回事 ?

雖說在量子力學領域,上帝真的會擲骰子,但 AI 呢? 若簡單地解釋,這就好像一個有千名廚師的巨型廚房,每位廚師都負責一部分的食材,你無法保證每一次,都是負責番茄的A廚師,比負責馬鈴薯的B廚師,早0.01秒把食材丟進鍋裡。雖然他們都完成了任務,但食材被加入湯中的「順序」,每一次都可能有些微的、不可預測的隨機變化。這就是「平行運算」帶來的隨機性。

當這兩個因素結合,運算順序的隨機性,觸發了浮點數的非結合性。最終,即使配方與食材完全相同,每次烹煮出的湯品風味(運算結果),都可能產生微乎其微的差異。

然而,由前 OpenAI 技術長 Mira Murati 所創立的 AI 研究機構「Thinking Machines Lab」近期發表了首篇研究文章《Defeating Nondeterminism in LLM Inference》,徹底顛覆了這個傳統觀點。

不確定性的真正元兇:批次大小(Batch Size)的變異

Thinking Machines Lab 的研究團隊指出,儘管浮點數運算問題確實存在,但它並非 LLM 推理不確定性的主要原因。他們透過實驗與分析發現,問題的核心在於「批次處理的非不變性」(Lack of Batch Invariance)

在實際應用中,LLM 推理伺服器(如vLLM)會根據當下的系統負載,動態調整傳入模型的批次大小,例如,在流量高峰期,伺服器可能會將多個使用者的請求合併成一個大批次進行處理;而在離峰時段,則可能以較小的批次運作。這就好像伺服器是個電梯系統,而 AI 是位住在100層樓的大師,大家都想搭電梯上去問大師問題,離峰時段時,電梯一次只載一個人 ( 這就是小批次,Batch Size = 1 ),尖峰時段時,為了效率就會盡量把電梯塞滿人再出發 (以這個案例來說就是大批次,Batch Size = 8),研究人員發現,現行許多核心的運算(Kernels),其計算結果會受到批次大小的影響。

就好像當電梯一次只載一個人時,都能夠很順暢地快速直達 101 層樓,當電梯一次載8個人時,因為重量和平衡的關係,電梯會產生微小的晃動,走的路線甚至有點偏移。換言之,一個批次大小為 8 的運算結果,與 8 個批次大小為 1 的運算結果,在數值上會存在細微差異。正是這種因伺服器負載而隨機變動的批次大小,構成了 LLM 輸出不確定性的主要來源。

實現「批次不變性」:邁向可再現的 AI

為了驗證此論點並解決問題,Thinking Machines Lab 開發了一套「批次不變性」的核心運算函式庫,包含對 RMSNorm、矩陣乘法(Matmul)及注意力機制(Attention)等關鍵操作的修改。

團隊以目前業界流行的中國通義千問 Qwen3-8B AI 模型進行測試,實驗結果驚人,他們在標準設定下,將溫度係數(Temperature)設為 0,並對同一提示重複執行 1,000次,竟產生了 80 種不同的輸出。然而,在換上他們開發的「批次不變性」核心後,1,000 次的執行結果完全一致。

(Figure Credit: Thinking Machines Lab,在 DeepSeek 3.1 溫度係數設定為 0的 情形。 )

這項成果證實了,只要能確保運算過程不受批次大小變化的干擾,LLM 的推理過程就能實現完全的確定性與可再現性。當然,這項創舉也伴隨著代價。目前,實現「批次不變性」的運算核心,其執行速度較標準版本慢。不過,研究團隊已透過對注意力機制的最佳化,成功縮小了效能差距。

Thinking Machines Lab 認為,對於追求科學嚴謹性、模型安全性驗證以及程式除錯等領域而言,犧牲部分效能以換取結果的完全可再現性,是絕對值得的。他們也期望,這項研究能啟發未來AI推理引擎的設計方向,讓「確定性」成為與「速度」同等重要的考量指標。

這篇開創性的研究,不僅為解決 LLM 長久以來的隨機性問題提供了清晰的路徑,也為 AI 領域的科學化與工程化奠定了更穩固的基礎。

首圖由 本地端 LLM 生成,配圖為 Google Gemini AI 生成

標籤: AILLMThinking Machines Lab
Share3Tweet2ShareShareShare1
上一篇

OpenAI GPT‑5‑Codex 登場,更融進工程師日常,開發者怎麼看?

下一篇

WD 開第一槍!AI 資料中心需求引爆硬碟漲價潮,衝擊 NAS 與企業儲存成本

Ashley Hsieh

Ashley Hsieh

專案管理者與 UI/UX 設計、AI美術設計認證、淨零碳規劃管理師,在上市歐洲外商、生醫、金融、科技產業中淬煉,曾參與過多個跨平台專案,從需求分析、設計、使用者測試到專案交付流程都樂在其中。 私底下,我是一位「喜歡買東西但錢包容易抗議」的人,對科技、設計與藝術有熱情,正在努力平衡質感生活,學習和錢包一起成長的日常小練習者。

相關文章

新聞

Anthropic 低價 Sonnet 5 衝刺 IPO,美政府亦解除對Fable 5 和 Mythos 5 的出口管制|產業精選 07.01

2026 年 7 月 1 日
母公司喊安、子公司爆外洩?PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗
新聞

母公司喊安、子公司爆外洩?PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗

2026 年 6 月 30 日
新聞

Rocket Lab收購銥衛星|AI筆記裝置Pocket募資|Busy Bar 可自訂螢幕|產業精選 06.29 下

2026 年 6 月 30 日
福特重聘資深工程師修正 AI 缺陷想挽回汽車品質
AI 人工智慧

福特重聘資深工程師修正 AI 缺陷想挽回汽車品質

2026 年 6 月 30 日
新聞

Gemini 個人化影像生成免費|DeepSeek DSpark 開源加速推論|Claude Code 需關注供應鏈攻擊|產業精選 06.30 上

2026 年 6 月 30 日
Google AI 人才大撤退:OpenAI 與 Anthropic 正在重塑下一代模型版圖
AI 人工智慧

Google AI 人才大撤退:OpenAI 與 Anthropic 正在重塑下一代模型版圖

2026 年 6 月 29 日
下一篇
WD 開第一槍!AI 資料中心需求引爆硬碟漲價潮,衝擊 NAS 與企業儲存成本

WD 開第一槍!AI 資料中心需求引爆硬碟漲價潮,衝擊 NAS 與企業儲存成本

QNAP NAS 導入 AI 自然語意智慧搜尋、RAG 多輪對話與智慧影像管理等重大更新

QNAP NAS 導入 AI 自然語意智慧搜尋、RAG 多輪對話與智慧影像管理等重大更新

NVIDIA 斥資 50 億美元入股 Intel,對半導體產業影響尚待市場觀察

NVIDIA 斥資 50 億美元入股 Intel,對半導體產業影響尚待市場觀察

推薦閱讀

Anthropic 低價 Sonnet 5 衝刺 IPO,美政府亦解除對Fable 5 和 Mythos 5 的出口管制|產業精選 07.01

2026 年 7 月 1 日
母公司喊安、子公司爆外洩?PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗

母公司喊安、子公司爆外洩?PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗

2026 年 6 月 30 日

Rocket Lab收購銥衛星|AI筆記裝置Pocket募資|Busy Bar 可自訂螢幕|產業精選 06.29 下

2026 年 6 月 30 日
福特重聘資深工程師修正 AI 缺陷想挽回汽車品質

福特重聘資深工程師修正 AI 缺陷想挽回汽車品質

2026 年 6 月 30 日

Gemini 個人化影像生成免費|DeepSeek DSpark 開源加速推論|Claude Code 需關注供應鏈攻擊|產業精選 06.30 上

2026 年 6 月 30 日

近期熱門

  • 美國政府同意重新開放 Anthropic 新模型部署於關鍵基礎設施,三大 AI 大廠次世代模型管制與延期內幕

    美國政府同意重新開放 Anthropic 新模型部署於關鍵基礎設施,三大 AI 大廠次世代模型管制與延期內幕

    231 shares
    Share 92 Tweet 58
  • 全球記憶體海嘯與硬體通膨:從蘋果全面漲價透視半導體產能結構性失衡

    210 shares
    Share 84 Tweet 53
  • 僅 7% 美國人依賴 AI 讀新聞!民調揭露青壯年族群反而更不信任 AI 報導

    181 shares
    Share 72 Tweet 45
  • 部署 Hermes Agent 實戰,24 小時不間斷的地端自動化 AI 助理

    162 shares
    Share 65 Tweet 41
  • AI 原被預測消滅工程職位,新資料卻顯示工程師職位反而更穩固|產業精選 06.25

    155 shares
    Share 62 Tweet 39
  • Google AI 人才大撤退:OpenAI 與 Anthropic 正在重塑下一代模型版圖

    150 shares
    Share 60 Tweet 38
  • 母公司喊安、子公司爆外洩?PChome 與比比昂面臨暗網威脅與個資外流的雙重考驗

    144 shares
    Share 58 Tweet 36
  • OpenAI 同意美政府要求延後發布 GPT-5.6,Corgi 否認竊取開源產品|產業精選 06.27

    135 shares
    Share 54 Tweet 34
  • 100GbE NFS over RDMA 實戰,直連 DGX Spark 執行 DS4 大型模型突破 AI 推理儲存瓶頸

    132 shares
    Share 53 Tweet 33
  • Gemini 個人化影像生成免費|DeepSeek DSpark 開源加速推論|Claude Code 需關注供應鏈攻擊|產業精選 06.30 上

    119 shares
    Share 48 Tweet 30

關於 CyberQ 賽博客

CyberQ 賽博客網站的命名正是 Cyber + Q ,是賽博網路、資訊、共識 / 高可用叢集、量子科技與品質的綜合體。

我們專注於企業級網路與儲存環境建構、NAS 系統整合、資安解決方案與 AI 應用顧問服務。透過以下三大面向的「Q」核心元素,我們為您提供從基礎架構到資料智慧的雙引擎驅動力:

Quorum 與 Quantum-safe

在技術架構上,是基於信任的基礎架構,CyberQ 深入掌握分散式系統中的 Quorum(一致性)、Queue(任務調度) 與 QoS(服務品質),以 Quick(效率) 解決複雜的 IT 與資安問題。同時,我們積極投入 Quantum-safe(後量子密碼學) 等新興資安領域,確保企業基礎設施在未來運算時代具備堅不可摧的長期競爭力。

Query 與 Quotient

CyberQ 是協助企業成長的 AI 引擎,在堅韌的架構之上,我們透過 Query(洞察) 解析大量資料,並以 Quotient(提升企業科技智商) 的顧問服務,將 AI 導入本機端環境與自動化工作流程中,將資料轉化為企業最具價值的數位資產。

Quest與 Quantum Leap

專業媒體與技術顧問是我們的核心雙動能。

作為科技媒體,我們秉持駭客精神持續進行科技 Quest(探索),探索海內外產業動態。

作為顧問團隊,我們結合多年第一線實務經驗,提供量身打造的最佳化解決方案,協助企業完成數位轉型的 Quantum Leap(躍進)。

新聞稿、採訪、授權、內容投訴、行銷合作、投稿刊登:[email protected]
廣告委刊、展覽會議、系統整合、資安顧問、業務提攜:[email protected]

Copyright ©2026 CyberQ.tw All Rights Reserved.

沒有結果
觀看所有搜尋結果
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
  • AI 人工智慧
    • AI 應用實戰
    • AI 代理
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊

© 2025 CyberQ NAS、資安、資訊科技、AI應用的日常 關於 CyberQ 賽博客 NAS 系統與電腦、手機一起的生活故事 多年的系統整合與資訊安全經驗,協助智慧家居、小型工作室、辦公室與機構,導入更便利、更安全的資訊環境與應用。