CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
  • AI 人工智慧
    • AI 應用實戰
    • AI 代理
    • 龍蝦
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊
聯繫我們
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
  • AI 人工智慧
    • AI 應用實戰
    • AI 代理
    • 龍蝦
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊
沒有結果
觀看所有搜尋結果
CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • 首頁
  • 新聞
  • AI 人工智慧
  • 資安
  • Docker
  • 進階應用
  • 網通
  • NAS
  • 開箱測試
  • 教學
  • 展覽直擊
首頁 新聞

Cloudflare 11/18 全球大當機官方調查報告出爐,結果權限變更反而比 DDoS 更致命

Walter Black by Walter Black
2025 年 11 月 19 日 09:00
in 新聞
閱讀時間: 3 分鐘
A A
Cloudflare 11/18 全球大當機官方調查報告出爐,結果權限變更反而比 DDoS 更致命
1.3k
觀看數
分享到臉書分享到 X分享到Line分享到 Threads分享到 Linkedin

在這個高度依賴 CDN 與邊緣運算的年代,Cloudflare 的一個噴嚏,往往就是全球網際網路的一場重感冒。

RELATED POSTS

QuTS hero 6 RC2 實測:從禁止降版到舊環境淘汰,維運團隊該注意什麼?

GitHub 趨勢週報 Vol.16:Claude Code 生態再爆發,熱門專案全面邁向 AI Agent 時代

隨時隨地遠端寫 Code!VS Code dev agents 實現 GitHub 版的遠端開發方案

就在昨日(2025 年 11 月 18 日),全球數以百萬計的網站一度陷入癱瘓,瀏覽器上熟悉的 5xx 錯誤頁面讓許多維運人員冒冷汗,都快有 PTSD 了。起初,不少人,甚至包括 Cloudflare 自己的工程團隊,都懷疑這是一場超大規模的 DDoS 攻擊。然而,官方稍早釋出的事故剖析報告(Post Mortem)證實了這其實不是駭客攻擊,而是一次資料庫權限變更引發的連鎖掛點事件。

Cloudflare 執行長 Matthew Prince 親自撰文證實,這次導致全球半個網路癱瘓的事故,並非網路攻擊 (DDoS),而是一起典型的「內部變更管理 (Change Management) 災難」。

一個看似無害的資料庫權限調整,導致內部 ClickHouse 查詢回傳了遠超過預期的資料量,使機器人防護(Bot Management)系統生成了一份異常巨大的特徵檔(feature file)。當這份錯誤的檔案被載入核心轉發引擎(core proxy)時,因特徵數量超出程式設計上限而觸發 Rust 的 runtime panic,最終造成全球節點的 HTTP 代理程序接連崩潰。

CyberQ 認為這次事件是分散式系統脆弱性的一個教科書級案例,以下是這次事故的技術細節與關鍵轉折。

本次事件關鍵時間軸 (Timeline)

11:05 UTC (19:05 台灣時間): 部署資料庫權限變更 (災難的種子)。

11:20 UTC (19:20 台灣時間): 變更生效,錯誤的設定檔派發至全球,核心服務開始崩潰 (Impact Starts)。

11:30 – 13:05 UTC: 團隊誤以為是 DDoS 攻擊(因為連自家 Status Page 都剛好掛了),浪費了寶貴的檢查排除錯誤時間。

13:05 UTC (21:05 台灣時間): 團隊手動讓 Access 和 KV 繞過 (Bypass) 核心 Proxy,這就是我們在上一篇報導中看到 Access 率先恢復的轉折點。

14:24 UTC (22:24 台灣時間): 確認元兇是 Bot Management 設定檔,停止派發新檔並 Rollback。

14:30 UTC (22:30 台灣時間): 主流服務開始恢復。

17:06 UTC (01:06 台灣時間): 全球服務完全恢復正常。

從權限變更到記憶體崩潰的蝴蝶效應

整起事件的引爆點,源自於 UTC 時間 11:05 的一個看似無害的操作。Cloudflare 工程團隊為了改善資料庫權限管理,對其 ClickHouse 叢集進行了一次更新。

1、導火線:ClickHouse 的隱式權限

Cloudflare 的機器人管理系統(Bot Management)依賴一個名為「特徵檔(feature file)」的設定檔來判斷流量是否為惡意機器人。這個檔案是透過查詢 ClickHouse 資料庫定期生成的。

原本的查詢語法假設回傳的欄位只會來自 default 資料庫。然而,新的權限變更讓系統帳號能夠「顯式」看到底層 r0 資料庫的表格。 結果是:SQL 查詢在沒有指定資料庫名稱的情況下,回傳了雙倍的欄位資料(包含 default 和 r0 的重複項)。

2、增幅:特徵檔膨脹

這個雙倍的查詢結果,導致產生的「特徵檔」大小瞬間暴增。檔案中的特徵數量超過了系統預期。

3、引爆:Rust 程式碼的 unwrap() panic

Cloudflare 的核心代理服務(Proxy)為了效能最佳化,在記憶體分配上採取了預先分配(preallocation)策略。 bot 機器人管理模組其實有設定了一個上限,特徵數量不得超過 200 個,目前實際則是約使用 60 個。

當這個含有重複資料、超過 200 個特徵的設定檔被推送到全球節點時,執行在 FL2(新版 Proxy 引擎)上的 Rust 程式碼觸發了檢查機制。但沒想到,這個錯誤處理邏輯似乎過於激進,程式碼執行了 Result::unwrap() 在一個錯誤值(Err)上,直接導致執行緒崩潰。

Rust

// 官方報告揭露的崩潰訊息
thread fl2_worker_thread panicked: called Result::unwrap() on an Err value

這一行程式碼的崩潰,讓負責處理核心流量的 Proxy 服務陷入無限重啟與失敗的循環,導致了全球範圍的 5xx 錯誤。

誤判與混亂,為何第一時間以為是 DDoS?

事故發生初期(UTC 11:20),Cloudflare 內部也經歷了一陣混亂。由於系統會不斷嘗試重新讀取設定檔(有時讀到舊的好檔,有時讀到新的壞檔),導致錯誤率呈現劇烈波動。這種「間歇性」的服務中斷,加上近期高強度的 DDoS 攻擊潮,讓團隊誤判形勢。

更巧合的是,Cloudflare 的外部狀態頁面(Status Page)剛好也在這時掛點,雖然事後證實無關,這讓工程師一度以為攻擊者是針對性的同時攻擊基礎設施與通訊管道。

影響範圍與復原

重災區: 核心 CDN 服務、WAF、Turnstile 驗證、Workers KV 以及 Access 登入服務。

復原關鍵: 團隊在 UTC 13:05 先針對 Workers KV 實施繞過(Bypass)策略,隨後鎖定問題在於機器人管理模組的設定檔。

最終解法: 停止自動生成新設定檔,手動 Rollback 到舊版已知良好的版本,並強制重啟核心 Proxy。服務於 UTC 14:30 大致恢復,17:06 全面排除。

資訊系統韌性的再思考

CyberQ觀點,這次 Cloudflare 的事故給所有 IT 與資訊/資安從業人員上了寶貴的一課:

輸入驗證(Input Validation)不能只對外, 我們常強調防禦使用者輸入的惡意資料,但對於「內部系統產生的設定檔」,往往缺乏同樣嚴格的驗證機制。Cloudflare 承諾未來將對內部生成的設定檔實施與使用者輸入同等級的硬化措施。其實呢,要看中輸入驗證這點,因為即使是「內部產生」的設定檔,也必須視為「不可信的輸入」。如果在讀取設定檔時,程式能捕捉到「長度超標」並選擇「忽略新設定,沿用舊設定」,這場全球災難就有可能完全避免。

在 Rust 或任何現代語言中,unwrap() 雖然方便,但在關鍵路徑(Critical Path)上使用它無異於埋設地雷。優雅降級(Graceful Degradation)是一種必要的策略,比方說當設定檔過大時,紀錄錯誤並使用舊版設定,這是我們在部署與規劃高可用性系統設計的思維,畢竟單一模組 Bot Management 的故障不該拖垮 Cloudflare 的整個核心引擎 Core Proxy。未來的架構設計應考慮更強的隔離性 (Sandboxing),讓非關鍵模組崩潰時,核心流量仍能通過(Fail Open)。

可觀測性的雙面刃在報告中也能看得到問題點,這次事故期間 CDN 延遲增加,部分原因是除錯(Debugging)系統為了捕捉錯誤而消耗了大量 CPU。當系統瀕臨崩潰時,過度的診斷機制反而可能成為壓垮駱駝的最後一根稻草。而事故初期,工程師Cloudflare被「Status Page 剛好也掛了」以及「類似 DDoS 的流量特徵」誤導。這提醒我們在緊急應變時,如何快速排除巧合並找出正確的鎮政原因,是縮短 MTTR (平均修復時間) 的關鍵。

Cloudflare 在報告末尾坦承這是自 2019 年以來最嚴重的事故。作為網路基礎設施的守門人,這次被自己絆倒的經驗雖然慘痛,但他們詳盡的技術揭露(Post Mortem)展現了負責任的態度,這在業界仍值得肯定。

對於依賴單一雲服務的企業來說,這也是一次檢視自身災難復原(DR)計畫的機會,當 Cloudflare 倒下時,你的 B 計畫是什麼呢?

首圖由 Google Gemini AI 模型生成

Cloudflare 傳出全球大規模災情!X、ChatGPT 等多個服務癱瘓,官方證實調查搶修並已解決事故
Cloudflare 是誰 ? 網路世界的隱形守護者
標籤: Cloudflare
Share15Tweet10ShareShareShare3
上一篇

Google Gemini 3 震撼登場:不只是更聰明,而是「會思考」與「能行動」的生成式 UI 革命

下一篇

Redis 8.4 釋出,新增混合搜尋功能瞄準現代 AI 應用

Walter Black

Walter Black

具備多年專案管理、資訊架構、VM環境、雲服務、中大型資訊機房建置經驗,ISO 27001:2022 LA。

相關文章

QuTS hero 6 RC2 實測:從禁止降版到舊環境淘汰,維運團隊該注意什麼?
NAS

QuTS hero 6 RC2 實測:從禁止降版到舊環境淘汰,維運團隊該注意什麼?

2026 年 5 月 27 日
GitHub 趨勢週報 Vol.16:Claude Code 生態再爆發,熱門專案全面邁向 AI Agent 時代
AI 人工智慧

GitHub 趨勢週報 Vol.16:Claude Code 生態再爆發,熱門專案全面邁向 AI Agent 時代

2026 年 5 月 26 日
隨時隨地遠端寫 Code!VS Code dev agents 實現 GitHub 版的遠端開發方案
新聞

隨時隨地遠端寫 Code!VS Code dev agents 實現 GitHub 版的遠端開發方案

2026 年 5 月 25 日
萬物皆 Token 的代價:從微軟停用 Claude Code 與 Uber 預算超支,看 AI 代理時代的成本悖論
AI 人工智慧

萬物皆 Token 的代價:從微軟停用 Claude Code 與 Uber 預算超支,看 AI 代理時代的成本悖論

2026 年 5 月 24 日
當 AI 遇上羅馬萬神殿:從 OpenSCAD 評測看大型語言模型的空間幾何建構力
AI 人工智慧

當 AI 遇上羅馬萬神殿:從 OpenSCAD 評測看大型語言模型的空間幾何建構力

2026 年 5 月 23 日
看板管理遇上自主 Agent:KanBots
AI 人工智慧

看板管理遇上自主 Agent:KanBots

2026 年 5 月 23 日
下一篇
Redis 8.4 釋出,新增混合搜尋功能瞄準現代 AI 應用

Redis 8.4 釋出,新增混合搜尋功能瞄準現代 AI 應用

微軟、輝達與Anthropic結盟 450億美元AI算力交易震撼市場

微軟、輝達與Anthropic結盟 450億美元AI算力交易震撼市場

Windows 11 導入 AI Agentic OS 自主代理,面臨資安新挑戰

Windows 11 導入 AI Agentic OS 自主代理,面臨資安新挑戰

推薦閱讀

QuTS hero 6 RC2 實測:從禁止降版到舊環境淘汰,維運團隊該注意什麼?

QuTS hero 6 RC2 實測:從禁止降版到舊環境淘汰,維運團隊該注意什麼?

2026 年 5 月 27 日
GitHub 趨勢週報 Vol.16:Claude Code 生態再爆發,熱門專案全面邁向 AI Agent 時代

GitHub 趨勢週報 Vol.16:Claude Code 生態再爆發,熱門專案全面邁向 AI Agent 時代

2026 年 5 月 26 日
隨時隨地遠端寫 Code!VS Code dev agents 實現 GitHub 版的遠端開發方案

隨時隨地遠端寫 Code!VS Code dev agents 實現 GitHub 版的遠端開發方案

2026 年 5 月 25 日
萬物皆 Token 的代價:從微軟停用 Claude Code 與 Uber 預算超支,看 AI 代理時代的成本悖論

萬物皆 Token 的代價:從微軟停用 Claude Code 與 Uber 預算超支,看 AI 代理時代的成本悖論

2026 年 5 月 24 日
當 AI 遇上羅馬萬神殿:從 OpenSCAD 評測看大型語言模型的空間幾何建構力

當 AI 遇上羅馬萬神殿:從 OpenSCAD 評測看大型語言模型的空間幾何建構力

2026 年 5 月 23 日

近期熱門

  • Google Antigravity 2.0 大改版:是 AI 代理革命,還是強迫升級的災難?開發者怒火、雙工具拆分全解析

    Google Antigravity 2.0 大改版:是 AI 代理革命,還是強迫升級的災難?開發者怒火、雙工具拆分全解析

    200 shares
    Share 80 Tweet 50
  • Proxmox VE 9.2 正式釋出:邁入 Linux Kernel 7.0 與 CRS 動態負載平衡新時代

    184 shares
    Share 74 Tweet 46
  • 當 AI 遇上羅馬萬神殿:從 OpenSCAD 評測看大型語言模型的空間幾何建構力

    174 shares
    Share 70 Tweet 44
  • WordPress 7.0 正式發布:AI Client API 入主核心、後台全面現代化

    146 shares
    Share 58 Tweet 37
  • Gemini 3.5 Flash 實測逆襲 3.1 Pro? AI 模型選型看五大工作負載核心再來抉擇

    138 shares
    Share 55 Tweet 35
  • 萬物皆 Token 的代價:從微軟停用 Claude Code 與 Uber 預算超支,看 AI 代理時代的成本悖論

    127 shares
    Share 51 Tweet 32
  • Linux 7.0 解決 Google 價值百萬美元的 io_uring 安全難題,Rust 也正式成為核心支援語言

    116 shares
    Share 46 Tweet 29
  • 看板管理遇上自主 Agent:KanBots

    111 shares
    Share 44 Tweet 28
  • Google I/O 2026 重點:Google 把 Gemini 推向代理式 AI 時代,搜尋、工作、開發與商務全面改寫

    129 shares
    Share 52 Tweet 32
  • ComfyUI v0.22.0:原生支援 Stable Audio 3、MoGe 單目幾何估計,並大幅強化 LTX 工作流

    110 shares
    Share 44 Tweet 28

關於 CyberQ 賽博客

CyberQ 賽博客網站的命名正是 Cyber + Q ,是賽博網路、資訊、共識 / 高可用叢集、量子科技與品質的綜合體。

我們專注於企業級網路與儲存環境建構、NAS 系統整合、資安解決方案與 AI 應用顧問服務。透過以下三大面向的「Q」核心元素,我們為您提供從基礎架構到資料智慧的雙引擎驅動力:

Quorum 與 Quantum-safe

在技術架構上,是基於信任的基礎架構,CyberQ 深入掌握分散式系統中的 Quorum(一致性)、Queue(任務調度) 與 QoS(服務品質),以 Quick(效率) 解決複雜的 IT 與資安問題。同時,我們積極投入 Quantum-safe(後量子密碼學) 等新興資安領域,確保企業基礎設施在未來運算時代具備堅不可摧的長期競爭力。

Query 與 Quotient

CyberQ 是協助企業成長的 AI 引擎,在堅韌的架構之上,我們透過 Query(洞察) 解析大量資料,並以 Quotient(提升企業科技智商) 的顧問服務,將 AI 導入本機端環境與自動化工作流程中,將資料轉化為企業最具價值的數位資產。

Quest與 Quantum Leap

專業媒體與技術顧問是我們的核心雙動能。

作為科技媒體,我們秉持駭客精神持續進行科技 Quest(探索),探索海內外產業動態。

作為顧問團隊,我們結合多年第一線實務經驗,提供量身打造的最佳化解決方案,協助企業完成數位轉型的 Quantum Leap(躍進)。

新聞稿、採訪、授權、內容投訴、行銷合作、投稿刊登:[email protected]
廣告委刊、展覽會議、系統整合、資安顧問、業務提攜:[email protected]

Copyright ©2026 CyberQ.tw All Rights Reserved.

沒有結果
觀看所有搜尋結果
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
  • AI 人工智慧
    • AI 應用實戰
    • AI 代理
    • 龍蝦
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊

© 2025 CyberQ NAS、資安、資訊科技、AI應用的日常 關於 CyberQ 賽博客 NAS 系統與電腦、手機一起的生活故事 多年的系統整合與資訊安全經驗,協助智慧家居、小型工作室、辦公室與機構,導入更便利、更安全的資訊環境與應用。