AWS US-EAST-1 美東機房大當機，眾多重量級服務網站掛點的啟示

是的，CyberQ 直接告訴你結論，AWS 官方文件時序看起來總共花費了約 15 個小時恢復所有該平台服務正常，我們確實需要多雲端服務架構 multi-cloud，不能只依賴市場上最穩定的 AWS，因為它也有可能會掛掉，平常要準備有第二套方案因應，備援至少要恢復到某個程度才能應對全球客戶。

當雲端停止呼吸：AWS大當機揭示的驚人真相

你是否曾有過這樣的經驗：早晨醒來，想問 Google Gemini AI 或蘋果 Siri 、Alexa 這些服務關於今天天氣，卻只得到一片寂靜？或是打開最愛的 Youtube 或 Spotify 串流影音，卻怎麼也無法載入？這不再是科幻情節，而是真實發生在數百萬人身上的「雲端停止呼吸」時刻。

就在 2025 年 10 月 20 日台北時間的下午，美國雲端服務大廠亞馬遜旗下的 AWS（Amazon Web Services）雲端服務爆發了大規模中斷。此次事件的中心是其關鍵的「US-EAST-1」（美國東部）區域，但影響迅速擴散至全球。這場數位世界的「停電」，不僅讓亞馬遜自家的線上服務癱瘓，更導致了 Paypal 的 Venmo 行動支付、社群軟體 Snapchat、AI 搜尋引擎 Perplexity，甚至麥當勞的應用程式和美聯社（AP）的後台都瞬間停擺，迫使美聯社緊急啟用備援網站。另外還有 EA、Epic、Ubisoft 等公司也受到影響，蘋果則是 iCloud 的部分受影響，一堆科技公司的網站、APP、軟體服務有用到 AWS 的都受到不同程度的影響。

根據 AWS 官方當時的說明，他們持續去修復 US-EAST-1 的 EC2 服務，並且努力恢復包括 RDS 、ECS 與 Glue 等服務，這些包括了虛擬機、資料庫等等，要等服務完全恢復，各家科技大廠執行在 AWS 許多相關伺服器服務才有辦法恢復運作。

根據 CyberQ 在美國的合作夥伴訊息與目前客戶上碰到的 AWS 雲端問題，簡單綜合歸納如下 :

事件總結：網路「電話簿」故障引發的連鎖效應

簡單來說，這次 AWS 大規模當機的根本原因，是核心的「DNS 服務」出了問題。

用另一個視角來看，暫時權稱把 DNS 想像成是網路世界的「電話簿」。當全球訪客要造訪一個網站（或一項服務）時，電腦會先去查這本電話簿，找到該網站的「地址」（IP 位址）。

這次事件中，AWS 內部這本「電話簿」壞掉了，導致它自己內部的許多服務找不到彼此的「地址」。

起火點：最先出問題的是 DynamoDB，這是一個超大型的「雲端資料庫」（想像成一個巨型數位檔案櫃）。

連鎖效應：因為「電話簿」查不到 DynamoDB 的地址，導致其他數十個依賴這個「檔案櫃」的服務（例如：身份驗證、虛擬主機、資料處理服務等）全部跟著大亂。

殘餘問題：即使「電話簿」修好了，但先前中斷引發了「後遺症」，例如：

EC2（虛擬主機）：用戶無法順利「開啟新的雲端電腦」。

Lambda/SQS（自動化任務）：就像「郵局的信件 (SQS)」堆積如山，而「郵差 (Lambda)」來不及處理這些積壓的信件。

事件時序整理 (PDT 時間)

以下是從問題發生到修復的關鍵時間點：

階段一：偵測到問題

[12:11 AM] AWS 工程師開始調查美東（N. Virginia）機房的服務出現「大量錯誤和延遲」。

[01:26 AM] 官方確認，DynamoDB (雲端資料庫) 服務出現「嚴重錯誤率」。這時連 AWS 自己的「客服支援系統」也跟著掛點了。

階段二：找到根本原因並開始修復

[02:01 AM] AWS 鎖定了潛在的根本原因：DNS 解析問題。

[02:01 AM] 官方證實，這個 DNS 問題也影響到「全球服務」（例如 IAM 身份登入管理），因為它們都依賴美東機房的端點。

[02:22 AM] 團隊開始實施修復 DNS，並觀察到「早期恢復跡象」。

[02:27 AM] 服務出現「顯著的恢復跡象」，大部分請求開始恢復成功。

階段三：主要問題解決，但出現「後遺症」

[03:35 AM] 核心的 DNS 問題已完全緩解。大部分服務恢復正常。

03:35 AM 雖然 DNS 修好了，但中斷引發了「後遺症」：

EC2 (虛擬主機)：使用者在「啟動新的虛擬主機」時開始遇到錯誤（顯示「容量不足」）。

Lambda (自動化任務)：仍在處理先前堆積如山的「積壓事件」。

05:48 AM 虛擬主機與日誌問題改善

虛擬主機 (EC2)：啟動問題取得進展。在美東機房的某些「獨立建築」(AZ) 已經可以成功啟動新主機了，團隊正在將修復方案應用到剩下的區域。客戶會漸漸看到越來越多主機能成功開啟。

日誌/事件 (CloudTrail, EventBridge)：先前卡住的「日誌」和「事件」積壓也正在成功消化中。新產生的日誌已恢復正常傳遞，不再有延遲。

[06:42 AM] EC2 啟動錯誤仍然很高。AWS 開始「限流」(Rate Limiting)，主動限制新主機的啟動數量以協助恢復。

第二波衝擊 – 網路連線大亂 (7:14 AM – 10:03 AM)

07:14 AM 系統爆發「嚴重的 API 錯誤和連線問題」。這是一個新問題。

[08:04 AM] 問題源頭指向「EC2 內部網路」。

08:43 AM 真正的元兇是「網路負載平衡器 (NLB) 的健康監控子系統」。

白話文：「交通號誌監控系統」故障，導致網路癱瘓。

[09:13 AM] 團隊開始修復 NLB 監控系統。

[10:03 AM] 官方確認，故障的 NLB 系統也導致了 Lambda (自動任務) 大量失敗。

系統穩定與逐步恢復 (10:38 AM – 2:48 PM)

[10:38 AM] EC2 (第一波衝擊) 的修復工作取得進展，在少數 AZ 開始恢復。

[11:22 AM] EC2 啟動和網路連線問題「顯著改善」。Lambda 錯誤也大幅改善。

[12:15 PM] Lambda 在存取其他服務時仍有網路錯誤。AWS 刻意減慢 SQS (信件處理) 速度，以降低 Lambda 的壓力。

[01:03 PM] 情況持續好轉。AWS 開始「減少限流」(Reduce throttles) EC2 啟動。SQS 的處理速度也調回正常。

[01:52 PM] Lambda 積壓的事件預計 2 小時內處理完畢。

[02:48 PM] EC2 (第一波衝擊) 問題解決。主機啟動的「限流」已恢復到事件前的水準。依賴 EC2 的服務 (如 Redshift) 開始消化積壓。

[已解決] 官方最終總結 (3:53 PM)

AWS 在 3:01 PM 宣布所有服務恢復正常運作。

官方總結了這場連環災難：

事件 1 (DNS 故障): 10/19 11:49 PM – 10/20 2:24 AM。 (DynamoDB 故障)。

事件 2 (EC2 啟動故障): 2:24 AM 開始。 (修好 DNS 卻觸發了 EC2 虛擬主機啟動系統的潛在問題)。

事件 3 (NLB 故障): 9:38 AM 修復。 (在修復 EC2 期間，NLB 故障，導致 Lambda 和 DynamoDB 再次出現網路問題)。

恢復行動：官方承認在此期間使用了「限流」(Throttling) 手段來穩定系統。

殘餘工作：雖然服務已恢復，但少數服務 (如 AWS Config, Redshift) 仍有一些積壓的訊息需要數小時才能完全處理完畢。

階段四：處理殘餘問題（後遺症）

[04:08 AM] 團隊仍在努力修復 EC2 (虛擬主機) 的啟動錯誤，並處理 Lambda 對 SQS (訊息隊列) 的 polling 延遲。

[04:48 AM] 官方建議，如果客戶需要啟動 EC2 主機，請「不要指定特定可用區 (AZ)」，讓系統自動幫你找健康的主機房。這也證實了 RDS (託管資料庫) 和 ECS (容器服務) 也因此受到影響。

[05:10 AM] Lambda/SQS 的處理功能已恢復。團隊開始努力消化先前「堵塞」的龐大訊息積壓。

受影響的服務範圍

這次事件波及範圍非常廣（總共一百多項服務受影響），因為 US-EAST-1 是 AWS 最古老且核心的區域：

已解決 (Resolved)：共 142 項。

核心問題：DynamoDB (資料庫)、IAM (身份登入)、Support (客服系統) 等。

衍生問題：EC2 (虛擬主機)、RDS (資料庫)、ECS/EKS (容器服務)、Lambda (無伺服器) 等。

日誌積壓：CloudTrail (操作日誌)。

以下是 AWS 近期關於服務恢復的最新陸續聲明 :
Operational issue – Multiple services (N. Virginia)

這場事故，再次揭示了我們對「雲端」的依賴程度遠超想像。它究竟教會了我們什麼？以下是幾個最令人警醒的真相。

一、你的智慧生活，其實是「亞馬遜 AWS 」智慧生活

從 Alexa 語音助理、掃地機器人到智慧門鈴，無數的智慧家庭裝置都悄悄地依賴著 AWS 運作。正如這次當機中有用戶通報，他們的 Alexa 瞬間關閉，無法回應查詢或執行例行鬧鐘。這場事故讓我們意識到，許多我們以為是獨立運作的智慧產品，其核心服務其實都集中在少數幾個雲端提供商手中。單一節點的故障，就能癱瘓我們數位化生活的一大部分。

二、遊戲、社群、串流影音，無一倖免

想像一下，當你正準備在《要塞英雄》（Fortnite）中與朋友並肩作戰，或是想上 Snapchat 分享生活點滴，卻發現一切都無法登入。此次受災的用戶名單中，就包括了 Snapchat、Canva 和 NVIDIA 舵手黃仁勳愛用的 Perplexity。

Perplexity AI的執行長更是在 X 平台發文證實：「根本原因是AWS的問題。」

換言之，無論是娛樂、社交還是資訊獲取（如美聯社的新聞後台），現代人的數位生活已與大型雲端服務深度綁定。我們享受著便利，卻也付出了將所有雞蛋放在同一個籃子裡的風險。

三、一個「自動化系統」的錯誤，引發骨牌效應

儘管 10 月 20 日這次當機的確切原因仍在調查中，AWS 僅表示在調查「錯誤率和延遲增加的問題」，但它突顯了高度自動化系統的脆弱性。過去的經驗（如2017年因技術人員「打錯字」導致的服務中斷），有時反而是「自動化系統」在檢測到錯誤後，觸發了更大的連鎖反應，導致服務全面癱瘓。這提醒我們，即使是最先進的自動化系統，也可能帶來毀滅性的後果，也引發了對 AI 和自動化系統設計的深層思考：我們如何確保其在故障時能「安全地失敗」？

四、企業的「雲端夢」與「雲端惡夢」

越來越多的企業將服務遷移到雲端，以享受其帶來的彈性、擴展性和成本效益。然而，這次當機也展示了雲端服務的脆弱面。許多公司，即使是擁有強大技術實力的企業，如美聯社和 Perplexity，也因為 AWS 的故障而需要啟動資安管理與 BCP 營運持續計畫中，提供資訊服務最重要的備援，要把網站用備援環境上線持續提供服務。

這次事件也讓我們反思，檢查自己公司和服務的雲端策略，思考如何建立更具韌性、分散式的架構，以避免將所有業務命脈寄託於單一供應商。