AWS US-EAST-1 異常掀全球災情：Snapchat、Canva、Duolingo、Fortnite 全掛，陸續恢復上線

全球最大的雲端服務供應商 Amazon Web Services (AWS)，於本週一（10 月 20 日）再次遭遇嚴重的服務中斷事件。此次故障的核心指向其位於美國北維吉尼亞的 US-EAST-1 資料中心區域，這是 AWS 全球基礎設施中規模最大、最關鍵的節點之一。

此次事件導致全球數千個依賴 AWS 服務的重要網站、應用程式和企業平台陷入停擺或效能低下，災情迅速擴散至全球。

更新， AWS 花費了總共約 15 個小時，才順利讓所有的服務都恢復正常運作，這個時間很長，讓許多租用 AWS 雲端服務的公司或機構，得設法有備援方案才行，RTO /RPO 時間都會超過原本設定的範圍。

US-EAST-1 區域的連鎖故障

根據 AWS 官方的服務健康狀態儀表板 (Service Health Dashboard) 在中斷初期發布的狀態更新，證實其 US-EAST-1 區域的「多項 AWS 服務」正經歷「增加的錯誤率和延遲」(increased error rates and latencies)。

AWS 工程團隊已「立即投入調查」並正在努力緩解問題，但截至目前，尚未立即公布導致此次大規模故障的具體根本原因 (Root Cause)。

US-EAST-1 作為 AWS 最古老且最大的區域，承載了全球大量關鍵應用的後端服務。該區域的任何效能問題，都極易引發全球性的連鎖反應。Down Detector 等網路監控平台顯示，相關故障報告在短時間內激增，顯示這是一次突發性的大規模中斷。

從遊戲、社群到智慧家庭的全面癱瘓

此次中斷的「爆炸半徑」極廣，幾乎涵蓋了所有依賴 AWS 基礎設施的數位服務。全球用戶從週一上午開始，便陸續回報各種連線問題。
受創最深的領域包括：

社群媒體與通訊：Snapchat 用戶無法登入、收發訊息或載入內容。

遊戲娛樂：熱門遊戲如《要塞英雄》(Fortnite) 和 Roblox 平台均出現伺服器連線失敗，導致玩家無法進入遊戲。Epic Games Store 同樣受到波及。

Amazon 自家服務：諷刺的是，就連亞馬遜自家的服務也無一倖免。包括其核心電商網站 Amazon.com、Alexa 智慧助理（無法回應指令）以及 Ring 智慧門鈴（離線或延遲）均受到衝擊。

生產力與 AI 工具：廣受歡迎的線上設計工具 Canva 和語言學習平台 Duolingo 也報告了服務異常。甚至連 AI 搜尋引擎 Perplexity AI 和加密貨幣交易所 Coinbase 也因後端依賴 AWS 而宣告服務中斷。

另外還有 EA、Epic、Ubisoft 等公司也受到影響，蘋果則是 iCloud 的部分受影響。

網路的脆弱性：再次凸顯的單點依賴風險

這起事件再次凸顯了現代網路服務對於少數幾家超大型雲端供應商（Hyperscaler）的高度依賴性。

US-EAST-1 區域的故障歷史悠久，幾乎每隔一段時間就會發生類似事件，但每次都能癱瘓網路的很大一部分。這暴露了許多企業在架構設計上過度集中於單一區域，或是缺乏足夠的跨區域容錯轉移 (failover) 機制。

對於企業而言，這倒是提醒了我們關於分散風險和建立多雲 (Multi-Cloud) 或混合雲 (Hybrid-Cloud) 策略的重要性。

以下是根據各家新聞報導和 Down Detector 數據彙整，因此次事件而服務中斷或功能異常的知名平台與服務：

服務名稱 (Service Name)	服務類別
Amazon Web Services (AWS)	雲端基礎設施
Amazon.com	電商平台
Alexa	智慧助理
Ring	智慧家庭 / 保全
Snapchat	社群媒體 / 即時通訊
Fortnite	線上遊戲
Roblox	遊戲平台
Epic Games Store	遊戲平台
Crunchyroll	影音串流
Canva	線上設計工具
Duolingo	語言學習平台
Coinbase	加密貨幣交易所
Perplexity AI	AI 搜尋引擎

截至本文發稿時，AWS 仍在積極搶修中，部分服務已開始緩慢恢復，但尚未完全穩定，可以持續追蹤 AWS 官方的後續更新，以及事件結束後的根本原因分析 (RCA) 報告。此次事故的根本原因被確認為 DynamoDB API 端點的 DNS 解析異常，導致多項核心雲端服務連鎖失效，波及全球多個應用與企業用戶。

事件時間軸與關鍵進展 (PDT 時間)

12:11 AM – 問題初現

AWS 首次偵測到 US-EAST-1 區域多項服務出現「錯誤率上升與回應延遲」的異常情況，並立即展開調查。
受影響的服務包括：EC2、Lambda、DynamoDB、RDS、ECS、Glue、CloudTrail 等。
同時，AWS Support Center 與 Support API 的「案件建立與更新」功能也一度無法使用。

1:26 AM – 確認區域性故障

AWS 確認 DynamoDB 端點請求在 US-EAST-1 區域出現重大錯誤率，並指出此異常也影響其他依賴該區域的服務。
技術團隊開始聚焦於網路層面的潛在問題。

2:01 AM – 鎖定根本原因

AWS 正式宣布已定位事故根源：「DynamoDB API 端點的 DNS 解析問題」

該 DNS 故障導致多數服務無法正確解析 DynamoDB 的 API 位址，進而造成全球性異常。
此問題同時影響了全球依賴 US-EAST-1 的功能（例如 IAM 更新、DynamoDB Global Tables）。
AWS 建議使用者 重試失敗的請求，並持續監控恢復狀況。

2:22–3:03 AM – 初步緩解與恢復

AWS 啟用多重緩解機制後，觀察到「早期恢復跡象」，但請求仍可能間歇性失敗。
到 2:27 AM，多數請求已能成功處理。
至 3:03 AM，AWS 確認大多數服務與依賴 US-EAST-1 的全球功能已恢復運作。

3:35 AM – DNS 問題完全解除，但殘留效應持續

AWS 宣布：「底層的 DNS 問題已完全緩解」多數服務恢復正常，但仍有三項殘留狀況：部分請求被節流 (throttled)，需持續重試。CloudTrail 與 Lambda 正處理積壓事件（backlog）。EC2 啟動新實例失敗率偏高，包括依賴 EC2 的服務如 ECS、RDS、Glue 等。

官方建議：清除本地 DNS 快取，以解決 DynamoDB 解析問題。若需啟動 EC2 實例，避免指定特定可用區（AZ），以增加調度彈性。Auto Scaling Group 應配置多個 AZ，以自動應對容量不足的情況。

4:08–5:10 AM – 處理積壓與完全恢復

AWS 確認仍在修復：EC2 啟動錯誤（部分顯示為「容量不足」訊息）；Lambda 輪詢延遲，特別是處理 SQS 佇列事件來源 (Event Source Mappings) 的功能。

到 4:48 AM，AWS 再次提醒客戶：Lambda 的 SQS 輪詢延遲仍影響如「Organization Policy Updates」等功能。截至 5:10 AM PDT，AWS 宣布：「已恢復透過 Lambda 事件來源映射處理 SQS 佇列」，目前正逐步清理 Lambda 佇列中積壓的訊息，整體服務運作趨於穩定。

05:48 AM 虛擬主機與日誌問題改善

虛擬主機 (EC2)：啟動問題取得進展。在美東機房的某些「獨立建築」(AZ) 已經可以成功啟動新主機了，團隊正在將修復方案應用到剩下的區域。客戶會漸漸看到越來越多主機能成功開啟。

日誌/事件 (CloudTrail, EventBridge)：先前卡住的「日誌」和「事件」積壓也正在成功消化中。新產生的日誌已恢復正常傳遞，不再有延遲。

[06:42 AM] EC2 啟動錯誤仍然很高。AWS 開始「限流」(Rate Limiting)，主動限制新主機的啟動數量以協助恢復。

第二波衝擊 – 網路連線大亂 (7:14 AM – 10:03 AM)

07:14 AM 系統爆發「嚴重的 API 錯誤和連線問題」。這是一個新問題。

[08:04 AM] 問題源頭指向「EC2 內部網路」。

08:43 AM 真正的元兇是「網路負載平衡器 (NLB) 的健康監控子系統」。

白話文：「交通號誌監控系統」故障，導致網路癱瘓。

[09:13 AM] 團隊開始修復 NLB 監控系統。

[10:03 AM] 官方確認，故障的 NLB 系統也導致了 Lambda (自動任務) 大量失敗。

系統穩定與逐步恢復 (10:38 AM – 2:48 PM)

[10:38 AM] EC2 (第一波衝擊) 的修復工作取得進展，在少數 AZ 開始恢復。

[11:22 AM] EC2 啟動和網路連線問題「顯著改善」。Lambda 錯誤也大幅改善。

[12:15 PM] Lambda 在存取其他服務時仍有網路錯誤。AWS 刻意減慢 SQS (信件處理) 速度，以降低 Lambda 的壓力。

[01:03 PM] 情況持續好轉。AWS 開始「減少限流」(Reduce throttles) EC2 啟動。SQS 的處理速度也調回正常。

[01:52 PM] Lambda 積壓的事件預計 2 小時內處理完畢。

[02:48 PM] EC2 (第一波衝擊) 問題解決。主機啟動的「限流」已恢復到事件前的水準。依賴 EC2 的服務 (如 Redshift) 開始消化積壓。

[已解決] 官方最終總結 (3:53 PM)

AWS 在 3:01 PM 宣布所有服務恢復正常運作。

官方總結了這場連環災難：

事件 1 (DNS 故障): 10/19 11:49 PM – 10/20 2:24 AM。 (DynamoDB 故障)。

事件 2 (EC2 啟動故障): 2:24 AM 開始。 (修好 DNS 卻觸發了 EC2 虛擬主機啟動系統的潛在問題)。

事件 3 (NLB 故障): 9:38 AM 修復。 (在修復 EC2 期間，NLB 故障，導致 Lambda 和 DynamoDB 再次出現網路問題)。

恢復行動：官方承認在此期間使用了「限流」(Throttling) 手段來穩定系統。

殘餘工作：雖然服務已恢復，但少數服務 (如 AWS Config, Redshift) 仍有一些積壓的訊息需要數小時才能完全處理完畢。

受影響範圍與後續影響

此次事故導致包括 Snapchat、Canva、Duolingo、Fortnite 等多家全球性服務出現中斷或功能異常，影響遍及北美、歐洲與亞洲用戶。
由於 US-EAST-1 是 AWS 全球架構中的核心控制區域，其服務異常會間接波及 IAM、支援系統、全球資料複寫等功能。

CyberQ 觀點

此次事件凸顯出 DynamoDB 作為底層基礎設施的高依賴性風險；DNS 層級故障的廣泛影響性；以及 AWS 內部服務間耦合度高 所帶來的連鎖反應。雖然 AWS 在短短數小時內完成修復，但事件再次提醒企業應建立多區域冗餘（multi-region redundancy）與自動容錯機制，減少對單一區域的依賴。

截至報導時間，AWS 已完成主要服務恢復，並持續監控 Lambda 與 EC2 的延遲狀況。官方尚未公布正式的事後事件報告 (Post-Incident Summary)，預計將於後續時間應該會有更詳細的技術說明公佈。

本文圖片由 ComfyUi 搭配本地端 AI 模型生成

AWS US-EAST-1 美東機房大當機，眾多重量級服務網站掛點的啟示

標籤: AWS 雲端服務

AWS US-EAST-1 異常掀全球災情：Snapchat、Canva、Duolingo、Fortnite 全掛，陸續恢復上線

Google與聯發科聯手推出LiteRT加速器強化裝置端AI運算效能

韓國大批監控影像遭駭外流 IP攝影機資安與私有雲監控重視度大幅提高

價值24萬史丹佛AI課程免費公開詳解大型語言模型底層技術

AWS US-EAST-1 美東機房大當機，眾多重量級服務網站掛點的啟示

微軟發布緊急 OOB 更新 KB5070773，修復 Windows 11 24H2/25H2 關鍵 WinRE 故障

Ashley Hsieh

相關文章

Google與聯發科聯手推出LiteRT加速器強化裝置端AI運算效能

韓國大批監控影像遭駭外流 IP攝影機資安與私有雲監控重視度大幅提高

價值24萬史丹佛AI課程免費公開詳解大型語言模型底層技術

擺脫盲鑽高風險新創 Zanskar 運用 AI 成功尋找隱藏地熱資源

沒學歷也能進 OpenAI 當工程師，AI 時代大學教育價值正在崩解

沒有 DRS 也不怕，ProxLB 讓 Proxmox 也擁有自動負載平衡 ?

微軟發布緊急 OOB 更新 KB5070773，修復 Windows 11 24H2/25H2 關鍵 WinRE 故障

AI 也會「腦腐失智」！研究揭露垃圾資料讓 LLM 出現認知退化與黑暗特質

推薦閱讀

Google與聯發科聯手推出LiteRT加速器強化裝置端AI運算效能

韓國大批監控影像遭駭外流 IP攝影機資安與私有雲監控重視度大幅提高

實測 QNAP QuTS hero h6.0.0 Public Beta，高可用性 HA、FIDO2 與光纖通道虛擬化 NPIV 全面進駐，企業級儲存再進化

近期熱門

LINE、Meta、Google 與小紅書的反詐騙治理比較

沒學歷也能進 OpenAI 當工程師，AI 時代大學教育價值正在崩解

Anthropic 發布 AI 面談工具解析逾千名專業工作者對人工智慧的真實觀點

DeepMind與Anthropic執行長同聲示警邁向AGI的關鍵十年與風險

Proxmox 雙箭齊發：Datacenter Manager 1.0 正式登場，PVE 9.1.2 補足拼圖

開箱迷你 AI 超級電腦，ASUS Ascent GX10 (NVIDIA DGX Spark) 搭配 QNAP NAS 擴充可用空間

Docker Engine 29.1.2 更新修補 Go 執行時高風險漏洞與 Rootless 網路痛點

沒有 DRS 也不怕，ProxLB 讓 Proxmox 也擁有自動負載平衡 ?

擺脫盲鑽高風險新創 Zanskar 運用 AI 成功尋找隱藏地熱資源

Windows 11 KB5070311 預覽版更新釋出，深色模式終於全黑了，但多了一個惱人的白閃bug

關於 CyberQ 賽博客

AWS US-EAST-1 異常掀全球災情：Snapchat、Canva、Duolingo、Fortnite 全掛，陸續恢復上線

RELATED POSTS

US-EAST-1 區域的連鎖故障

從遊戲、社群到智慧家庭的全面癱瘓

網路的脆弱性：再次凸顯的單點依賴風險

事件時間軸與關鍵進展 (PDT 時間)

12:11 AM – 問題初現

1:26 AM – 確認區域性故障

2:01 AM – 鎖定根本原因

2:22–3:03 AM – 初步緩解與恢復

3:35 AM – DNS 問題完全解除，但殘留效應持續

4:08–5:10 AM – 處理積壓與完全恢復

受影響範圍與後續影響

CyberQ 觀點

AWS US-EAST-1 美東機房大當機，眾多重量級服務網站掛點的啟示

微軟發布緊急 OOB 更新 KB5070773，修復 Windows 11 24H2/25H2 關鍵 WinRE 故障

相關文章

推薦閱讀

近期熱門

關於 CyberQ 賽博客