全球最大的雲端服務供應商 Amazon Web Services (AWS),於本週一(10 月 20 日)再次遭遇嚴重的服務中斷事件。此次故障的核心指向其位於美國北維吉尼亞的 US-EAST-1 資料中心區域,這是 AWS 全球基礎設施中規模最大、最關鍵的節點之一。
此次事件導致全球數千個依賴 AWS 服務的重要網站、應用程式和企業平台陷入停擺或效能低下,災情迅速擴散至全球。
更新, AWS 花費了總共約 15 個小時,才順利讓所有的服務都恢復正常運作,這個時間很長,讓許多租用 AWS 雲端服務的公司或機構,得設法有備援方案才行,RTO /RPO 時間都會超過原本設定的範圍。
US-EAST-1 區域的連鎖故障
根據 AWS 官方的服務健康狀態儀表板 (Service Health Dashboard) 在中斷初期發布的狀態更新,證實其 US-EAST-1 區域的「多項 AWS 服務」正經歷「增加的錯誤率和延遲」(increased error rates and latencies)。
AWS 工程團隊已「立即投入調查」並正在努力緩解問題,但截至目前,尚未立即公布導致此次大規模故障的具體根本原因 (Root Cause)。
US-EAST-1 作為 AWS 最古老且最大的區域,承載了全球大量關鍵應用的後端服務。該區域的任何效能問題,都極易引發全球性的連鎖反應。Down Detector 等網路監控平台顯示,相關故障報告在短時間內激增,顯示這是一次突發性的大規模中斷。
從遊戲、社群到智慧家庭的全面癱瘓
此次中斷的「爆炸半徑」極廣,幾乎涵蓋了所有依賴 AWS 基礎設施的數位服務。全球用戶從週一上午開始,便陸續回報各種連線問題。
受創最深的領域包括:
社群媒體與通訊:Snapchat 用戶無法登入、收發訊息或載入內容。
遊戲娛樂: 熱門遊戲如《要塞英雄》(Fortnite) 和 Roblox 平台均出現伺服器連線失敗,導致玩家無法進入遊戲。Epic Games Store 同樣受到波及。
Amazon 自家服務: 諷刺的是,就連亞馬遜自家的服務也無一倖免。包括其核心電商網站 Amazon.com、Alexa 智慧助理(無法回應指令)以及 Ring 智慧門鈴(離線或延遲)均受到衝擊。
生產力與 AI 工具: 廣受歡迎的線上設計工具 Canva 和語言學習平台 Duolingo 也報告了服務異常。甚至連 AI 搜尋引擎 Perplexity AI 和加密貨幣交易所 Coinbase 也因後端依賴 AWS 而宣告服務中斷。
另外還有 EA、Epic、Ubisoft 等公司也受到影響,蘋果則是 iCloud 的部分受影響。
網路的脆弱性:再次凸顯的單點依賴風險
這起事件再次凸顯了現代網路服務對於少數幾家超大型雲端供應商(Hyperscaler)的高度依賴性。
US-EAST-1 區域的故障歷史悠久,幾乎每隔一段時間就會發生類似事件,但每次都能癱瘓網路的很大一部分。這暴露了許多企業在架構設計上過度集中於單一區域,或是缺乏足夠的跨區域容錯轉移 (failover) 機制。
對於企業而言,這倒是提醒了我們關於分散風險和建立多雲 (Multi-Cloud) 或混合雲 (Hybrid-Cloud) 策略的重要性。
以下是根據各家新聞報導和 Down Detector 數據彙整,因此次事件而服務中斷或功能異常的知名平台與服務:
| 服務名稱 (Service Name) | 服務類別 |
| Amazon Web Services (AWS) | 雲端基礎設施 |
| Amazon.com | 電商平台 |
| Alexa | 智慧助理 |
| Ring | 智慧家庭 / 保全 |
| Snapchat | 社群媒體 / 即時通訊 |
| Fortnite | 線上遊戲 |
| Roblox | 遊戲平台 |
| Epic Games Store | 遊戲平台 |
| Crunchyroll | 影音串流 |
| Canva | 線上設計工具 |
| Duolingo | 語言學習平台 |
| Coinbase | 加密貨幣交易所 |
| Perplexity AI | AI 搜尋引擎 |
截至本文發稿時,AWS 仍在積極搶修中,部分服務已開始緩慢恢復,但尚未完全穩定,可以持續追蹤 AWS 官方的後續更新,以及事件結束後的根本原因分析 (RCA) 報告。此次事故的根本原因被確認為 DynamoDB API 端點的 DNS 解析異常,導致多項核心雲端服務連鎖失效,波及全球多個應用與企業用戶。
事件時間軸與關鍵進展 (PDT 時間)
12:11 AM – 問題初現
AWS 首次偵測到 US-EAST-1 區域多項服務出現「錯誤率上升與回應延遲」的異常情況,並立即展開調查。
受影響的服務包括:EC2、Lambda、DynamoDB、RDS、ECS、Glue、CloudTrail 等。
同時,AWS Support Center 與 Support API 的「案件建立與更新」功能也一度無法使用。
1:26 AM – 確認區域性故障
AWS 確認 DynamoDB 端點請求在 US-EAST-1 區域出現重大錯誤率,並指出此異常也影響其他依賴該區域的服務。
技術團隊開始聚焦於網路層面的潛在問題。
2:01 AM – 鎖定根本原因
AWS 正式宣布已定位事故根源:「DynamoDB API 端點的 DNS 解析問題」
該 DNS 故障導致多數服務無法正確解析 DynamoDB 的 API 位址,進而造成全球性異常。
此問題同時影響了全球依賴 US-EAST-1 的功能(例如 IAM 更新、DynamoDB Global Tables)。
AWS 建議使用者 重試失敗的請求,並持續監控恢復狀況。
2:22–3:03 AM – 初步緩解與恢復
AWS 啟用多重緩解機制後,觀察到「早期恢復跡象」,但請求仍可能間歇性失敗。
到 2:27 AM,多數請求已能成功處理。
至 3:03 AM,AWS 確認大多數服務與依賴 US-EAST-1 的全球功能已恢復運作。
3:35 AM – DNS 問題完全解除,但殘留效應持續
AWS 宣布:「底層的 DNS 問題已完全緩解」多數服務恢復正常,但仍有三項殘留狀況:部分請求被節流 (throttled),需持續重試。CloudTrail 與 Lambda 正處理積壓事件(backlog)。EC2 啟動新實例失敗率偏高,包括依賴 EC2 的服務如 ECS、RDS、Glue 等。
官方建議:清除本地 DNS 快取,以解決 DynamoDB 解析問題。若需啟動 EC2 實例,避免指定特定可用區(AZ),以增加調度彈性。Auto Scaling Group 應配置多個 AZ,以自動應對容量不足的情況。
4:08–5:10 AM – 處理積壓與完全恢復
AWS 確認仍在修復:EC2 啟動錯誤(部分顯示為「容量不足」訊息);Lambda 輪詢延遲,特別是處理 SQS 佇列事件來源 (Event Source Mappings) 的功能。
到 4:48 AM,AWS 再次提醒客戶:Lambda 的 SQS 輪詢延遲仍影響如「Organization Policy Updates」等功能。截至 5:10 AM PDT,AWS 宣布:「已恢復透過 Lambda 事件來源映射處理 SQS 佇列」,目前正逐步清理 Lambda 佇列中積壓的訊息,整體服務運作趨於穩定。
05:48 AM 虛擬主機與日誌問題改善
虛擬主機 (EC2): 啟動問題取得進展。在美東機房的某些「獨立建築」(AZ) 已經可以成功啟動新主機了,團隊正在將修復方案應用到剩下的區域。客戶會漸漸看到越來越多主機能成功開啟。
日誌/事件 (CloudTrail, EventBridge): 先前卡住的「日誌」和「事件」積壓也正在成功消化中。新產生的日誌已恢復正常傳遞,不再有延遲。
[06:42 AM] EC2 啟動錯誤仍然很高。AWS 開始「限流」(Rate Limiting),主動限制新主機的啟動數量以協助恢復。
第二波衝擊 – 網路連線大亂 (7:14 AM – 10:03 AM)
07:14 AM 系統爆發「嚴重的 API 錯誤和連線問題」。這是一個新問題。
[08:04 AM] 問題源頭指向「EC2 內部網路」。
08:43 AM 真正的元兇是「網路負載平衡器 (NLB) 的健康監控子系統」。
白話文: 「交通號誌監控系統」故障,導致網路癱瘓。
[09:13 AM] 團隊開始修復 NLB 監控系統。
[10:03 AM] 官方確認,故障的 NLB 系統也導致了 Lambda (自動任務) 大量失敗。
系統穩定與逐步恢復 (10:38 AM – 2:48 PM)
[10:38 AM] EC2 (第一波衝擊) 的修復工作取得進展,在少數 AZ 開始恢復。
[11:22 AM] EC2 啟動和網路連線問題「顯著改善」。Lambda 錯誤也大幅改善。
[12:15 PM] Lambda 在存取其他服務時仍有網路錯誤。AWS 刻意減慢 SQS (信件處理) 速度,以降低 Lambda 的壓力。
[01:03 PM] 情況持續好轉。AWS 開始「減少限流」(Reduce throttles) EC2 啟動。SQS 的處理速度也調回正常。
[01:52 PM] Lambda 積壓的事件預計 2 小時內處理完畢。
[02:48 PM] EC2 (第一波衝擊) 問題解決。 主機啟動的「限流」已恢復到事件前的水準。依賴 EC2 的服務 (如 Redshift) 開始消化積壓。
[已解決] 官方最終總結 (3:53 PM)
AWS 在 3:01 PM 宣布所有服務恢復正常運作。
官方總結了這場連環災難:
事件 1 (DNS 故障): 10/19 11:49 PM – 10/20 2:24 AM。 (DynamoDB 故障)。
事件 2 (EC2 啟動故障): 2:24 AM 開始。 (修好 DNS 卻觸發了 EC2 虛擬主機啟動系統的潛在問題)。
事件 3 (NLB 故障): 9:38 AM 修復。 (在修復 EC2 期間,NLB 故障,導致 Lambda 和 DynamoDB 再次 出現網路問題)。
恢復行動: 官方承認在此期間使用了「限流」(Throttling) 手段來穩定系統。
殘餘工作: 雖然服務已恢復,但少數服務 (如 AWS Config, Redshift) 仍有一些積壓的訊息需要數小時才能完全處理完畢。
受影響範圍與後續影響
此次事故導致包括 Snapchat、Canva、Duolingo、Fortnite 等多家全球性服務出現中斷或功能異常,影響遍及北美、歐洲與亞洲用戶。
由於 US-EAST-1 是 AWS 全球架構中的核心控制區域,其服務異常會間接波及 IAM、支援系統、全球資料複寫等功能。
CyberQ 觀點
此次事件凸顯出 DynamoDB 作為底層基礎設施的高依賴性風險;DNS 層級故障的廣泛影響性;以及 AWS 內部服務間耦合度高 所帶來的連鎖反應。雖然 AWS 在短短數小時內完成修復,但事件再次提醒企業應建立多區域冗餘(multi-region redundancy)與自動容錯機制,減少對單一區域的依賴。
截至報導時間,AWS 已完成主要服務恢復,並持續監控 Lambda 與 EC2 的延遲狀況。官方尚未公布正式的事後事件報告 (Post-Incident Summary),預計將於後續時間應該會有更詳細的技術說明公佈。
本文圖片由 ComfyUi 搭配本地端 AI 模型生成










