CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • Home
    • 關於我們
    • 隱私權政策
  • 新聞
  • 基礎教學
    • NAS 基礎設定
  • Docker / 容器
    • 虛擬化
  • 資安專區
    • ISO 合規
  • AI 應用實戰
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • DR.Q 快問快答
  • 開箱測試
  • 展覽直擊
聯繫我們
  • Home
    • 關於我們
    • 隱私權政策
  • 新聞
  • 基礎教學
    • NAS 基礎設定
  • Docker / 容器
    • 虛擬化
  • 資安專區
    • ISO 合規
  • AI 應用實戰
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • DR.Q 快問快答
  • 開箱測試
  • 展覽直擊
沒有結果
觀看所有搜尋結果
CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • Home
  • 新聞
  • 基礎教學
  • Docker / 容器
  • 資安專區
  • AI 應用實戰
  • 進階應用
  • DR.Q 快問快答
  • 開箱測試
  • 展覽直擊
首頁 新聞

AWS US-EAST-1 美東機房大當機,眾多重量級服務網站掛點的啟示

Walter Black by Walter Black
2025 年 10 月 20 日
Reading Time: 5 mins read
A A
AWS US-EAST-1 美東機房大當機,眾多重量級服務網站掛點的啟示
26
分享數
525
觀看數
分享到臉書分享到 X分享到Line分享到 Threads分享到 Linkedin

是的,CyberQ 直接告訴你結論,AWS 官方文件時序看起來總共花費了約 15 個小時恢復所有該平台服務正常,我們確實需要多雲端服務架構 multi-cloud,不能只依賴市場上最穩定的 AWS,因為它也有可能會掛掉,平常要準備有第二套方案因應,備援至少要恢復到某個程度才能應對全球客戶。

RELATED POSTS

新品聚焦不中斷服務、AI 與資料韌性 – QNAP World Tour 2025 台北展場直擊

Backblaze 13 年資料呈現硬碟可靠度真相,當代硬碟壽命比預期更持久

PaaS vs. VPS:Idealist.org 如何將 3,000 美元月帳單降至 55 美元,大幅節省費用背後的營運風險與技術權衡

當雲端停止呼吸:AWS大當機揭示的驚人真相

你是否曾有過這樣的經驗:早晨醒來,想問 Google Gemini AI 或 蘋果 Siri 、Alexa 這些服務關於今天天氣,卻只得到一片寂靜?或是打開最愛的 Youtube 或 Spotify 串流影音,卻怎麼也無法載入?這不再是科幻情節,而是真實發生在數百萬人身上的「雲端停止呼吸」時刻。

就在 2025 年 10 月 20 日台北時間的下午,美國雲端服務大廠亞馬遜旗下的 AWS(Amazon Web Services)雲端服務爆發了大規模中斷。此次事件的中心是其關鍵的「US-EAST-1」(美國東部)區域,但影響迅速擴散至全球。這場數位世界的「停電」,不僅讓亞馬遜自家的線上服務癱瘓,更導致了 Paypal 的 Venmo 行動支付、社群軟體 Snapchat、AI 搜尋引擎 Perplexity,甚至麥當勞的應用程式和美聯社(AP)的後台都瞬間停擺,迫使美聯社緊急啟用備援網站。另外還有 EA、Epic、Ubisoft 等公司也受到影響,蘋果則是 iCloud 的部分受影響,一堆科技公司的網站、APP、軟體服務有用到 AWS 的都受到不同程度的影響。

根據 AWS 官方當時的說明,他們持續去修復 US-EAST-1 的 EC2 服務,並且努力恢復包括 RDS 、ECS 與 Glue 等服務,這些包括了虛擬機、資料庫等等,要等服務完全恢復,各家科技大廠執行在 AWS 許多相關伺服器服務才有辦法恢復運作。

根據 CyberQ 在美國的合作夥伴訊息與目前客戶上碰到的 AWS 雲端問題,簡單綜合歸納如下 :

事件總結:網路「電話簿」故障引發的連鎖效應

簡單來說,這次 AWS 大規模當機的根本原因,是核心的「DNS 服務」出了問題。

用另一個視角來看,暫時權稱把 DNS 想像成是網路世界的「電話簿」。當全球訪客要造訪一個網站(或一項服務)時,電腦會先去查這本電話簿,找到該網站的「地址」(IP 位址)。

這次事件中,AWS 內部這本「電話簿」壞掉了,導致它自己內部的許多服務找不到彼此的「地址」。

起火點: 最先出問題的是 DynamoDB,這是一個超大型的「雲端資料庫」(想像成一個巨型數位檔案櫃)。

連鎖效應: 因為「電話簿」查不到 DynamoDB 的地址,導致其他數十個依賴這個「檔案櫃」的服務(例如:身份驗證、虛擬主機、資料處理服務等)全部跟著大亂。

殘餘問題: 即使「電話簿」修好了,但先前中斷引發了「後遺症」,例如:

EC2(虛擬主機): 用戶無法順利「開啟新的雲端電腦」。

Lambda/SQS(自動化任務): 就像「郵局的信件 (SQS)」堆積如山,而「郵差 (Lambda)」來不及處理這些積壓的信件。

事件時序整理 (PDT 時間)

以下是從問題發生到修復的關鍵時間點:

階段一:偵測到問題

[12:11 AM] AWS 工程師開始調查美東(N. Virginia)機房的服務出現「大量錯誤和延遲」。

[01:26 AM] 官方確認,DynamoDB (雲端資料庫) 服務出現「嚴重錯誤率」。這時連 AWS 自己的「客服支援系統」也跟著掛點了。

階段二:找到根本原因並開始修復

[02:01 AM] AWS 鎖定了潛在的根本原因:DNS 解析問題。

[02:01 AM] 官方證實,這個 DNS 問題也影響到「全球服務」(例如 IAM 身份登入管理),因為它們都依賴美東機房的端點。

[02:22 AM] 團隊開始實施修復 DNS,並觀察到「早期恢復跡象」。

[02:27 AM] 服務出現「顯著的恢復跡象」,大部分請求開始恢復成功。

階段三:主要問題解決,但出現「後遺症」

[03:35 AM] 核心的 DNS 問題已完全緩解。大部分服務恢復正常。

03:35 AM 雖然 DNS 修好了,但中斷引發了「後遺症」:

EC2 (虛擬主機): 使用者在「啟動新的虛擬主機」時開始遇到錯誤(顯示「容量不足」)。

Lambda (自動化任務): 仍在處理先前堆積如山的「積壓事件」。

05:48 AM 虛擬主機與日誌問題改善

虛擬主機 (EC2): 啟動問題取得進展。在美東機房的某些「獨立建築」(AZ) 已經可以成功啟動新主機了,團隊正在將修復方案應用到剩下的區域。客戶會漸漸看到越來越多主機能成功開啟。

日誌/事件 (CloudTrail, EventBridge): 先前卡住的「日誌」和「事件」積壓也正在成功消化中。新產生的日誌已恢復正常傳遞,不再有延遲。

[06:42 AM] EC2 啟動錯誤仍然很高。AWS 開始「限流」(Rate Limiting),主動限制新主機的啟動數量以協助恢復。

第二波衝擊 – 網路連線大亂 (7:14 AM – 10:03 AM)

07:14 AM 系統爆發「嚴重的 API 錯誤和連線問題」。這是一個新問題。

[08:04 AM] 問題源頭指向「EC2 內部網路」。

08:43 AM 真正的元兇是「網路負載平衡器 (NLB) 的健康監控子系統」。

白話文: 「交通號誌監控系統」故障,導致網路癱瘓。

[09:13 AM] 團隊開始修復 NLB 監控系統。

[10:03 AM] 官方確認,故障的 NLB 系統也導致了 Lambda (自動任務) 大量失敗。

系統穩定與逐步恢復 (10:38 AM – 2:48 PM)

[10:38 AM] EC2 (第一波衝擊) 的修復工作取得進展,在少數 AZ 開始恢復。

[11:22 AM] EC2 啟動和網路連線問題「顯著改善」。Lambda 錯誤也大幅改善。

[12:15 PM] Lambda 在存取其他服務時仍有網路錯誤。AWS 刻意減慢 SQS (信件處理) 速度,以降低 Lambda 的壓力。

[01:03 PM] 情況持續好轉。AWS 開始「減少限流」(Reduce throttles) EC2 啟動。SQS 的處理速度也調回正常。

[01:52 PM] Lambda 積壓的事件預計 2 小時內處理完畢。

[02:48 PM] EC2 (第一波衝擊) 問題解決。 主機啟動的「限流」已恢復到事件前的水準。依賴 EC2 的服務 (如 Redshift) 開始消化積壓。

[已解決] 官方最終總結 (3:53 PM)

AWS 在 3:01 PM 宣布所有服務恢復正常運作。

官方總結了這場連環災難:

事件 1 (DNS 故障): 10/19 11:49 PM – 10/20 2:24 AM。 (DynamoDB 故障)。

事件 2 (EC2 啟動故障): 2:24 AM 開始。 (修好 DNS 卻觸發了 EC2 虛擬主機啟動系統的潛在問題)。

事件 3 (NLB 故障): 9:38 AM 修復。 (在修復 EC2 期間,NLB 故障,導致 Lambda 和 DynamoDB 再次 出現網路問題)。

恢復行動: 官方承認在此期間使用了「限流」(Throttling) 手段來穩定系統。

殘餘工作: 雖然服務已恢復,但少數服務 (如 AWS Config, Redshift) 仍有一些積壓的訊息需要數小時才能完全處理完畢。

階段四:處理殘餘問題(後遺症)

[04:08 AM] 團隊仍在努力修復 EC2 (虛擬主機) 的啟動錯誤,並處理 Lambda 對 SQS (訊息隊列) 的 polling 延遲。

[04:48 AM] 官方建議,如果客戶需要啟動 EC2 主機,請「不要指定特定可用區 (AZ)」,讓系統自動幫你找健康的主機房。這也證實了 RDS (託管資料庫) 和 ECS (容器服務) 也因此受到影響。

[05:10 AM] Lambda/SQS 的處理功能已恢復。團隊開始努力消化先前「堵塞」的龐大訊息積壓。

受影響的服務範圍

這次事件波及範圍非常廣(總共一百多項服務受影響),因為 US-EAST-1 是 AWS 最古老且核心的區域:

已解決 (Resolved): 共 142 項。

核心問題:DynamoDB (資料庫)、IAM (身份登入)、Support (客服系統) 等。

衍生問題:EC2 (虛擬主機)、RDS (資料庫)、ECS/EKS (容器服務)、Lambda (無伺服器) 等。

日誌積壓:CloudTrail (操作日誌)。

以下是 AWS 近期關於服務恢復的最新陸續聲明 :
Operational issue – Multiple services (N. Virginia)

這場事故,再次揭示了我們對「雲端」的依賴程度遠超想像。它究竟教會了我們什麼?以下是幾個最令人警醒的真相。

一、你的智慧生活,其實是「亞馬遜 AWS 」智慧生活

從 Alexa 語音助理、掃地機器人到智慧門鈴,無數的智慧家庭裝置都悄悄地依賴著 AWS 運作。正如這次當機中有用戶通報,他們的 Alexa 瞬間關閉,無法回應查詢或執行例行鬧鐘。這場事故讓我們意識到,許多我們以為是獨立運作的智慧產品,其核心服務其實都集中在少數幾個雲端提供商手中。單一節點的故障,就能癱瘓我們數位化生活的一大部分。

二、遊戲、社群、串流影音,無一倖免

想像一下,當你正準備在《要塞英雄》(Fortnite)中與朋友並肩作戰,或是想上 Snapchat 分享生活點滴,卻發現一切都無法登入。此次受災的用戶名單中,就包括了 Snapchat、Canva 和 NVIDIA 舵手黃仁勳愛用的 Perplexity。

Perplexity AI的執行長更是在 X 平台發文證實:「根本原因是AWS的問題。」

換言之,無論是娛樂、社交還是資訊獲取(如美聯社的新聞後台),現代人的數位生活已與大型雲端服務深度綁定。我們享受著便利,卻也付出了將所有雞蛋放在同一個籃子裡的風險。

三、一個「自動化系統」的錯誤,引發骨牌效應

儘管 10 月 20 日這次當機的確切原因仍在調查中,AWS 僅表示在調查「錯誤率和延遲增加的問題」,但它突顯了高度自動化系統的脆弱性。過去的經驗(如2017年因技術人員「打錯字」導致的服務中斷),有時反而是「自動化系統」在檢測到錯誤後,觸發了更大的連鎖反應,導致服務全面癱瘓。這提醒我們,即使是最先進的自動化系統,也可能帶來毀滅性的後果,也引發了對 AI 和自動化系統設計的深層思考:我們如何確保其在故障時能「安全地失敗」?

四、企業的「雲端夢」與「雲端惡夢」

越來越多的企業將服務遷移到雲端,以享受其帶來的彈性、擴展性和成本效益。然而,這次當機也展示了雲端服務的脆弱面。許多公司,即使是擁有強大技術實力的企業,如美聯社和 Perplexity,也因為 AWS 的故障而需要啟動資安管理與 BCP 營運持續計畫中,提供資訊服務最重要的備援,要把網站用備援環境上線持續提供服務。

這次事件也讓我們反思,檢查自己公司和服務的雲端策略,思考如何建立更具韌性、分散式的架構,以避免將所有業務命脈寄託於單一供應商。

五、數位世界的「停電」

「這場當機不僅是技術問題,更是對現代數位基礎設施韌性的一次嚴峻考驗。」

CyberQ.tw

當電力中斷,我們知道該怎麼辦。但當「雲端」中斷,我們的應變能力又如何?這次事件就像一場 BCP 營運持續計畫的預演,讓我們看到了單一雲端供應商萬一變成單一失效點的潛在風險。

AWS的這次當機,我們可以思考,下一次當我們點擊一個應用程式,或是與智慧裝置互動時,或許會對其背後的巨大雲端基礎設施,有更深一層的理解與敬畏。

我們是否已經準備好,面對下一次的「雲端停止呼吸」呢?

本文圖片由 ComfyUi 搭配本地端 AI 模型生成

AWS US-EAST-1 異常掀全球災情:Snapchat、Canva、Duolingo、Fortnite 全掛,陸續恢復上線
標籤: AWS雲端服務
Share10Tweet7ShareShareShare2
上一篇

2025 台灣創新技術博覽會現場直擊:AI、淨零、半導體三大主軸領航

下一篇

AWS US-EAST-1 異常掀全球災情:Snapchat、Canva、Duolingo、Fortnite 全掛,陸續恢復上線

Walter Black

Walter Black

具備多年專案管理、資訊架構、VM環境、中大型資訊機房建置經驗,ISO 27001:2022 LA。

相關文章文章

新品聚焦不中斷服務、AI 與資料韌性 – QNAP World Tour 2025 台北展場直擊
展覽直擊

新品聚焦不中斷服務、AI 與資料韌性 – QNAP World Tour 2025 台北展場直擊

2025 年 10 月 24 日
Backblaze 13 年資料呈現硬碟可靠度真相,當代硬碟壽命比預期更持久
新聞

Backblaze 13 年資料呈現硬碟可靠度真相,當代硬碟壽命比預期更持久

2025 年 10 月 23 日
PaaS vs. VPS:Idealist.org 如何將 3,000 美元月帳單降至 55 美元,大幅節省費用背後的營運風險與技術權衡
DevOps

PaaS vs. VPS:Idealist.org 如何將 3,000 美元月帳單降至 55 美元,大幅節省費用背後的營運風險與技術權衡

2025 年 10 月 22 日
AI 也會「腦腐失智」!研究揭露垃圾資料讓 LLM 出現認知退化與黑暗特質
新聞

AI 也會「腦腐失智」!研究揭露垃圾資料讓 LLM 出現認知退化與黑暗特質

2025 年 10 月 22 日
微軟發布緊急 OOB 更新 KB5070773,修復 Windows 11 24H2/25H2 關鍵 WinRE 故障
DR.Q 快問快答

微軟發布緊急 OOB 更新 KB5070773,修復 Windows 11 24H2/25H2 關鍵 WinRE 故障

2025 年 10 月 21 日
AWS US-EAST-1 異常掀全球災情:Snapchat、Canva、Duolingo、Fortnite 全掛,陸續恢復上線
新聞

AWS US-EAST-1 異常掀全球災情:Snapchat、Canva、Duolingo、Fortnite 全掛,陸續恢復上線

2025 年 10 月 20 日
下一篇
AWS US-EAST-1 異常掀全球災情:Snapchat、Canva、Duolingo、Fortnite 全掛,陸續恢復上線

AWS US-EAST-1 異常掀全球災情:Snapchat、Canva、Duolingo、Fortnite 全掛,陸續恢復上線

微軟發布緊急 OOB 更新 KB5070773,修復 Windows 11 24H2/25H2 關鍵 WinRE 故障

微軟發布緊急 OOB 更新 KB5070773,修復 Windows 11 24H2/25H2 關鍵 WinRE 故障

推薦閱讀

免費 PDF 伺服器,QNAP NAS 成為 PDF 轉檔合檔修改中心 (Stirling PDF 實作)

免費 PDF 伺服器,QNAP NAS 成為 PDF 轉檔合檔修改中心 (Stirling PDF 實作)

2025 年 10 月 13 日
打造家庭多媒體中心:用 NAS 串流影音內容的三個實作

打造家庭多媒體中心:用 NAS 串流影音內容的三個實作

2025 年 10 月 15 日
NFS 40 週年回顧:從 Reddit 到 Apple,工程師們與儲存設備大廠應用多年的網路檔案系統

NFS 40 週年回顧:從 Reddit 到 Apple,工程師們與儲存設備大廠應用多年的網路檔案系統

2025 年 10 月 8 日

熱門文章

  • Salesloft Drift 整合漏洞災情擴大,多家企業的Salesforce 資料外流,科技大廠說明曝險範圍

    Salesloft Drift 整合漏洞災情擴大,多家企業的Salesforce 資料外流,科技大廠說明曝險範圍

    83 shares
    Share 33 Tweet 21
  • 高通併購 Arduino,Uno Q 問世,自造者社群與開源硬體生態邁向 AI 運算與機器人新時代

    60 shares
    Share 24 Tweet 15
  • 在你的電腦與 NAS 上跑本地端 ChatGPT,OpenAI 釋出開源模型 gpt-oss

    49 shares
    Share 20 Tweet 12
  • Windows 11 25H2 正式釋出,ISO檔與小更新檔均可部署

    45 shares
    Share 18 Tweet 11
  • Windows 10 大限將至!OT 及舊裝置如何透過微軟 ESU 計畫續命一年?

    36 shares
    Share 14 Tweet 9

關於 CyberQ 賽博客

您的企業儲存、網路架構與資安科技好夥伴

專注於企業級網路與儲存環境建構、NAS 系統整合、資安解決方案與 AI 應用顧問服務,為您打造高可用、高安全、高效能的數位環境。

專業產業媒體 × 技術顧問團隊

我們關注新興科技趨勢,深入報導海內外產業動態,並結合多年實務經驗,提供量身打造的 IT 解決方案與精選內容。

我們提供的核心服務 : 

資安防護|網站開發與雲端服務|AI 導入與應用顧問|企業資訊環境建構|NAS 系統整合|數位內容產製|科技媒體|

CyberQ 致力於打造更智慧、更安全的數位未來。

新聞稿、採訪、授權、內容投訴、行銷合作、投稿刊登:service@cyberq.tw
廣告委刊、展覽會議、系統整合、資安顧問、業務提攜:service@cyberq.tw

Copyright ©2025 CyberQ.tw All Rights Reserved.

沒有結果
觀看所有搜尋結果
  • Home
    • 關於我們
    • 隱私權政策
  • 新聞
  • 基礎教學
    • NAS 基礎設定
  • Docker / 容器
    • 虛擬化
  • 資安專區
    • ISO 合規
  • AI 應用實戰
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • DR.Q 快問快答
  • 開箱測試
  • 展覽直擊

© 2025 CyberQ NAS、資安、資訊科技、AI應用的日常 關於 CyberQ 賽博客NAS 系統與電腦、手機一起的生活故事多年的系統整合與資訊安全經驗,協助智慧家居、小型工作室、辦公室與機構,導入更便利、更安全的資訊環境與應用。