在數位轉型的浪潮下,企業對伺服器的需求不再僅限於運算和儲存,而是追求更靈活的運算資源分配與災難恢復能力。 在 IT 維運的世界裡,「單點失效(Single Point of Failure)」始終是管理員揮之不去的噩夢。過去,若想實現虛擬機(VM)的動態遷移或自動備援,往往需要投入極其昂貴的資源。
為什麼虛擬機遷移曾經是「貴族的權利」
無論是 VMware vMotion 或是 Microsoft Hyper-V Live Migration,要達成服務不中斷遷移,企業面臨的是重重關卡。
授權與建置成本的鴻溝
VMware vMotion:通常被鎖定在高階授權中。

Hyper-V:雖然 Hyper-V 角色本身免費,但要實現自動化的 HA 故障轉移,必須建立「容錯移轉叢集(Failover Clustering)」,這需要 Windows Server Datacenter 版授權,且對網域環境(Active Directory)有嚴格要求。

儲存網路的複雜度
這類方案需要昂貴的外部儲存陣列(SAN)以及專用的高速儲存網路(Fibre Channel 或 10GbE iSCSI)。對於預算有限的中小企業,這套基礎架構的價格往往比伺服器本身還貴。
硬體異質性的技術門檻
早期的遷移技術要求兩台伺服器的 CPU 指令集必須高度一致。只要兩台機器採購時間差了幾年,CPU 世代截然不同,遷移時就極易發生 Kernel Panic 當掉,該 Guest VM 不能使用。
網路重配置的問題
過去虛擬機搬家後,物理網路埠的 VLAN、MAC 位址與 IP 往往需要重新手動配置。如果沒有昂貴的分層交換器,遷移完成的那一刻,往往就是服務斷線的開始。
Proxmox VE 依然難度不低
近年來,在討論虛擬機高可用性(HA)時,Proxmox VE (PVE) 是許多進階 IT 人員與開源愛好者的心頭好。但對於資源有限或追求效率的中小企業 IT 管理員而言,PVE 的進入門檻依然不可小覷。

首先,在 HA 架構的核心 Quorum 角色處理上(Quorum 是一種分散式系統中常用的,用來保證資料冗餘和最終一致性的投票演算法,擔任虛擬機平台高可用性的仲裁者),PVE 嚴格遵循過半投票制。若僅部署兩台節點,一旦兩機通訊異常,倖存的節點會因票數未過半而自動鎖定虛擬機。要解決此問題,管理員必須手動配置 External Vote 或額外架設如 Raspberry Pi 般的 QDevice,這對希望「開箱即用」的管理者來說,是一道額外的技術負擔。 Quorum。
其次是儲存整合的複雜性。PVE 雖然支援 Ceph 等強大的分散式儲存,但在兩台節點的架構下,Ceph 的效能損耗極大。若回歸傳統的 iSCSI 或 NFS 共享儲存,則需要對 Linux 底層、LVM-thin 或 ZFS 有深厚的調校經驗。若要穩定,通常還是得依賴外部 NAS 作為儲存端。這意味著如果你選 Proxmox,你還是需要一台 NAS 來放檔案,架構反而變得更複雜。
最後,軟體本身開源免費,但如果你需要穩定的企業級更新儲存庫(Enterprise Repository)以及官方技術支援,則需要按 CPU 插槽數量每年支付訂閱費。此外,若硬體出問題,除了給原廠開 ticket 外,維運人員也具備一定 Linux 系統處理操作能力。

如果 PVE 實作或日常營運中出了問題要處理,會比較需要更多相關知識來處理。但對我們來說,實作是很有成就感的。
那麼,假如我已經有QNAP NAS了,那我該怎麼做?
本次 CyberQ 將透過兩台 QNAP TS-464 NAS,初步實測 Virtualization Station 4.1.0 新增的虛擬機高可用性(HA) Beta 版,結合 QuTS hero 的 ZFS 檔案系統的 SnapSync 即時同步技術,提供雙 NAS 之間的虛擬機自動保護與無縫切換,同時支援多種故障判斷條件與雙向保護,確保在發生故障時能迅速將虛擬機切換至備援 NAS,實現業務不中斷執行,打破 VMware、Hyper-V 與 Proxmox 等方案的高牆,將頂級技術平民化。
在多數傳統 HA 架構中,虛擬機必須依附於共享儲存,這不僅增加採購與維護成本,更在儲存裝置故障時帶來全面停擺風險。既然眼前的方案都如此大費周章,那為何不直接讓擁有高運算效能的 NAS 就具備這樣的能力,一勞永逸的一併解決儲存架構的難題,並同時大幅降低整體 TCO(總持有成本)?
直接了當的方案:讓 NAS 具備虛擬機高可用性
近年因為軟體架構革新後,執行 QuTS h5.3.0 以上版本的 QNAP NAS 即可支援兩台組成的高可用性叢集,以防止服務中斷,之前發表的 VM 高可用性 (VMHA) 是 Virtualization Station 4.1.0 中的一項功能,能夠在兩台 QNAP NAS 裝置之間自動進行虛擬機的容錯移轉,有助於在硬體故障時,透過減少停機時間,來確保服務的連續性。

更重要的是,虛擬機 HA 功能已整合於 Virtualization Station,無需額外購買虛擬化平台授權即可啟用,省下高昂建置與維護費用,大幅降低部署複雜度與成本,讓中小企業也能輕鬆享有高可用虛擬化環境。
俗語說的好,天底下沒有白吃的午餐,在實現兩台 QNAP NAS 即可實現動態虛擬機遷移前,我們還有很多事前的準備工作。
在倍受歡迎的 TS-464 上一步一腳印的初步實測虛擬機動態遷移
CyberQ 使用的 NAS 是有得獎的小型機 QNAP TS-464,在 4-bay 的小巧機身內蘊含了四核心 CPU、2 個 2.5GbE 網路埠、兩個 M.2 NVMe SSD 插槽、以及可安裝 QM2 M.2 SSD 擴充卡或 10GbE 網路卡的 PCIe 插槽。
TS-464 目前的配置是裝滿兩條 8GB DDR4 SO-DIMM 記憶體 (總計 16GB),安裝三顆 Seagate 4TB NAS 專用硬碟 (ST4000VN000-1H4168) 組成有效容量 6.97TB (RAID 5, 預留 10% 空間) 的儲存池。此外,因應已建置 10GbE 網路,PCIe 插著一張 Marvell AQC113 網卡,為了確保讀寫效能充分利用頻寬,也安裝兩條三星 M.2 2280 512GB NVMe SSD (MZVLB512HAJQ-000L7) 組成兼具讀取快取 (RAID 0) 和 ZIL 同步 I/O 寫入記錄 (RAID 1) 的快取加速。

此為第一台 TS-464 的儲存配置,兩片 512GB M.2 NVMe SSD 當快取,三台 4TB 硬碟組成 RAID 5。
孤掌難鳴,筆者另外再跟友人借用一台同樣的 TS-464,同樣記憶體裝好裝滿 16GB、Marvell AQC113 10GbE 網卡、M.2 改用兩條 Intel Optane SSD P1600X 118GB (SSDPEK1A118GA) 組成讀寫共用加速快取,硬碟機設法硬湊出混搭兩顆 HGST 2.5 吋 500GB (HTS545050A7E680, HTS725050A7E630)、一顆 Toshiba 2.5 吋 320GB (MK3252GSX)、一顆 WDC 3.5 吋 320GB (WD3200AAKS-22VYA0),組成有效容量 760GB (RAID 5, 預留 10% 空間) 的儲存池,雖然容量不高,但安裝少量虛擬機已綽綽有餘。

此為第二台 TS-464 的儲存配置,兩片 118GB M.2 NVMe SSD 當快取,雖然裝滿四台硬碟,但容量卻少很多。
CyberQ 實測,兩台 TS-464 的作業系統均統一升級成最新的 QuTS hero 6.0.0.3469 (Release Candidate),以保證最好的相容性,接著就依照 QNAP 網站上的教程,一步一腳印的在兩台相同的 NAS 上建立在過去可望而不可及的虛擬機高可用性。
但魔鬼總是藏在細節裡,我們在下一篇 兩台 QNAP NAS 終結虛擬機遷移的高牆(下):QuTS hero 升級、網路架構與動態遷移實戰 ,將會知道有哪些需要特別注意的細節,特別是軟體升級和網路設定的部份。











