運營永續及災害復原 ( BCDR ) 與 Azure 案例分享

/ 十一月 22, 2019/ 所有文章, 雲端管理, 案例分享

在2018年 Gartner 的企業風險管理調查中,有 78% 的受訪者表示已針對網絡相關事件製定了明確的應對計劃,而 76% 的受訪者則計劃應對火災或爆炸的影響。Gartner 諮詢副總裁 Ian Beale 表示:「即使只是短暫的停機時間也可能造成巨大的損失,因此,公司必須實施合理的營運連續性流程,這一點至關重要。」

隨著網路威脅漸趨頻繁與停機時間的容忍度降低,資料備份與復原對企業而言至關重要,越來越多企業要求24/7全天支援的 IT 服務,以便因應持續的業務營運工作。也因此,這年頭越來越多企業開始注重業務持續性 (企業永續) 與災害復原 (Business Continuity and Disaster Recovery)。
註:另外一個常見的相關詞是 Business Continuity Management ( BCM ) 企業運營永續管理。

業務持續性與災害復原 (BCDR) 主要目標

業務持續性 (Business Continuity , BC):通常是指組織必須實施的過程,以確保關鍵服務在災難發生時得以繼續運作,注重全面的計畫以應對組織的長期挑戰。

災難復原 (Disaster Recovery, DR):通常是把重點放在技術基礎架構上。它是業務持續性的一部分,著重在災難發生後仍能輕鬆存取數據。

整體來說,BCDR有兩個主要目標:

  • 確保您商務資料的安全性,且在中斷狀況發生時可以復原。
  • 讓您的應用程式和工作負載在計劃性與非計劃性停機期間保有啟動並運作的狀態。

制定 BCDR 策略是一個複雜的過程,需要進行研究和分析,包含進行業務影響分析(BIA)和風險分析,以制定 BCDR 計畫、測試、練習和培訓,但備份與災難復原(DR)可以很簡單。

BCDR

Azure 如何有助於企業建立 BCDR 策略

雲馥以豐富的雲端經驗協助企業透過使用雲端輕易的做到備份與災難復原,像是 Azure Backup 與 Azure Site Recovery (ASR) 都是有助於為企業建立 BCDR 策略的服務,您可以透過以下簡單的表格來釐清您的需求與兩者服務的差異:

目標 詳細資料 比較
資料備份/保留 備份資料可以保留並儲存數天、數個月,甚或數年 (若有合規方面的需求)。 備份解決方案 (例如 Azure 備份) 可讓您精確挑選您要備份的資料,並精細調整備份和保留原則。Site Recovery 則不允許這樣的微調。
復原點目標 (RPO) 在需要進行復原的情況下可接受的資料遺失數量。 備份的 RPO 有較多變化。VM 備份的 RPO 通常為一天,而資料庫備份的 RPO 則可能只要 15 分鐘。由於複寫會連續或頻繁地執行,使得來源與複本之間的差異很小,因此 Site Recovery 會提供較低的 RPO。
復原時間目標 (RTO) 完成復原或還原所需的時間量。 由於 RPO 較大,備份解決方案需要處理的資料量通常更多,這會導致 RTO 較長。 例如,根據從異地傳輸磁帶所需的時間,從磁帶還原資料可能需要數天的時間。

案例分享:備份

以雲馥服務的某生醫為例,該公司為了讓資料有更妥善的保護機制並提高整體安全性,希望他們 ERP 相關資料除了存在地端之外,也希望能多一個備份到雲端。雲馥經需求訪談了解到他們使用的是 Microsoft SQL Server,為節省客戶成本,我們建議該客戶透過安裝 Microsoft® SQL Server® Backup to Microsoft Azure®Tool,直接使用該工具即可備份上雲,在這個案例中該客戶是直接透過此工具備份到 Azure Blob 儲存體。

如果客戶有其他檔案資料、VM、Hyper-V 想做備份,可使用 Azure Backup,只需要安裝 Agent 或是使用 Backup Server 即可簡易完成操作。雲馥會依據客戶需求與情境不同,規劃不同的備份方式與架構。
更多備份方式詳見:點此

案例分享:災難復原

為了更完整分享災難復原,以下分享國外某知名汽車品牌的案例。

某知名汽車品牌在過去將應用程式備份到硬碟架構的虛擬磁帶、製作複本並將其存放在實體磁帶,然後將磁帶寄至外站做災難防護。如若遭逢生產系統當機或需要進行資料還原時,就要花費長達24小時的時間來要求、並找出遞送正確的備份磁帶來還原資料。

Azure-site-recovery
以上述架構圖為例,運用 Azure Site Recovery 將機器從主要位置複寫到次要位置。當災害發生時將機器容錯移轉至次要位置,並從該處加以存取。當一切都恢復正常啟動並運作後,企業即可將機器容錯回復,並在主要站台加以復原。
透過 Azure Site Recovery,不但將資料複製的時間減半,從 Azure 取回檔案也可以在數分鐘之內完成,也沒有磁帶損壞或損耗的問題,在過去這些作業會占用高階工程師 20% 的工作時數,現在能省下這些時間進行更重要的專案。

在 BCDR 策略中加入高可用性

除了備份與災難復原之外,若企業要確保應用程式和資料不受資料中心故障影響,雲馥有以下兩個建議:

1. 將服務放在兩個資料中心運作 (以下為概念與參考架構)

BCDR-Azure-Region

2. 使用Azure 可用性區域 (以下為概念與參考架構)

BCDR-Azure-Availability-Zone

可用性區域是獨特的實體位置,具有獨立的電力、網路和冷卻系統。每個可用性區域均由一或多個資料中心組成,並容納基礎結構以支援具高可用性及任務關鍵性的應用程式。

Azure 區域中的可用性區域是由容錯網域和更新網域組成。 例如,如果您在 Azure 區域中建立橫跨三個區域的三個 (或更多) VM,您的 VM 會有效地分散到三個容錯網域和三個更新網域。 Azure平台會從更新網域中辨識此分佈,以確定不會同時更新不同區域中的 VM。藉由將運算、儲存體、網路及資料資源共置於某個區域內並複寫至其他區域,即可讓您的應用程式架構內建高可用性。

欲了解可用性區域這個功能依據不同Azure服務與不同區域可使用範圍,可參考官方文件

雲馥數位 Azure 復原檢查服務

雲馥數位為客戶提供安全可靠的雲端架構,除了安全評估計畫,我們也針對特定 Azure 服務提列相關復原檢查清單,包括 App Service、應用程式閘道、Cosmos DB、事件中樞、Azure Cache for Redis、搜尋、服務匯流排、儲存體、SQL Database、Azure Synapse Analytics、流量管理員、虛擬機器與虛擬網路。

以應用程式閘道為例,雲馥會為客戶檢查是否佈建至少兩個執行個體、部署具有至少兩個執行個體的應用程式閘道、單一執行個體為單一失敗點、使用兩個或多個執行個體,可提供備援和延展性。 同時為了符合 SLA 的資格,企業必須佈建兩個或更多中型或大型執行個體。

再以常見虛擬機器為例,檢查當企業使用Site Recovery複寫 Azure vm 時,所有 VM 磁片都會以非同步方式持續複寫到目的地區域,並且每隔幾分鐘就會建立一次復原點。依據這樣的設定,企業將獲得以分鐘為單位的復原點目標 (RPO)。
更多復原檢查清單,歡迎與我們聯繫

Share this Post