隨著DT時代的到來,企業(yè)對數(shù)據(jù)的依賴程度與日俱增,數(shù)據(jù)保護(hù)早已成為企業(yè)的一門必修課。只有擁有先知先覺的防范意識和充分的技術(shù)準(zhǔn)備,才能“覆巢之下,亦有完卵”。在日前云棲大會的“企業(yè)級數(shù)據(jù)庫最佳實(shí)踐”專場,災(zāi)備相關(guān)議題也備受關(guān)注。本文結(jié)合阿里巴巴數(shù)據(jù)庫團(tuán)隊(duì)在會上的分享,詳細(xì)介紹如何使用數(shù)據(jù)庫云產(chǎn)品組合,搭建符合自身企業(yè)發(fā)展階段的災(zāi)備方案。
數(shù)據(jù)是企業(yè)重要的生產(chǎn)資料,一旦發(fā)生數(shù)據(jù)丟失,企業(yè)就會陷入困境:客戶資料、技術(shù)文件、財務(wù)賬目等客戶、交易、生產(chǎn)數(shù)據(jù)可能被破壞得面目全非。概括起來,數(shù)據(jù)丟失分三個層次:

? 邏輯錯誤:包括軟件bug、病毒攻擊、數(shù)據(jù)塊被破壞等。
? 物理損壞:包括服務(wù)器、磁盤損壞等。
? 自然災(zāi)害:火災(zāi)、地震等自然災(zāi)害對數(shù)據(jù)中心的摧毀等。
為了應(yīng)對數(shù)據(jù)丟失造成的損失,必須對數(shù)據(jù)進(jìn)行災(zāi)備保護(hù),并且企業(yè)信息化程度越高,相關(guān)的數(shù)據(jù)災(zāi)備恢復(fù)措施就越重要。
1.企業(yè)級數(shù)據(jù)庫災(zāi)備體系
1.1. 災(zāi)備定義
災(zāi)備是指容災(zāi)+備份:
? 備份的定義:指用戶為應(yīng)用系統(tǒng)產(chǎn)生的重要數(shù)據(jù)(或者原有的重要數(shù)據(jù)信息)制作一份或者多份拷貝,以增強(qiáng)數(shù)據(jù)的安全。
? 容災(zāi)的定義:指在相隔較遠(yuǎn)的兩地(同城或者異地)建立兩套或多套功能相同的IT系統(tǒng),互相之間可以進(jìn)行健康狀態(tài)監(jiān)視和功能切換。當(dāng)一處系統(tǒng)因意外(天災(zāi)、人禍)停止工作時,整個應(yīng)用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作。
1.1. 災(zāi)備痛點(diǎn)
(1)備份痛點(diǎn)
? 備份失效
? 恢復(fù)速度慢
? 恢復(fù)有損
? 異地備份成本高
? 性價比低
(2)容災(zāi)痛點(diǎn)
? 容災(zāi)方案單一,無法滿足不同數(shù)據(jù)級別場景建設(shè)
? 缺少容災(zāi)大盤能力,無法對容災(zāi)鏈路監(jiān)控、故障快速識別
? 災(zāi)備不具備巡檢能力
? 故障恢復(fù)成本高,數(shù)據(jù)校驗(yàn)、比對、訂正難以決策
? 多層容災(zāi)工具切換難以協(xié)同
? 預(yù)案管控缺失,無法自動化運(yùn)維
1.1. 落地方案
企業(yè)級數(shù)據(jù)庫災(zāi)備體系要以業(yè)務(wù)需求為導(dǎo)向,基于多種因素考量選擇:RPO,RTO,成本,擴(kuò)展性。還需要覆蓋數(shù)據(jù)庫災(zāi)備的各種需求:災(zāi)備環(huán)境搭建、災(zāi)備數(shù)據(jù)同步、災(zāi)備監(jiān)控告警、災(zāi)備演練、災(zāi)備切換、數(shù)據(jù)校驗(yàn)及修復(fù)等。
2.企業(yè)級數(shù)據(jù)庫災(zāi)備核心產(chǎn)品
阿里云產(chǎn)品經(jīng)多輪迭代具備比較完善的災(zāi)備能力,使用以下核心產(chǎn)品可幫助企業(yè)應(yīng)對不同場景及需求的數(shù)據(jù)庫災(zāi)備方案設(shè)計。
? DBS:Database Backup Service,是為數(shù)據(jù)庫提供連續(xù)數(shù)據(jù)保護(hù)、低成本的備份服務(wù)。它可以為多種環(huán)境的數(shù)據(jù)提供強(qiáng)有力的保護(hù),包括企業(yè)數(shù)據(jù)中心、其他云廠商。DBS提供數(shù)據(jù)備份和操作恢復(fù)的整體方案,具備實(shí)時增量備份、準(zhǔn)確到秒級的數(shù)據(jù)恢復(fù)能力。在數(shù)據(jù)庫災(zāi)備解決方案中可使用阿里云DBS實(shí)現(xiàn)各數(shù)據(jù)庫間的數(shù)據(jù)備份。
? DTS:Data Transmission Service,是阿里云提供的一種支持多種數(shù)據(jù)源之間數(shù)據(jù)交互的數(shù)據(jù)流服務(wù)。它提供了數(shù)據(jù)遷移、實(shí)時數(shù)據(jù)訂閱及數(shù)據(jù)實(shí)時同步等多種數(shù)據(jù)傳輸能力。在數(shù)據(jù)庫災(zāi)備解決方案中,使用阿里云DTS可實(shí)現(xiàn)各數(shù)據(jù)庫間的數(shù)據(jù)遷移與實(shí)時同步,從而為數(shù)據(jù)庫災(zāi)備打好重要的基礎(chǔ)。
? HDM:Hybrid Cloud Database Management,是混合云數(shù)據(jù)庫管理平臺,幫助企業(yè)打通混合云數(shù)據(jù)庫架構(gòu),提供多環(huán)境統(tǒng)一管理、快速彈性、災(zāi)備切換的能力。對于混合云災(zāi)備場景下,使用阿里云HDM可便捷、快速的將本地IDC的數(shù)據(jù)同步至云上,并進(jìn)行災(zāi)備切換演練,故障發(fā)生時可通過HDM進(jìn)行災(zāi)備切換,保障數(shù)據(jù)庫的可用性。
在災(zāi)備場景下,建議可搭配阿里云其他產(chǎn)品,例如DRDS、OSS,這些產(chǎn)品經(jīng)阿里內(nèi)外部驗(yàn)證,均具有較高可靠性并可在災(zāi)備場景下靈活應(yīng)用。
3.典型應(yīng)用場景
3.1.實(shí)時備份
當(dāng)用戶對數(shù)據(jù)備份要求較高時,比如需要連續(xù)實(shí)時備份,且備份過程中不影響業(yè)務(wù)運(yùn)行,此時可購置阿里云數(shù)據(jù)庫備份DBS服務(wù),實(shí)現(xiàn)數(shù)據(jù)庫的熱備份,DBS可實(shí)現(xiàn)數(shù)據(jù)實(shí)時增量備份、準(zhǔn)確到秒級的數(shù)據(jù)恢復(fù)能力。解決方案架構(gòu)示例如下:
架構(gòu)設(shè)計說明:
? 關(guān)鍵部件部署:
? 在用戶本地部署有兩套數(shù)據(jù)庫:生產(chǎn)數(shù)據(jù)庫和恢復(fù)庫,分別用于生產(chǎn)數(shù)據(jù)的存儲、故障后數(shù)據(jù)恢復(fù)。
? 在阿里云的兩個區(qū)域(例如:華南1、華北1)分別購置存儲服務(wù),例如OSS對象存儲或者NAS文件存儲。
? 購置阿里云的DBS服務(wù),用于用戶本地數(shù)據(jù)庫實(shí)時熱備份至云上存儲。
? 云下生產(chǎn)數(shù)據(jù)備份至云上:(可通過以下兩種方案中的任意一種將云下生產(chǎn)數(shù)據(jù)備份至云上)
? 用戶可在本地再部署一套存儲,將生產(chǎn)數(shù)據(jù)先備份至本地IDC的存儲,再通過本地IDC存儲災(zāi)備拷貝至云上存儲。
? 用戶本地的生產(chǎn)數(shù)據(jù)庫與云上存儲之間通過阿里云DBS,將生產(chǎn)數(shù)據(jù)庫中的數(shù)據(jù)直接熱備份至云上兩個區(qū)域的存儲中。
? 數(shù)據(jù)恢復(fù):
? 如果用戶本地IDC的生產(chǎn)數(shù)據(jù)庫發(fā)生故障,但本地IDC的存儲運(yùn)行正常,可通過本地IDC的 存儲將數(shù)據(jù)恢復(fù)至本地IDC的恢復(fù)庫。
? 如果用戶本地IDC的生產(chǎn)數(shù)據(jù)庫和存儲均發(fā)生故障,或沒有部署本地存儲,則可通過DBS將云上存儲將數(shù)據(jù)恢復(fù)至本地恢復(fù)庫。
? 架構(gòu)特點(diǎn):
? 優(yōu)點(diǎn):技術(shù)要求高、一致性好,恢復(fù)時間短。
? 缺點(diǎn):RTO隨著數(shù)據(jù)庫是來大小而變化。
? 應(yīng)用場景:比較成熟的備份手段,適用于大部分的關(guān)系型數(shù)據(jù)庫。
3.2.異地多活
無論彈性容災(zāi)上云、容災(zāi)雙活/多活,還是兩地三中心,用戶都可以在企業(yè)級數(shù)據(jù)庫災(zāi)備體系中找到解決方案,接下來以異地多活場景為例介紹解決方案。在用戶業(yè)務(wù)多點(diǎn)寫入場景下,如何具備數(shù)據(jù)級異地雙活,如何支持一鍵切換至另一個機(jī)房,實(shí)現(xiàn)靈活的彈上彈下和未來的線性擴(kuò)展。
部署架構(gòu)
? 應(yīng)用配合進(jìn)行單元化改造
? 通過 DTS 實(shí)現(xiàn)兩地/多地的數(shù)據(jù)庫的雙向同步,解決同城單點(diǎn)問題
? 通過 HDM 實(shí)現(xiàn)雙活/多活架構(gòu)的監(jiān)控和管理,并提供計劃內(nèi)/計劃外切換的能力
? 雙數(shù)據(jù)中心支持讀寫分離,本地用戶就近讀取
4.新產(chǎn)品:數(shù)據(jù)庫備份DBS
數(shù)據(jù)庫備份DBS作為數(shù)據(jù)庫上云備份通道,與對象存儲OSS構(gòu)建云數(shù)據(jù)庫備份解決方案,僅需5分鐘即可實(shí)現(xiàn)秒級RPO(Recovery Point Objective恢復(fù)點(diǎn)目標(biāo),通俗理解是當(dāng)數(shù)據(jù)庫故障時,允許丟失多長時間數(shù)據(jù),RPO越小越好)的實(shí)時備份。
數(shù)據(jù)庫備份DBS提供備份服務(wù),在整個備份過程是無鎖的,不會阻塞數(shù)據(jù)庫上業(yè)務(wù)請求;用戶可以選擇整個實(shí)例備份,也可以選擇只備份一張表;一旦發(fā)生誤操作情況時,用戶都可以通過DBS進(jìn)行任意時間點(diǎn)恢復(fù),將整個實(shí)例或一張表的數(shù)據(jù)恢復(fù)到誤操作前1秒;DBS提供多種規(guī)格,可以滿足幾百M(fèi)B到幾百GB的數(shù)據(jù)庫備份。
目前,數(shù)據(jù)庫備份DBS提供的備份系統(tǒng)時刻被海量用戶驗(yàn)證,產(chǎn)品不僅擁有實(shí)時備份、秒級RPO的能力,同時還具備表級恢復(fù)能力,幫助用戶只恢復(fù)有價值的數(shù)據(jù),RTO可降到分鐘級。
值得一提的是,實(shí)時備份經(jīng)歷了歷年雙11的考驗(yàn),接下來,數(shù)據(jù)庫恢復(fù)DBS將會提供在線查詢能力,用戶無需等待數(shù)據(jù)恢復(fù)過程,備份任務(wù)完成后在查詢窗口上可以通過SQL立刻查詢備份數(shù)據(jù),用戶還可以將查詢結(jié)果導(dǎo)出Excel、Word等通用格式,用于數(shù)據(jù)分析,也可以生成Insert、Replace語句,用于數(shù)據(jù)訂正
