浅谈灾难恢复

最近刚看完推荐书单中的一本书:《质量全面管控:从项目管理到容灾测试》,其中最后一章讲述的是灾难恢复和容灾测试相关的一些内容。

这篇博客,整理了有关灾难恢复的一些知识点,以及从其他资料中整理的一些内容,仅供参考。。。

关于灾难恢复

1、定义:灾难发生后,将生产平台恢复到正常运行的能力。

2、灾难恢复资源七要素

下表为银行业信息系统灾难恢复管理规范中,关于灾难恢复资源的资源描述,仅供参考:

序号 要素 考虑要点
1 备用基础设施 灾难备份中心的选址与建设;
备用的机房及工作辅助设施和生活设施;
2 数据备份系统 数据备份范围与RPO;
数据备份技术;
数据备份线路;
3 数据处理系统 数据处理能力;
生产系统的兼容性要求;
平时的状态(处于就绪还是运行);
4 备用网络系统 备用网络通信设备系统与备用通信线路的选择;
备用通信线路的使用情况;
5 灾难恢复预案 明确灾难恢复预案的要素:
A:整体要求;
B:制定过程的要求;
C:培训和演练的要求;
D:管理要求;
6 运维管理能力 运维管理组织架构;
人员的数量和综合素质;
运维管理制度;
其他要求......
7 技术支持能力 软件、硬件和网络等方面的技术支持要求;
技术支持的组织架构;
各类技术支持人员的数量和综合素质;

3、灾难恢复能力等级

下表为银行业信息系统灾难恢复管理规范中,关于灾难恢复能力划分的描述,仅供参考:

等级 支持能力 能力描述 特点
基本支持 数据备份系统能保证每周至少进行一次数据备份,备份介质能够提供场外存放 定时灾备,异步传输
备用场地支持 满足等级一的基础上,要求配备灾难恢复所需的部分数据处理设备;
或灾难发生后能在预定时间内调配所需的数据处理设备到备用场地,要求配备
通信线路和相应的网络设备;
或灾难发生后能在预定时间内调配所需的通信线路和网络设备到备用场地;
电子传输和设备支持 每天至少进行一次完全数据备份,备份介质场外存放,同时每天多次利用通信
网络将关键数据定时批量传送至备用场地
周期性灾备,异步传输
电子传输和完整设备支持 满足等级三的基础上,要求配置灾难恢复所需的所有数据处理设备、通信线路
和相应的网络,并且处于就绪或运行状态
实时数据传输及完整设备支持 每天至少进行一次完全数据备份,备份介质场外存放;
要求采用远程数据复制技术,利用通信网络将关键数据实时复制到备用场地;
实时灾备,同步传输
数据零丢失和远程集群支持 要求实现远程实时备份,数据铃丢失;
备用数据处理系统具备与生产环境一致的处理能力,软件集群且可以随时切换;

PS:等级从低到高,所需要投入的资源和时间成正比例上升!

4、灾难恢复注意事项和原则

注意事项 原则
对业务运营的影响 应尽量避免或降低对正常业务运营的影响
关键的业务周期 测试活动应尽可能安排在非业务高峰期,以避免或降低风险
分离关键的组件 如果测试对特定业务的中断无法避免,那应当在一个可接受的时间段内,将所涉及的服务组件与所有会受影响
的业务进行隔离,然后进行测试
保证足够的人员支持生产系统 完整的测试应当被分为多个可管理的批次,目的是保证有足够的资源维护和支持生产系统
恢复流程准备就绪 测试之前,管理流程开发完成,要回复的系统架构组件和应用相关的灾难恢复方案与恢复步骤应当已编写完成
并进过适当的测试
对真实场景的模拟程度 测试的场景设计应当尽可能反应最坏的灾难情况
测试期间的容灾保护程度 测试应当尽可能的不要降低生产系统的荣在保护程序;
如果无法避免,应考虑采用一些措施保证测试期间生产系统的容灾保护备份
应用系统的分组 具有高度依赖性和多个应用,应当尽可能安排在同一次测试中

5、灾难恢复的关键指标

下表为容灾恢复的一些关键指标描述以及特点,仅供参考:

指标 描述 与灾难恢复能力
等级的关系
常用提升技术
RTO-Recovery Time Objective:恢复时间目标
关注点:业务恢复时间,即可容许服务中断的时间长度
软件系统宕机导致业务停顿开始,
到软件系统恢复至可支持各部门
业务恢复运营,两点间的时间段

1级:2天以上
2级:>24小时
3级:>12小时
4级:数小时-2天
5级:数分钟-2天
6级:数分钟
容灾技术:时长
磁带恢复:日级
人工迁移:小时级
系统远程切换:秒级
RPO(Recovery Point Objective):数据恢复点目标
关注点:损失的数据量,即恢复的数据所对应的时间点
从系统和数据而言,要实现能够恢复
到可以支持各部门业务运营,使系统
及生产数据应恢复到何种更新程度

1级:1-7天
2级:1-7天
3级:数小时-1天
4级:数小时-1天
5级:0-30分钟
6级:0
容灾技术:时长
磁带备份:日级
定期数据复制:小时级
异步数据复制:分钟级
同步数据复制:秒级
NRO(Network Recovery Object):网络恢复目标 灾难发生后,网络切换需要的时间
DOO(Degrade Operation Object):降级运作目标 恢复完成后到第二次故障或灾难的
所有保护恢复以前以前的时间间隔,
反映了系统发生故障后的降级运行的能力

PS:RTO和RPO指标对于数据中心非常关键和重要!

RTO主要考验数据中心发生故障时,业务切换到容灾系统或备份系统的能力;RPO主要考验数据中心的数据备份能力,尤其是当数据中心发生故障时,仍要具备一定的数据备份能力。

但数据中心不能一味的追求RTO和RPO指标,因为这两个指标数值越小,投入越大;而总体投入成本越高,投资回报率越低。

最佳的解决方案是在RTO、RPO、运维及成本多方面综合考虑,寻求到一个合适的平衡点。

理性看待容灾恢复指标,结合实际情况,提升两个指标才是最佳方案。

转载请注明出处,商用请征得作者本人同意,谢谢!!!