MySQL · 容灾

背景

数据是企业的生命线,PSI 线上系统数据基本都存储在青岛本地机房,缺少异地容灾能力,当出现机房级灾难场景下(如:地震、海啸、火灾等),业务连续性受到极大的影响,损失不可估量。如下图所示,目前 PSI 已具备前两类故障场景的覆盖能力,需要构建覆盖第三类故障场景能力,全方位保障业务数据安全,有备无患。

目标

  • 保证极端场景下业务数据可恢复
  • RPO < 2 小时,RTO < 24 小时

方案

设计方案:如下图所示,重要系统生产数据(青岛本地机房:电信机房、联通机房、移动机房…)同步至红岛灾备数据中心,特别重要系统数据压缩存储上传至阿里云 OSS

实施方案:从库实例再搭建一个从实例形成级联结构,对数据进行实时同步,主要为避免增加主库负载。

实例拓扑:

系统监控:

  • 主实例:TDDS_M

  • 从实例:TDDS_S

  • 灾备实例:TDDS_D