监控告警
背景:为了托管已上线 MySQL
系统,建立完善的监控体系,提升业务系统稳定性,达到以下 3
个目的:
- 告警:当系统出现或者即将出现故障时,监控系统需要迅速反应并通知管理员,从而能够对问题进行快速的处理或者提前预防问题的发生,避免出现对业务的影响。
- 故障分析与定位:当问题发生后,需要对问题进行调查和处理。通过对不同监控监控以及历史数据的分析,能够找到并解决根源问题。
- 数据可视化:通过可视化仪表盘能够直接获取系统的运行状态、资源使用情况、以及服务运行状态等直观的信息。
技术方案:[Prometheus] [Grafana] [Consul] [PMM]
运维工单
背景:日常运维问题繁多,提高运维效率。
技术方案:[Golang] [Vue] [Element UI] [HeidiSQL] [Percona Toolkit]
备份
背景:上线项目系统(MySQL
、Oracle
、Server SQL
、小型机、etc. )之前未做备份恢复演练,也有部分上线系统未备份,存在巨大的数据安全风险,全量排查消除隐患。
技术方案:[Commvault] [Percona XtraBackup]
优化
背景:数据库 slowlog
发布每周报告,需要从管理视角驱动质量提升,展现技术平台的价值。
技术方案:[HDM] [Percona Toolkit]
堡垒机
背景:核心功能是用于实现对运维操作人员的权限控制与操作行为审计,工作原理
技术方案:[Jumpserver]
容灾
背景:为解决本地机房发生重大灾难,数据不可恢复,特在红岛建立的灾备数据中心。
技术方案:[容灾]
数据库运维平台
项目架构图
- nginx:负载均衡
- vue:前端开发框架
- webpack:打包部署
- rest api:为前端提供接口
- service:处理业务逻辑
- dao:操作 mysql 接口
- cache:操作 redis 接口
- mysql:数据库存储
- redis:缓存