您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 数据库 > 正文

G 行 EverDB 自动化混沌测试之路

发表于:2021-11-09 作者:数据库管理团队 来源:匠心独运维妙维效

EverDB是G行自有知识产权、与合作伙伴共研的一款基于中间件的分布式数据库产品。在分布式架构优势下实现了数据库的可扩展性,但与优势并存的是,分布式架构组件多,集群规模大,组件或节点间有着各种调用或相互依赖,使得系统异常事件的发生概率大幅攀升。

为尽早发现系统薄弱点,做出弥补改进,我们在分布式数据库测试中引入了混沌工程理论。通过在系统环境中模拟故障,来观察故障的发生对系统产生的影响,以期提前发现系统潜在的问题与风险,针对性的对系统进行加固防范,这种测试方法被称为混沌测试。本文为大家分享基于GitLab CI的自动化混沌测试实践。

混沌测试技术架构

为实现混沌测试的敏捷性、灵活性和自动化,我们选择了云原生技术方案,整个混沌测试运行于k8s平台,使用容器化技术Docker实现EverDB集群的容器化部署、Chaos Mesh实现故障注入、Argo workflow实现混沌测试流程编排、Prometheus+Grafana实现监控数据采集存储和可视化。它们在k8s上的部署及连接关系如下图1所示。

图1 EverDB混沌测试部署架构图

其中,Argo workflow是整个混沌测试流程的总调度单元,无论是集群拉起还是故障注入,任何一个任务环节都在Argo workflow中进行规范定义。Argo-server会依据我们定义的任务流程调度k8s资源(包括job,Statefulset,Chaos等)。

自动化流程设计实现

当前,EverDB代码库托管于GitLab平台。EverDB每次发版前通过GitLab CI进行功能回归测试。为保持技术方案统一,我们将混沌测试集成到GitLab CI,由开发人员在代码提交后自动触发执行,实现了EverDB发版前的自动化混沌测试。同时,考虑bug触发的偶发性,混沌测试也被配置为周期性任务,通过重复实验验证数据库的可靠性。

图2 EverDB混沌测试流程设计

上图2即是EverDB的混沌测试流程设计,实现依托于GitLab和k8s两大平台,Chaos Mesh、Argo workflow两个关键技术组件。主要包括Gitlab CI配置、EverDB集群部署、测试用例拉起、故障注入、测试报告生成和可视化跟踪六个部分。

Gitlab CI配置

EverDB容器化集群及Chaos Mesh故障注入等组件均布置在k8s环境中,为了方便调度,我们将CI任务的执行器(GitLab CI runner)也部署到k8s环境中,由它在k8s环境中调起测试流程。GitLab CI runner任务如下图3。

图3 Gitlab CI任务流程

GitLab CI任务实际是执行了一个python脚本调起了一个混沌测试工作流。该脚本完成的工作有四部分:

参数解析处理,读取用户在CI任务中的设定的实验参数、配置文件并解析;

工作流模板渲染,利用第一步读取的配置参数,按照工作流模板渲染生成工作流;

工作流部署,将工作流部署到k8s平台运行;

持续检查工作流状态,将工作流的运行状态,成功与否反馈到CI平台。

EverDB集群部署

源代码提交时触发CI任务进行EverDB集群部署,包括源代码编译、制作镜像上传至镜像仓库、使用最新镜像在k8s平台上部署EverDB集群。对于混沌测试周期性任务,则从镜像仓库中拉取最新的EverDB镜像进行部署。

图5 EverDB源码编译打包上传

测试用例拉起

EverDB集群部署完成后,CI任务会按照实验编排有序拉起测试用例。测试用例分为功能、性能和高可用三类,通过对比EverDB在正常运行态和故障注入后运行态的各项测试指标,验证数据库对各种异常场景的处理能力和健壮性。

 

 

测试用例

测试内容

压力测试

Sysbench

OLTP基准测试

数据库一致性测试

Bank

并发转账,验证测试完成后账户余额总数

Bank2

增加事务竞争度控制的Bank测试

Pbank

记录每次读写事务的操作以及返回结果

Tpc-c

五种事务模型并发执行

数据库隔离级别测试

Elle

并发读写寄存器,检查是否违反一致性模型

高可用测试

Hatest1-18

测试各种故障场景,验证数据库高可用性是否符合预期

 

表1 测试用例表

故障注入

故障注入通过调用PingCAP开源的混沌测试工具Chaos Mesh实现。Chaos Mesh使用Kubernetes CRD来定义Chaos对象资源,在EverDB混沌测试中,可以直接调度这些Chaos资源,模拟简单的故障场景,也可以对这些基础Chaos资源进行编排,构造更复杂的故障场景。

图6 故障注入支持类型

测试报告生成

测试用例在整个测试周期内持续运行,实现数据库能力测试方案的同时,也会采集测试指标数据并进行转储。测试结束后,测试报告生成模块会进行数据收集、分析、报告生成及归档。目前测试报告包括测试结论、环境参数和EverDB集群配置等信息,后续会随着混沌测试实践的深入,对结果信息进行丰富和优化。

图 7 测试结果收集

可视化跟踪

除了输出测试报告以外,我们也可以使用可视化的Dashboard、监控系统等工具,对整个混沌测试过程进行实时跟踪和观察。

图8 一个EverDB混沌测试工作流示例

总结与期待 

EverDB通过引入混沌测试,已在可靠性提升上有了一定的测试成果,同时我们对混沌测试的未来也进行了思考与规划。在测试扩展方面,不断丰富测试用例、编排更复杂的故障场景、完善测试报告内容;通过建设混沌实验平台使混沌测试常态化、便捷化;同时建立混沌测试文化,使其在G行分布式架构转型中发挥更大的作用。