数据校验
TapData Enterprise 可部署在您的本地数据中心,适合对数据敏感性或网络隔离有严格要求的场景,可服务于构建实时数仓,实现实时数据交换,数据迁移等场景。基于多种自研技术,TapData 可最大程度保障数据一致性。除此以外,TapData 还支持对数据表执行数据校验,帮助您进一步验证和确保数据流转的正确性,满足生产环境的严苛要求。本文介绍数据校验任务的配置流程。
操作步骤
在左侧导航栏,选择数据校验。
在页面右上角,根据校验目标单击任务一致性校验或任意表数据校验,然后根据下述说明填写各项参数:
- 任务一致性校验
- 任意表数据校验
- 选择任务:选择待校验的数据复制/数据转换任务。
- 校验任务名:填写具有业务意义的任务名称。
- 校验类型:目前支持下述三种校验方式。如在同步过程中修改了表的字段名,那么执行表全字段值校验或关联字段值校验时,可能因字段名不匹配而导致校验失败。
- 快速 count 校验:对源表和目标表的行数进行校验,不会展示具体的差异内容,速度极快。
- 全表字段值校验:对源表和目标表的全部字段的值逐行校验,可展示所有字段的差异内容,速度较慢。
- 关联字段值校验:仅对源表和目标表的关联字段的值进行校验,速度中等。
- 全表 hash 校验:仅支持同构数据源间的 hash 校验,速度较快。
- 高级配置:单击高级配置,展开更多配置项:
- 结果输出:选择输出所有不一致的数据或只输出来源表不一致的数据。
- 校验任务告警:选择当任务运行出错或校验结果不一致时,告警信息的规则配置和通知方式。
- 校验频次:默认为单次校验,如选择为重复校验,您还需要设置校验执行的起止时间和任务间隔时间。
- 错误保存条数:即不一致数据保存的最大条数,默认为 100,最大为 10000,推荐设置较大的值以确保记录的完整性。
- 校验表配置:默认由 TapData 自动加载数据复制/开发任务中的源/目标数据表。同时,您还可以打开数据过滤开关,从而只对特定条件的数据进行校验以减少校验规模(可通过 SQL 实现自定义查询和聚合查询过滤)。此外,您还可以通过高级校验添加 JS 校验逻辑。
- 校验任务名:填写具有业务意义的任务名称。
- 校验类型:目前支持下述三种校验方式。
- 快速 count 校验:对源表和目标表的行数进行校验,不会展示具体的差异内容,速度极快。
- 全表字段值校验:对源表和目标表的全部字段的值逐行校验,可展示所有字段的差异内容,速度较慢。
- 关联字段值校验:仅对源表和目标表的关联字段的值进行校验,速度中等。
- 全表 hash 校验:仅支持同构数据源间的 hash 校验,速度较快。
- 高级配置:单击高级配置,展开更多配置项:
- 结果输出:选择输出所有不一致的数据或只输出来源表不一致的数据。
- 校验任务告警:选择当任务运行出错或校验结果不一致时,告警信息的规则配置和通知方式。
- 校验频次:默认为单次校验,如选择为重复校验,您还需要设置校验执行的起止时间和任务间隔时间。
- 错误保存条数:即不一致数据保存的最大条数,默认为 100,最大为 10000,推荐设置较大的值以确保记录的完整性。
- 校验表配置:单击添加表,手动指定待校验的校验源/目标数据连接、待校验的表、索引字段、待校验模型,同时,您还可以打开数据过滤开关,从而只对特定条件的数据进行校验以减少校验规模(可通过 SQL 实现自定义查询和聚合查询过滤)。此外,您还可以通过高级校验添加 JS 校验逻辑。 如需校验多个表,可单击添加表继续添加校验条件。
单击保存,返回至任务列表后单击目标校验任务对应的执行。
(可选)单击校验任务对应的详情,查看详细校验结果,针对不一致情况可单击一键修复完成数据对齐或下载详情进行深入分析。
提示当校验类型为全表字段值校验或关联字段值校验时,您还可以单击右上角的差异校验,对本次全量校验的差异数据结果进行再次校验,以确认数据是否已经一致。
常见问题
关于校验任务出现失败、校验数据不一致等排查方法,见数据校验常见问题。