Lazy loaded image
🧑🏻‍🔧数据质量规范实践总结
字数 2408阅读时长 7 分钟
2025-8-13
2025-10-28
type
status
date
slug
summary
tags
category
icon
password

1 范围

2 规范性引用文件

《XXXX集团数据质量管理办法》

3 术语定义

3.1 设计质量评估

是指以业务对象为单位,对集团数据资产目录、数据标准、数据模型和数据分布设计的合理性进行评估。

3.2 执行质量评估

是指依据既定的数据质量规则,通过自动化质量监控机制,以完整性、及时性、准确性、一致性、唯一性、有效性为评估标准,从技术和业务两个维度对数据质量进行全面量化评分的质量管理过程。

4 设计质量评估

4.1 设计质量评分机制

按照《XXXX集团数据质量管理办法》要求,集团通过人工审核与专业校验相结合的方式开展设计质量评估工作,对数据资产目录、数据标准、数据模型和数据分布的设计质量进行评估。集团设计质量评分采用5分制,其中5分为满分,4分为优,3分为良,2分为中,1分为差。具体评分标准如下:
得分
数据资产目录
数据标准
数据模型
数据分布
1分(差)
业务对象没有明确定义及Owner,无法对该业务对象质量负责。
未发布完整的数据字典。
未发布经评审的概念模型。
未认证数据源。
2分(中)
业务对象有明确定义及Owner,承诺对该业务对象质量负责。
开发完整的数据字典,并通过评审。数据标准初步建立,但未全面应用到业务流程中。
开发和维护概念模型,并通过评审。
数据源认证通过评审。
3分(良)
业务对象有明确定义及Owner,承诺对该业务对象质量负责。业务对象全量覆盖业务范围,无遗漏或冗余。
数据标准在全集团内签发。数据标准在IT系统及其对应的业务流程中得到应用和遵从。
开发和维护逻辑模型,并通过评审。
明确数据血缘关系,并制定合理的改进方案及路标。
4分(优)
业务对象有明确定义及Owner,承诺对该业务对象质量负责。业务对象全量覆盖业务范围,无遗漏或冗余。
数据标准在全集团内签发。数据标准在IT系统及其对应的业务流程中得到应用和遵从。
管理逻辑模型和物理模型之间关系,并确保物理模型的开发及维护遵从已发布的逻辑模型。
完成数据血缘信息链治理,确保数据高效传递,避免不必要的人工干预。
5分(满分)
管理面向未来3-5年的数据架构蓝图。全面实现满足业务主体数据化、业务场景数据化、业务规则数据化、业务决定算法化、业务流程自动化的要求。数据资产成为战略核心竞争力。

5 执行质量评估

5.1 数据质量规则配置

数据质量规则配置由数字信息中心数据开发工程师基于数据质量管理平台实现,通过数据质量管理平台提供的规则模板实现库级规则、表级规则、字段级规则、跨字段级规则、跨源级规则、自定义规则等多种类型规则的快速配置,具体规则类型如下:
1.库级规则:用于全面监控数据库的完整性,通过扫描数据库中每个表和字段的空值情况,提供数据缺失的全面视图。
2.表级规则:表级规则用于监控单个数据表的质量,涵盖准确性、完整性和有效性。准确性规则可监测数据量变化;完整性规则可识别表内空值分布;有效性规则可及时发现数据异常波动。
3.字段级规则:聚焦于具体字段的数据质量,确保字段值的唯一性、完整性和准确性。唯一性规则可检查字段值是否重复;完整性规则可统计字段空值;准确性规则可计算字段的统计指标;有效性规则可验证字段值是否符合特定格式或范围。
4.跨字段级规则:用于确保同一数据源中不同字段间的一致性和准确性。字段一致性校验可确保相关字段值的一致性;跨字段时间校验可验证时间相关字段的逻辑关系。
5.跨源级规则:用于确保不同数据源间的数据一致性。通过跨源字段一致性校验,可以验证不同数据源中的对应字段值是否一致,保障数据在不同系统间的一致性。
各类型数据质量规则明细分类详见《数据质量规则》(附件1)。同时可根据实际需求,在集团数据开发治理平台的“数据质量管理平台”上进行规则的自定义设置,以满足特定的数据质量管理要求。

5.2 执行质量评分机制

基于数据质量规则监控结果,数据质量平台自动对集团数据质量进行量化评分,集团质量评分采用5分制,其中4-5分评价为优秀,3-4分为良好,2-3分为中等,1-2分为及格,0-1分为不及格。
集团执行质量评分对象包括:技术维度对象,以数据连接、数据库、数据库表为评分对象进行质量评分;业务维度对象,以主题域、主题域分组、业务对象为评分对象进行质量评分。
技术维度对象具体评分逻辑如下:
对象
评分计算公式
规则
创建质量作业时,作业关联的规则中结果说明列包含“比率”、“值率”的系统内置规则及用户自定义规则可以生成质量评分报告。●包含“比率”、“值率”的规则可以分为正向规则及反向规则,正向规则即比值越高,代表数据质量越好;反向规则即比值越高,则数据质量越差。正向规则包含唯一值率、重复值率、合法比率规则,反向规则包含空值率规则。●正向规则评分=满足规则的数据行数/数据总行数满分。●反向规则评分=(1-满足规则的数据行数/数据总行数)满分。
数据表
表评分计算公式:∑(表关联的所有规则评分*规则权重)/∑规则权重。
数据库
数据库下所有数据表评分的加权求平均值,即:∑数据库下所有数据表评分/表的数量。
数据连接
数据连接下所有数据库评分的加权平均值,即:∑数据连接下所有数据库的评分/数据库的数量。
业务维度对象具体评分逻辑如下:
对象
评分计算公式
规则
创建质量作业时,包含“比率”、“值率”的系统内置规则及用户自定义规则可以生成质量评分报告。●包含“比率”、“值率”的规则可以分为正向规则及反向规则,正向规则即比值越高,代表数据质量越好;反向规则即比值越高,则数据质量越差。正向规则包含唯一值率、重复值率、合法比率规则,反向规则包含空值率规则。●正向规则评分=满足规则的数据行数/数据总行数满分。●反向规则评分=(1-满足规则的数据行数/数据总行数)满分。●当表为空,即总行数为0时,正向规则评分固定为满分,反向评分固定为0分。
业务对象
业务对象下所有规则评分的加权求平均值,即:∑业务对象下所有规则评分/规则的数量。
主题域
主题域下所有业务对象评分的加权求平均值,即:∑主题域下所有业务对象评分/业务对象的数量。
主题域分组
分组下所有主题域评分的加权求平均值,即:∑分组下所有主题域评分/主题域的数量。
notion image
上一篇
数据标准规范实践总结
下一篇
数据分布规范实践总结