俗话说:大数据时代数据的核心不是“大”,而在于“有价值”,而有价值的关键在于“质量”。今天,我们从什么是数据质量管理,数据质量管理的现状,影响数据质量的因素等几个点为大家详细解答数据质量管理的整个流程。
什么是数据质量管理?
数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。
数据质量的现状
45%:Collibra 一项调查发现,45% 的数据使用者称其报告基于的数据半数以上质量不够理想。
960万美元:Gartner 2016 年的一项研究发现,由于数据质量差,受访组织平均每年将损失 960 万美元。
那么,我们应该怎么去指定数据质量管理的目标呢?企业又如何去指定数据质量管理的目标。
数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是一切数据应用的基础。
而企业做数据质量管理的目标总结起来是要得到可信、可用的数据。
影响数据质量的因素
1.技术因素:主要表现为由于具体数据处理的各技术环节异常造成的数据质量问题。
数据质量问题的产生环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面的内容。
2.业务因素:主要表现为由于系统作业流程和人工操作流程设置不当而造成的数据质量问题,主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节。
3.管理因素:主要表现为由于人员素质及管理机制方面的原因造成的数据质量问题。
如人员培训、人员管理、培训或者奖惩措施不当导致的管理缺失或者管理缺陷。
数据质量问题产生的常见原因
源系统业务人员录入不规范,且系统逻辑校核不严谨,导致 大量低质量、空值数据。
源系统设计缺陷 导致数据质量问题:跨表或跨系统有冗余字段但没有同步机制;逻辑设计问题导致特定情况下出现错误数据;关联性较强的流程设计缺乏有效衔接。
数据上报不及时。
历史数据迁移时操作不规范,导致数据不一致。
系统升级改造,导致历史数据错乱。
各源系统相同含义数据标准不一。
数据增值过程中,每次加工转换产生了新的质量问题。
……
那么,在数据质量管理中遇到了这么多问题,我们怎么能解决呢?
就拿亿信华辰的数据治理平台——睿治举例。
数据质量模块优势
1.图形化操作界面:“零”编码,易操作、易阅读、易维护,适用于所有的业务人员和技术人员。
2.一站式质检全过程:提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等数据质量管理全过程的功能。
3.全方位质检报告:多维度质量分析报表,内置丰富的统计分析报告及多种质检结果主题,同时支持自定义扩展;多角度质量绩效评分,支持用户定义评分依据和权重。
4.卓越的质检功能:数据质量管理平台具有出色的跨平台运行能力,兼容多种操作系统,支持所有符合JDBC2.0规范的数据库。系统的质量规则检查支持多线程并发执行,百万级数据20条规则的质量检查只需2分30秒即可完成。
数据质量模块优势
数据质量规则一站式管理
亿信数据质量管理平台(EsDataClean)提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等数据质量管理全过程的功能。
亿信数据质量评估体系
亿信数据质量管理平台(EsDataClean)包含丰富的质量评价方法,并且易于扩展。系统支持数十种质量评价算法技术,满足业务系统运行、数据中心建设、数据治理过程中各类规则的定义,并可实现跨数据源的对比分析;支持通过XML扩展,可完全适应企业未来的数据质量管理需求的变化。
亿信数据质量管理整改流程
智能数据质量检查调度:通过事先定义好的规则、调度时间、工作流程,自动完成数据的质量检查,极大的减少人力的投入和过程干预,提升效率,减少误差。
重大问题及时告警:对质量检查的结果提供多方式(界面、邮件、短信)告警,让用户及时了解到系统检查结果,避免重大问题的延误。
一键生成质量报告和评估结果:系统通过数理统计、数据分析等技术,根据事先定义好的模板,自动生成质量报告和绩效考评结果。
亿信数据质量管理质检报告
多维度质量分析报表,辅助用户对问题数据进行质量分析,以便用户进行有针对性的质量改进;
内置丰富的统计分析报告及多种质检结果主题,同时支持自定义扩展符合行业需求的质检结果主题,满足各行业用户的个性化需求。
多角度质量绩效评分,EsDataClean支持用户定义评分依据和权重,并可按照字段、表、规则类别、关键字等粒度生成质量评估结果。
明白了吗,下篇文章,我将为大家讲解具体案例参考~