一、关于元数据
1、什么是元数据
元数据(metadata)是关于数据的组织、数据域及其关系的信息,简单来说,元数据就是被用来描述数据的数据。
概念阐述总归生涩,下面用几个简单的例子来比喻一下:
例1:元数据是“户口本”。有了“户口本”,我们不仅能了解此人的出生年月等基本信息,还能知晓他的亲属关系。这些信息就构成了对这个人的详细描述,这些信息就是描述这个人的元数据。
例2:元数据是“图书目录”。图书馆中的图书目录包含图书名称、编号、作者、位置等信息,有了它,图书管理员就能快速查找图书。元数据能够帮助数据管理员管理数据。
例3:元数据是“藏宝图”,按图索骥就能找到宝藏。元数据能够帮助企业盘点自己有哪些数据,以及这些数据的位置、来源、去向、路径等。
收集元数据,能够帮助企业回答下面的问题:我们有哪些数据?数据的使用人数有多少?如何查找数据?数据的流转情况如何?通过血缘关系进行溯源和问题分析等等。
那么在实际业务场景中,元数据又是怎样的呢?
示例:比如 175 这个数字,它在特定场景下,有如下的元数据:
2、元数据&元数据管理的重要性在表格中,“175”是实体数据,而业务元数据、技术元数据、操作元数据、管理元数据,分别从各自的角度描述了“175”这个数字,所以,它们都在元数据的范畴内。
数据治理的前提是要有数据,并且要求数据类型全、量大,并尽可能的覆盖数据流转的各个环节,而元数据是“所有系统、文档和流程中包含的所有数据的语境。是生数据的知识。”换句话说,如果没有元数据,组织IT系统中收集和存储的所有数据都会失去意义,也就没有业务价值。
要想获得元数据的价值,需要根据建立的流程、在行业标准和最佳实践指导的范围内管理元数据。在“DAMA车轮图”中,元数据管理占据了十大数据管理领域其中很重要的一环:
元数据管理是一项和主数据管理、数据治理一样重要的功能,因为元数据管理是每一个这些准则的基础组件。不管理好元数据,是不能管理好主数据的。
二、元数据的分类
按照不同领域和功能,元数据一般来说可分为:技术元数据、业务元数据、操作元数据、管理元数据。由于使用视角不同会影响到对元数据的分类,所以具体的分类标准并不严格。(比如数据安全等级指标——从安全部门的视角来看,属于业务元数据;从开发部门的视角来看,就属于管理元数据。)
1、技术元数据
技术元数据是用于开发和日常管理数据仓库时用的数据。它作为数据的结构化,能够方便计算机、数据库对数据进行识别、存储、传输和交换。
对开发人员来说,它有助于明确数据的存储、结构,为应用开发和系统集成打牢基础;对业务人员来说,它有助于理清数据关系,从而能够更加快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。
常见的技术元数据:
l 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;
l 数据存储类型、位置、数据存储文件格式或数据压缩类型等;
l 字段级血缘关系、SQL脚本信息、ETL抽取加载转换信息、接口程序等;
l 调度依赖关系、进度和数据更新频率等。
2、业务元数据
业务元数据描述的对象,是数据的业务含义、业务规则等。通过对业务元数据的明确,人们对它的理解和使用会变得更加容易。元数据使得数据的二义性不复存在,人们对数据含义能够产生一致的认知,避免了“自说自话”的情况,进而为数据分析和应用提供支撑。
常见的业务元数据:
l 业务定义、业务术语解释等;
l 业务指标名称、计算口径、衍生指标等;
l 业务规则引擎的规则、数据质量检测规则、数据挖掘算法等;
l 数据的安全或敏感级别等。
3、操作元数据
操作元数据描述了数据的操作属性,比如管理部门、管理责任人等。数据操作属性的明确,有助于将数据管理责任落实到部门和个人,是数据安全管理的基础条件。
常见的操作元数据:
l 数据所有者、使用者等;
l 数据的访问方式、访问时间、访问限制等;
l 数据访问权限、组和角色等;
l 数据处理作业的结果、系统执行日志等;
l 数据备份、归档人、归档时间等。
4、管理元数据
管理元数据包含了数据管理的信息在其中,例如:表的业务属主、表的技术负责人。
常见的管理元数据:
l 数据的来源;
l 数据的功用;
l 数据的负责人;
l 数据的价值体现等。
三、元数据管理方法
元数据管理是对元数据的创建、存储、整合、控制的一整套流程,它能够帮助开发和业务人员快速了解数据上下游关系、数据本身含义;它可以精准定位需要查找的数据,减少数据研究的时间成本,提高工作效率。
元数据管理也是数据治理工作的重中之重,在数据治理项目中,我们通常从以下几个方面推进元数据管理工作:
1、元数据范围
首先,要确定需要进行管理操作的元数据范围。实际情况中,不一定所有数据都要做元数据管理。更多情况下,业务数据会被选择进行元数据管理,非业务数据(例如:备份数据、系统日志等)一般不会被纳入管理范围内,主要原因是,元数据管理能够帮助业务和开发人员快速掌握业务数据。
确定规则后,就要根据公司实际情况,整理出需要进行元数据管理的业务系统、数据库、数据库用户、表等。非结构化数据的元数据抽取也可支持,比如:word、pdf等。
2、元数据接入
元数据一般是从源系统接入,如果企业已经拥有数仓,或对实时性要求不高,为了节约开发工作量、提升工作效率,会将已有的元数据从数仓接入,还未接入的从源系统接入。
这种方案的风险在于:如果数仓的数据和源系统出现不一致的情况,元数据就会出现错误。现如今,大部分的元数据抽取都采用配置自动化的方式进行。
3、元数据标准
为了保证元数据的完整性和一致性,当出现数据库或数据定义不规范的情况时,要建立元数据管理的规范和标准,反推前端源数据整改。同时,要对元数据进行权限管理,规范权限的管理流程(元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程等)。
4、元数据维护
指对已发布的元数据进行管理和维护,如果需要对已上线的元数据进行调整优化,就必须重新通过元数据发布流程,不允许直接修改元数据。同时,成立元数据操作日志,记录所有元数据操作行为。
可根据要求,按照业务流程、业务主题域、开发流程设计对应目录,将不同的元数据挂在对应的目录下。
5、元数据查找、分析、报告
划分单独页面,支持对元数据进行模糊或精准快速查找。
产出元数据资产报告,帮助企业快速了解元数据访问热度、数据价值、数据成本、数据分布等相关信息。
四、元数据应用
元数据应用场景:
可以看出,建立好元数据,不仅能够方便数据治理,也可以衍生出丰富的应用,如数据地图,血缘分析,数据冷热分析,数据资产管理等。(山东中翰软件有限公司)