• 优质范文
  • 工作总结
  • 工作计划
  • 作文大全
  • 心得体会
  • 述职报告
  • 实习报告
  • 写作方案
  • 教案反思
  • 演讲稿
  • 发言稿
  • 读书笔记
  • 精美散文
  • 读观后感
  • 范文大全
  • 当前位置: 博通范文网 > 工作计划 > 正文

    基于元数据数据质量管理研究

    时间:2020-08-31 来源:博通范文网 本文已影响 博通范文网手机站

     摘要:数据质量问题一直是困扰数据资产价值提升的重要因素,在进行数据资产建设之初就应当从战略角度对数据质量体系进行规划。以元数据为基础,在数据工程设计、数据汇集治理、数据核查和矫正等过程中,进行数据质量的完整性、有效性、一致性、唯一性、正确性、准确性、充足性管理,能够充分有效的保障数据质量,为充分分析数据关系、发挥数据价值打下基础。本文按照从数据源到目标数据的数据生成过程,描述了设计元数据、制定数据质量管理要求、汇集治理数据、核查和矫正目标数据等四个方面的主要数据质量管控内容和思路,为同行提供借鉴和参考。

      0 引言

      数据质量问题一直是困扰数据资产价值提升的重要因素。数据质量管理,是指从组织视角和技术层面,对数据从采集、存储到分析利用,整个生命周期内可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。元数据,又称中介数据、中继数据,是描述数据的数据,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。本文将元数据的建立、应用和维护融于数据质量管理中,对于充分有效的保障数据质量,提高数据的可信度起到了重要作用。

      1 数据质量管理流程设计

      分析认为,影响数据质量的因素主要来源于四个方面:业务因素、技术因素、流程因素和管理因素。业务因素,主要是因元数据描述及理解错误、数据各类属性不清等造成的数据问题;技术因素,是因数据处理的各技术不熟练或异常造成;流程因素,是因数据产生或使用流程造成的数据质量问题;管理因素,是指由于人员素质或机制体制等原因造成的数据质量问题。

      针对影响数据质量的因素,项目组设计了如图 1 所示数据质量管理流程。

      第一步:设计元数据。设计元数据,主要消除业务因素对数据质量产生的影响。即在建立元模型、元数据过程中,通过元模型来规范元数据,通过元数据来规范目标数据库中对数据表、数据属性的理解、命名、取值度量、变化要求等,这一过程重点解决数据质量中的规范性、一致性、唯一性、准确性。

     

      图 1 数据质量管理流程

      第二步:制定数据质量管理要求。这一步与第一步是同时展开的,重点消除因管理因素对数据质量产生的影响。数据质量管理相关的要求包括元数据标准、数据质量控制规范、数据质量评价规则和方法等,主要是为了确保数据在汇集治理、存储交换和应用服务等数据生命周期中的数据质量,为更广泛的应用数据提供高质量的规范化数据资源。这一过程主要从全局保障数据质量。

      第三步:汇集治理数据。汇集治理数据,是充分利用信息技术,借助软件工具辅助完成,重点消除技术因素对数据质量产生的影响。即依据元数据、数据标准、数据规范和要求,设定科学的数据抽取、规范、转换、加载的方法和流程,然后编制软件工具,通过技术手段,将部分流程固化到软件中,再通过规范的操作,将源数据库中的数据值、数据格式等进行汇集整编治理,存入目标库。这一过程重点解决数据质量中的规范性、准确性、充足性、关联性。

      第四步:核查和矫正目标数据。这一步将对数据质量的要求和部分数据评价要求,与信息技术相结合,重点消除因流程、业务和管理因素对数据质量产生的影响。首先要根据上一步制定的数据质量评价参数、方法和评价规范,进行软件设计,将评价参数、方法和评价规范融于软件工具中,操作软件进行自动检验和质量评价;然后根据数据和问题的不同,提供自动和人工两种矫正方式。这一过程重点解决数据质量中的完整性、正确性、一致性、准确性、关联性。

      2 设计元数据

      元数据是数据资产最原始的词典,设计元数据,首先应参考源数据,识别出与目标数据关联性较大的源数据结构和内容,然后分析数据应用要求,二者结合,构建元模型,为元数据提供建设标准和构建依据。

     

      图 2 元数据设计过程示意图

      2.1 元数据的识别

      元数据的识别是元数据建立过程中的一个难点,需要首先对源数据有明确的总体认识,其次要求深入分析数据建设工程的目标,对目标数据库的组成框架和数据分类有清晰的设计思路,之后才能在有效归类和设计的基础上,识别出元数据相关信息。主要通过以下两个步骤辅助进行元数据识别:盘点“源”数据,确立源数据分类,进而建立“源”数据目录;确定目标数据的主要数据分类。

      2.2 建立元模型

      元模型的构建,是规范数据质量的过程,也是自上向下进行结构化、模型化设计元数据的过程。在构建元模型的过程中,不但要关心模型的结构,更要关心模型间的关系,每个模型在元数据的世界里是一个独立的个体,个体和个体之间的关系赋予了模型间错综复杂的关系圈,这些关系继续衍生,将支撑数据图谱或知识图谱的构建。元模型一般可分为:业务元模型、技术元模型、管理元模型,分别对应三类元数据。元模型的内容可以包括:名称、数据时间、质量要求、存储介质、存储模式、数据量、数据来源、责任单位、更新周期、数据获取方式等,并对每一项属性提出要求。

      2.3 建立元数据

      遵照元模型中对元数据的规范,可以利用手动和自动两种方式建立元数据。对于与源数据相似度较高的业务元数据,可以在开源软件的基础上编制辅助工具,连接源数据,以源数据实体表的表结构为基础,先创建中间元数据,然后编辑修改为目标数据的元数据,这种情况虽然较便捷,但要求操作者明确目标数据的结构设计;另一种方式,是根据元模型,以元数据管理工具辅助,手工建立元数据。无论以何种形式建立的元数据,都必须达到清晰定义与描述目标数据的目的。

      3 制定数据质量管理要求

      制定数据质量管理要求,是从管理的角度,对影响数据质量的因素进行约束和控制。数据质量管理要求主要包括元数据标准、数据质量控制规范、数据质量评价等三方面的内容。

     图 3 数据质量要求的内容

      3.1 元数据标准

      元数据规范,也是元模型,用于规范元数据。元模型在不同领域差别很大,所以没有能适用于所有领域或行业的统一标准,元模型的作用是定义概念,并提供该领域或专业元数据构建的元素,对各元素提出质量要求与说明。元模型及元数据是质量控制的重要依据。元模型的设计,是把数据体系设计者对数据库、数据结构和数据的设计思维,以规范的模型的形式记录下来。事实上,我们在进行数据资源体系设计时,大都进行了元模型的设计,比如进行数据分类,提出各类数据包含的主要数据主题,规范各类主题数据的主要数据属性、主要数据元等。在实际工作中,有些元模型和元数据,是在数据资源建设的过程中,逐渐丰富和完善的,并与数据质量管理和数据应用服务相互促进。数据元是数据的最小单元,是规范数据的基础,与元模型一起规范元数据,对数据质量进行控制。

      3.2 数据质量控制规范

      数据质量控制规范,按照数据全生命周期的各环节,从参与数据工程的组织人事、数据资源的形成、储存和使用过程等角度,提出和质量相关的数据管理要求,其中涉及岗位职责、数据操作使用流程、数据处理应用规定和要求等。

     

     3.3 数据质量评价

      制定数据质量评价参数、方法和评价规范,并进行数据质量评价。数据质量评价是个复杂的过程。应根据现有的业务数据准则、元数据、数据字典、数据流程、用户要求和数据应用要求等,设计质量评价参数,包括定量参数和定性参数,并设计每个参数的权重、元素、计算方法、评价标准,然后对数据实况进行评估。数据评价参数一般分为对数据内容的评价和对元数据的评价,对数据内容的评价可以包括:数据精度、数据属性的逻辑一致、数据属性的完整性;对元数据的评价可以包括元数据的逻辑一致性、元数据的完整性等。

      4 汇集治理数据

      汇集治理数据,是构建目标数据库的关键环节,也是提高数据价值的过程。从源数据抽取、规范、转换、加载数据到目标数据库,需要利用软件工具来完成,软件设计应参照元模型或元数据,建立从源数据到目标数据的映射,依照数据标准和数据规范的要求转换数据、加载到目标数据库,这一过程中影响数据的因素包括软件设计和软件功能,以及操作者的技术经验等。该过程的四个环节都与数据质量关系紧密:

     图 4 数据汇集治理示意图

      4.1 抽取数据

     

     数据抽取是从源系统中获取数据,以便加载到目标数据库中。抽取的数据必须能够充分满足统计分析及决策支持的需要,同时必须保证不能影响源数据所支撑的业务系统的性能,所以进行数据抽取时必须充分考虑这些因素,制定相应的策略,包括抽取方式、抽取时机、抽取周期等内容。

      4.2 规范数据

      规范数据的目的是选出有缺陷的数据,把他们正确化和规范化,得到干净和标准的数据,达到使用者的数据质量要求。规范数据主要包括三个环节:一是源数据的规范,目的是把抽取到的各类源数据进行规范;二是中间数据的规范,是在转换的过程中规范各类数据,目的是为加载数据提高效率;三是目标数据规范,目的是确保用于数据应用服务的数据的质量。

      4.3 转换数据

      数据转换是指对从业务应用系统中抽取的源数据,根据主题数据库系统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据的一致性和完整性,并按要求装入主题数据库。ETL 转换过程的集中体现为:空值处理、规范化数据格式、拆分数据、验证数据正确性、数据替换、从查询表获取丢失数据、建立 ETL 过程的主外键约束、数据规则过滤等。

      4.4 加载数据

      数据加载是将从源应用系统中抽取、转换后的数据加载到主题数据库系统中。要求数据加载工具必须具有高效的加载性能。数据加载策略要考虑加载周期及数据追加策略两方面的内容,主要加载技术有:使用 ETL 引擎厂商提供的数据加载工具进行数据加载、通过数据库引擎厂商提供的 API 编程进行数据加载。

      5 核查和矫正目标数据

      这是以元数据或元模型、数据标准、数据规范等数据治理的为依据,对目标数据库的数据质量进行核查的过程,主要结合软件工具完成,对于有质量问题的目标数据,根据元数据或元模型、数据标准、数据规范,设计和利用软件功能来自动修正,个别数据问题,可以显示出来,以有限权限的人工形式进行数据质量维护。目标数据质量矫正的关键过程有三个:明确数据质量度量规则和标准、自动探查数据结构和数据内容、数据纠正。

     图 5

     核查和矫正目标数据示意图

      5.1 明确数据质量度量规则和标准

      将数据质量管理要求中,数据质量评价方法和内容,与软件设计相结合的过程。

      5.2 自动探查数据结构和数据内容

      元数据在这个过程中发挥了重要作用。因为目标数据众多,不同类别的数据适用于不同的规则和要求,所以在进行软件设计时,要依靠元数据对数据的规范作用,遵循由总到分、由粗到细、分类提取和度量的原则。

      5.3 数据矫正

     

     数据矫正分为自动和人工两种方式。对于不符合数据质量度量规则和标准,且有确切判断方法的,利用软件工具自动纠错;如果无确切判断方法的,则根据数据权限,提供数据流程追溯的方式,追踪源数据,然后利用操作者的业务知识和经验来判断,进行人工矫正。

    推荐访问:数据 质量管理 研究

    • 读/观后感
    • 精美散文
    • 读书笔记
    • 演讲
    • 反思
    • 方案
    • 心得体会