数据标准是企业信息化建设的重要内容,是充分体现业务价值的重要手段,堪称企业连接业务与数据的纽带,但越来越多的企业意识到,数据标准不仅难以梳理,并且很难在信息系统中落地,那么企业应如何建立数据标准体系?就让我们共同来了解“数据标准”在企业中是如何实施落地的
什么是数据标准在数据治理过程中,为了共享、交换以及理解数据,人们需要使用统一的规则来描述和记录数据。这个统一的规则就是数据标准。 为什么需要数据标准
我们拿某个汽车融资租赁的公司举例,该公司有三个基本系统,对应三个不同的数据库:汽车业务系统,融资租赁系统, 和经销商管理系统。这三个系统的中都有“客户”,客户会从业务系统下单,通过经销商管理系统确定车源,通过融资租赁系统贷款,最终反映在业务系统中成交。但是,每个系统只能统计自己系统的数据,生成报表,对管理层来说,没有一个完整的视图来分析整个场景。针对这种情况,一个可行的解决方案就是通过几个不同数据库的联合查询并通过ETL过程得到这个报表。

但是工程师想要联合查询时,却发现由于各种历史原因,数据库里相对应的字段完全不能理解,数据库里有很多的用户表,哪个是需要的字段不能立刻找出来。终于经过几个工程师和业务人员的通力合作,找到如下对应关系:然后工程师想到用一张关系表,把三个不同系统的中取值范围一致的字段对应起来。然后通过这个关系表来关联各系统,生成所需报表。工程师兴冲冲地拿给管理层看,管理层觉得比较满意。但同时又提出几个新的需求:我们是否能把所有的数据源的,所有数据拉通?我们还有SAP系统和另外几个系统,是否这些数据都拉通?拉通后,能不能让业务人员直接按需要的业务字段来进行查询分析。是不是能大致估下需要多长时间完成?…工程师觉得有些头晕。因为他知道:SAP的数据库命名规则是看不懂的;有几个系统一直“稳定”的使用,没有人敢碰,知道的具体实现的人都已经离职了;数据治理的工具能帮到什么程度也不清楚。一提到数据治理,大家都会想到很多:数据目录,元数据管理,血缘,数据质量,ETL等等。每一个方面都会有很多事情要做。真的要把上面的例子处理好,这些项,一个都不能少。读取元数据,数据库客户端就可以。如果要生成数据目录及做一些管理工作,还得需要专业的数据治理工具。除去这些之外,还有一个关键的事情要做——梳理数据标准,尤其是实际操作中如何让数据标准落地。 一个数据标准应该包括什么 上例中,大家可以看到“客户姓名”这个词,在三个数据库里只看字段名是没有联系的。我们希望的是在所有的库中,这些字段都叫“客户姓名”,对应的物理数据库中都叫“customer_real_name”。这个名称全局唯一。这样无论是谁看到这个名,都能很快的理解数据项的意义,开展相对应的处理操作。由此,可以得出一个数据标准最基本的属性就是“中文名”,“物理字段名”,如果支持国际化的还会有英文名。但它有全集吗?综合来说,一个基本的数据标准还应该有以下属性:1. 从技术上区分 字段逻辑类型指抽象的数据类型,例如int,string,float等,它会对不同物理数据库的指定类型。字段类型指对应实际物理数据库中实际类型,字段逻辑类型和实际类型中存在映射关系。字段长度、字段精度、数据格式、值域、默认值。2. 从业务上来控制来说,还可包括 业务主题、业务定义、敏感等级等等。3.其他类型 数据标准一般都会在企业部统一定制,会有审核机制,所以,许多公司还会有其它定制化的属性:审核状态、版本等。 如何梳理数据标准在了解数据标准是什么之后,回到我们要解决的问题,我们应该如何来梳理数据标准?实话实说,依据各系统历史不同,目前具备的资料完善程度不同,梳理可能是从周到年的时间段。通常来说,用一年来做这些事情,许多企业觉得是不可接受的。所以,我们可以依据以下原则进行梳理。1. 分优先级 一定先梳理与业务密切相关的,任何一个库中都能拿出成千上万个字段,但我们关注的报表是有限的字段,所以要优先梳理报表的字段,以及与报表直接相关的字段。比如,可以制定一个三个月以内的计划。之后看梳理情况,再扩展。2. 优先使用数据字典 如果该系统有数据字典,这会让整个过程加快很多,我们可以首先把数据字典中的表和字段拉平,然后按中文名,英文名,定义等查看是否有重复项,冲突项,及不完整项,把这些问题修复。一份基本的数据标准就完成了。当然可以借助一些工具把字典和实际数据库做mapping。会节省不少时间,因为我看到的数据字典,都会因为各种原因,维护不够,和实际库脱节。通过mapping,可以去除那些不再使用的字段。 3. 利用数据库中的定义 在成熟的数据治理工具中,都会从数据库中读取定义,通过一定的操作转化成数据标准。如果没有工具,那可能需要用数据库客户端,读出来定义,手工制定数据标准了。4. 人工梳理 找这个领域的专业人员,对照业务系统的测试环境和数据库进行梳理。在梳理完数据标准后,可以使用工具,通过数据标准的属性来识别元数据,满足一定匹配度的,这些字段将打上定义好的数据标准,供以后使用。在一部分工具中,还可以通过字段关系确定一个字段的标准,比如分析SQL语句、存储过程及采样数据,以此来发现数据库潜在的结构关系,血缘关系,再通过这些关系,把已知列上的数据标准打到所有发现的与之有关系的字段上。 数据标准有什么应用在花大量时间前,大家都应该想知道,数据标准到底有什么应用,能为企业创造哪些方面的价值。1. 帮助理解每个字段的含义,统一已有数据源的同类字段 这个显而易见,技术和业务有了统一的语言,沟通协作变得非常顺畅。2. 业务目录 许多公司希望有的不仅是一套技术的元数据,而是围绕场景的业务元数据的目录,这个目录也可以用于生成数据仓库。有了数据标准,业务人员很容易知道做到这一点,进而可能直接查找,定位数据来进行分析。3. 业务关联图 业务关联图是指用户需要的所有业务字段之间的关系图。图上每一个节点,就是一个数据标准,业务人员可以点击任何一个节点查看它属于哪些业务场景,都在哪些表里存在,与之直接有关联的业务字段有哪些。和业务目录一样,还可以更直观的指定任何有关联的数据标准来建立数据仓库或是进行自定义场景下的自助取数。4. 数据质量控制 有了数据标准,用户可以把一些既定的质量规则,关联到数据标准上。这样拥有同样数据标准的字段,也会把绑定同样的质量规则。从制定规则、到运行、到监控的三个方面,大大减少维护数据质量的成本。5. 数据安全控制 用户姓名,身份证号,银行的各种信息都是敏感的,这些数据标准,都会带有敏感等级高的属性,在一些治理工具上,会依据敏感等级,输出给不同权限的用户不同条目或是否脱敏的数据。6. 数据库建模 上述的应用都是在既有数据库的治理上,还有一种很重要的应用是新数据库建模。有了数据标准,用户可以“组装”已有的数据标准,来生成新表。比如,在可视化建模工具上,用户可以通过直接拖动数据标准到表上完成添加,一张新表可以秒级建成。这样可以保证所有新加入的系统在后期的维护和数据治理上,节省大量的时间。 结语关于数据标准的描述和应用,其实还有很多。我只是就我们客户的一些实际应用场景简单列举。在企业中数据标准是一个很基础的,但贯穿所有模型、数据资产的很重要的项目,它需要时间来梳理,而越早建立成熟的数据标准,无疑会更早地为企业创造价值,使企业立于不败之地。


