平台+标准——数据治理如何落实2021年一号文精神


前言

《关于2021年中心全年管理工作部署的通知》明确提出了成本变经营,内部变市场,要素驱动向创新驱动转型。构建组织的确定性,中心要持续建设三个能力,即:以客户为中心的经营能力,以敏捷交付为核心的研发能力,以数字化平台为核心的支撑能力。
对于遵循的原则其中之一是,目标要数据化,过程要指标化,评价要基于数据不唯数据,治理要善用数据不造数据,强化数据治理,探索数据应用,用数据驱动工作改进。

对于工作要求明确提出,为改善数据应用不充分的现状,职能组织要提升数据分析使用能力,跨职能领域横向应用,用数据评价工作,用数据监控过程,用数据结论指导政策制定;专业组织要提供数据服务清单,便捷数据使用,加速挖掘数据宝藏,按职责领域纵向治理,汇聚端到端的数据,提高数据质量,理顺数据逻辑。

以上都是对数字化平台、数据治理、数据应用提出了强烈的期望、明确的要求。数据作为研发平台的要素之一,首次在一号文中占据大量篇幅,透露出组织对于数字化升级转型的迫切需求。人勤春来早,功到秋华实。2021年伊始,数据治理该如何秉承组织期望开始新的篇章呢?以下是从数据治理角度提出的一些思考,欢迎大家一起探讨。

一、转变数据治理战略目标,创新数据管理驱动数据价值变现

数据战略是企业发展战略中的重要组成部分,是数字化转型计划的战略,是指导数据治理的最高原则。数据治理是否与中心发展战略相吻合也是衡量数据治理体系实施是否成熟、是否成功的重要标准。数据作为全员的生产要素之一,不是某个人的数据,也不是某个小团队的数据,数据是我们全员的重要资产,通过数据治理,提供数据服务,从管理中心转变为服务中心;通过数据治理,变现数据价值,从成本中心转变为利润中心。提升高层领导对于数据治理的认识、全体员工对于的数据治理的参与度,以及专业团队对于目标的共识,打造共生型数据治理文化,将会对数据治理工作带来质的飞越。

二、整合大数据开发治理全流程,打造一站式数据治理平台

中心的数据治理遵循开源加自研相结合的原则构建大数据平台,为了满足治理功能场景的需求,采用开源产品为基础,二次开发改造扩展以适应中心的治理场景,ETL数据采集、任务调度、存储管理、计算引擎、血缘管理、BI工具、OLAP多维分析等。虽然现在已提供数据治理与数据应用的基本功能,同时存在着诸多问题,如产品之前差异较大整合困难,维护、学习成本较高,数据开发入口较多,分析方式、风格不统一,没有统一流程管理,数据质量问题难以排查、数据稳定性难以保证等等。

是时候进行整合了!将当前零散的、独立的、入口多达10+的基础功能整合到一套一体化的数据治理平台,通过服务注册方式、自由组合安装各种功能套件,通过工作流的方式、自由定义从数据采集到数据分析展示全流程。数据开发人员只需要一个统一入口即可使用所有功能,整个过程透明可视,质量问题清晰可见。这将极大的提升数据开发的体验、降低数据开发的难度,确实可以做到人人都可快速进行数据分析。

三、构建研发指标体系,实现线上指标管理

1. 盘点现有指标,纳入数据资产管理

现有指标是企业数据资产的重要组成部分,是企业级指标体系建设过程中必须要考虑的部分。目前中心指标分散在各个专项组织中,存在管理零散,更新不及时、含义口径不统一等问题,这样的指标很难满足用户数据分析的要求。在盘点的过程中,需要明确指标的名称、业务含义、业务口径、应用场景、主管部门、创建日期、最近更新日期、来源等信息。盘点结果要对指标进行体系化编制、集中式管理。

2. 建立指标标准,从需求层面管理指标

指标是衡量目标总体特征的统计数值,一般由指标名称和指标数值两部分组成。指标名称及其含义体现了指标在质的规定性和量的规定性两个方面的特点;指标数值反映了指标在具体时间、地域、条件下的数量表现。可将指标抽象为维度、基础指标、混合指标,混合指标由基础指标组合或计算得出。

3. 线上建模工具,从开发环境贯彻指标标准

传统的建模工具主要是面向设计,而新一代的建模工具将数据治理理念融入其中,把数据治理流程推进到开发流程中,从而在开发态的源头进行治理,解决了指标标准落地的问题,可以从根本控制增量的数据问题。我们当前的指标定义是面向设计的还停留在文档层面,定义与实现是分离的,这必然会导致定义与结果之间的差异。

建模工具与数据标准、指标标准进行融合,在建模的时候可在线查询、重复引用、智能推荐,一方面提升指标模型的质量,别一方面减轻了模型设计的工作量。将指标管理过程整合到数据治理平台,实现“可搜索、可分析、可复用”。建设完成之后,可以进一步提升业务人员(职能人员)对于技术的依赖,完全可以跨组织的自助定义指标、自助分析,实现“横向应用”。

4. 加强指标监控,提升数据质量

前面我们提到指标由指标名称和指标数值两部分组成,因此当指标上线后,需要对指标数值进行监控。指标监控有两种,一种是基于风控要求,当指标出现异常波动,超出合理的阈值时的监控和预警,另一种是为了检查指标数值的准确性进行的监控,即指标的数据质量监控。通过与数据治理平台中的质量管理工具,在工作流中检查指标数据准确性、缺失值、异常值等达到提高数据质量的目的。

四、建设数据管理制度,明确组织管理职责

1. 完善数据管理制度,规范数据管理标准

制度章程是确保对数据治理进行有效实施的认责制度,包括数据治理职能的职责,也包括数据管理职能的职责。换句话说,数据治理制度要对数据产生、数据管理、数据应用的相关方都明确职责和规范要求。以下是我们中心有必要完善的部分制度,这里只简单的分为制度类、规范类两大类。

分类 制度名称 主要内容
制度类 数据认责管理办法 责任划分、明确各类数据的所有者、管理者和管理职责
数据质量管理办法 数据质量术语定义、评估维度和规则、管理的职责与流程
元数据管理办法 元数据管理原则、范围和管理方法等
数据指标管理办法 指标来源、定义、归属、更新机制
数据安全管理办法 数据安全性的分级原则、保障机制等
规范类 数据质量技术规范 数据完整性、一致性、连续性等检查要求
元数据技术规范 元数据命名、属性、权限等标准

2. 明确高层组织管理职能,负责高层数据治理规划

成立有中心领导参与组成的高层团队,负责对数据治理工作的总体规划进行深入制定、实时跟踪,强化高层领导对于数据治理的重视程度,有力协调数据治理各个参与方。可以新增虚拟组织“数据治理委员会”,或在现有“xxx委会员”明确数据相关职责。

3. 明确资源保障规则,促进数据职责落实

对于数据治理职责、数据应用职责,以往并没有在所有组织中进行明确,现在通过制度明确之后,如何让这些职责执行落实?在资源保障上也要跟进。比如对于数据产生方,以前只讲应用的可用性,现在还会有数据质量指标,通过数据认责管理办法,纵向治理,保障数据从产生到应用全流程的可靠性,数据质量达标后对中间各参与方在资源上有所体现,促进数据职责实施落地。


文章作者: KavenRan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 KavenRan !
 上一篇
规则引擎核心知识与开源产品对比选型 规则引擎核心知识与开源产品对比选型
规则引擎由推理引擎发展而来,是一种嵌入在应用程序中的组件,实现了将业务决策从应用程序代码中分离出来,并使用预定义的语义模块编写业务决策。接受数据输入,解释业务规则,并根据业务规则做出业务决策,一个好的规则引擎能大大提高系统的灵活性,扩展性。
2021-03-11
下一篇 
一文读懂数据湖架构体系 一文读懂数据湖架构体系
1.1 数据湖的定义及发展需求数据湖(Data Lake)是Pentaho的CTO James Dixon提出来的,是一种数据存储理念——即在系统或存储库中以自然格式存储数据的方法。 目前,Hadoop是最常用的部署数据湖的技术,所以很多人
2020-12-16
  目录