数据治理的 “独孤九剑”-程序员宅基地

技术标签: 人工智能  大数据  

数据治理即对数据资产管理行使权力、控制和共享决策(规划、监测和执行)的系列活动。

这个概念挺抽象,它既不是你每天干的数据采集、处理、建模、运维等生产工作,也不是数据质量管理、元数据管理,主数据管理等保障型工作,事实上,数据从业者95%的工作都跟数据治理本身没关系,但每时每刻都会受到数据治理活动的影响。

刚接触数据治理的时候,我对要干什么也挺茫然的,经过2年的实践,我终于知道DAMA的数据治理到底在讲点啥了,这里就把自己的经历提炼成九个方面的内容,姑且就叫作“独孤九剑”吧。

「总决式」- 研判形势,决定数据治理时机

「破剑式」- 保驾护航,建立运营组织框架

「破刀式」- 建章立制,确保达成企业共识

「破枪式」- 对齐业务,解决核心业务问题

「破鞭式」- 推动项目,确保数据变革成功

「破索式」- 制定标准,规范数据管理行为

「破掌式」- 问题管理,推进跨域问题解决

「破箭式」- 监督控制,保证持续执行到位

「破气式」- 评估合规,确保法规合理执行

1、研判形势,决定数据治理时机

要不要做数据治理,大多取决于公司管理层,特别是一把手的形势判断,包括数据要素的价值、国家的政策、行业的要求、上级单位的精神、公司的业务战略、当前业务上的痛点及业界的最佳实践。

但要把这个事情启动起来,一般还是要让公司的数据部门来进行专门研究,评估到底能不能做,以下是我当初接到任务的情形:

“2021年公司数字化转型的步伐加快,这天部门BOSS找到我,希望研究下华为的数据治理之道,然后跟大老板汇报下我们的思路,当时我就在想,也许公司认为做企业数据治理的时机到了,毕竟数据是数字化转型的基础。然后我们闭门了一个月,出了一份研究报告,老板听了汇报后,觉得还是靠谱的,因此决定启动这个事情。”

我们的报告对公司数据管理现状、成熟度、与业界的差距及大致的改进方向做了一个初步研究,然后提交给总经理务虚会讨论,以下是差距分析的示例:

“数据是数字化的基础,随着公司数字化转型的加快,对于数据要素高效融通配置,释放数据生产资料更大价值提出了更高要求,虽然公司已经完成了企业级大数据平台的建设,初步实现了三域数据的汇通,但当前企业级的数据治理体系还未建立,在公司数字化运营中逐步暴露出了数据盘点不足(比如O域流程管理数据还缺乏体系化盘点)、数据质量不高(比如资管中农村的宽带资源点位置信息失真,抽样准确度XX%)、数据汇通不畅(比如流程攻坚中政企投诉处理工单数据的采集耗时2个月)、数据开放不够(比如详单,位置等涉敏数据由于安全管控要求还无法向一线开放)等问题,迫切需要完善公司的企业级数据治理体系,从而为公司的数字化转型保驾护航”

这是数据治理必经的阶段,老板提出设想,数据团队论证,否则企业数据治理无法真正开始。

2、保驾护航,建立运营组织框架

职能型组织的弊端就是业务条线分割导致的全局利益受损,而数据能打穿业务的壁垒,但大多企业的数据团队比较弱势,需要数据治理组织的保障,否则很难拉通数据。

企业数据治理组织一般包括立法职能(定义策略、标准和企业架构)、司法职能(问题管理和升级)和执行职能(保护和服务、管理责任)。

下面是我们组织的示例,采用的是联邦式的数据治理组织形式,通过总经理办公会决策通过后下发执行:

“数据治理委员会负责公司数据治理体系的顶层设计,下设数据治理办公室,定期召开跨部门联席会议,统筹推进数据治理各项工作;同时建立数据责任人制度,明确公司数据责任人和领域数据责任人的职责,企业数据责任人与各领域数据责任人协同,以维护一致的定义和标准”

d63a53de3217d28b699c0f1cff51edf8.png

3、建章立制,确保达成企业共识

理论上数据治理要明确愿景、目标、原则及制度,但实际上在数据治理起步的时候,往往只能明确一些原则,能建立的制度也非常有限,这是一个螺旋上升的过程。

下面是华为公司的数据治理的愿景和目标:

“愿景:实现业务感知、互联、智能和ROADS体验,支撑华为数字化转型“

“目标:清洁、透明、智慧数据,使能卓越运营和有效增长”

我们没有明确提出过愿景和目标,但我觉得老大说得这些话可以作为目标:

“目标:实现数据从产生、处理到消费端到端全流程高质量运转,有效提升客户体验和企业运营效率,持续推动业务创新”

数据治理原则有助于企业凝聚共识,从而减轻潜在的阻力,下面示例了我们的部分原则:

“原则1:数据是公司的战略资产,不是部门私有资产”

“原则2:建立企业级信息架构,统一数据语言”

“原则3:依据集团公司“三同步”原则,统一确定数据管控要求,公司所有项目均须遵从,对于不遵从管控要求的项目,拥有一票否决权”

“原则4:各领域数据责任人承担信息架构、数据汇通和数据质量的三大责任”

“原则6:数据应在满足必要的信息安全的前提下充分共享并明确服务承诺,数据产生部门不得拒绝或延缓跨领域的的数据汇通需求”

本来我以为原则是很虚的东西,后来发现不是这样,自己就曾经受到过业务部门的“暴击”:

“有次公司业务部门A要做个可视化应用,本来是安排我们的数据团队做,后来发现做得一般,就要求把数据开放给B部门的团队做,然后我们的数据团队就不乐意了,说凭什么把我们加工的数据开放给B部门,后来业务部门A直接把原则6的内容发给我,......我们没有不遵守的理由。”

关于制度,我觉得没有冲突的制度没必要写,写了没法保障执行的制度也没必要发。迄今为止,我们在数据管理制度方面只制定过一部《数据对内开放管理办法》,跟公司各个部门拉扯了大半年,最近才算基本定稿。

这个办法还附带了流程和操作细则,可以直接落地,我给大家看一下这个办法的框架和示例,它是公司各部门智慧的结晶,也是妥协的产物。

“围绕“131”数据开放框架制定对内数据开放管理办法,确定了数据开放各部门职责分工,规范了数据目录管理、订阅管理、平台管理三大管理活动,明确了数据开放服务承诺与监督保障要求,为公司内部数据高效融合融通奠定了坚实的基础”

8f95212df40b24d9e0b8904c5365b430.png

897dd0c34224d2da097d68d32e033657.png

4、对齐业务,解决核心业务问题

数据治理需要提出具体的业务目标,要能解决具体的业务问题,这个痛点不应该是IT部门的,也不是某个业务部门的,而应是全公司的,即带有跨领域跨部门的特点,只有管理层感到痛的业务问题才值得去做。

比如华为公司为了解决财务风险问题启动了数据治理项目,决定了这个数据治理项目能带来明确的财务收益。

我们的数据治理目标大多来自于公司管理层的要求,初期设置的业务目标大概有10多项,以下是举例:

推动A数据在网络和市场的定义一致性,使得前端市场的需求能够有效传递到后端网络,提升投资规划决策的科学性;

推动B领域数据采集的统一归口管理,提升B领域数据采集的时效性,助力B领域各类业务数据的高效分析;

打破C领域数据对各部门开放的壁垒,降低汇聚周期,进一步提升各部门跨域融合数据的分析能力;

汇聚D业务涉及的核心线下商业数据,助力D业务的精确营销;

构建完整的企业数据字典,嵌入到生产流程,助力自助生态能力的提升;

数据治理很容易做成“打造一个所谓的数据治理体系框架,建立了一堆组织,下发了一堆的规范标准.......”   以下这些都不是数据治理的目标:

成立企业数据治理委员会,下设数据治理办公室,明确各部门数据责任人.....;

发布元数据管理办法、数据质量管理办法,数据共享管理办法......;

打造企业数据目录,构建数据开发平台......;

重构数据开放流程,优化数据汇聚流程......;

如果公司提不出明确的业务目标,热衷于去建立一个数据治理体系框架,就有点舍本逐末,所以产生这种问题,一般有三个原因:

(1)公司对数据要素的高效配置能力理解不够深

(2)公司对数据驱动业务的现状和问题理解不够透

(3)狭隘的部门视角或者站位太低

数据治理是一把手工程,对老板是一种挑战,《华为数据之道》现在很多老板在看,这是有必要的。

5、推动项目,确保数据变革成功

数据团队每年会有不少数据项目,比如元数据、数据平台、数据采集、数据开放、主数据等等,其中一些跨领域的特性很突出,只有依托企业数据治理组织的统筹推进才能解决协同的问题,包括管理层的汇报、利益方的支持、项目的培训及常态化的沟通。

我这里给出两个跨领域项目的对比,高下立见:

“我们8年前建设大数据平台,项目做这做着就变成了纯粹的换计算和存储引擎,至于如何更好的归集各部门的数据无人关注,因为协调不动其他部门的更多配合,项目建设后数据资产没有得到明显增加,业务的获得感很弱,大数据是大忽悠不是空穴来风”

“今年我们启动了地址主数据项目的建设,需要对市场、政企、网络、规划和工程等五个部门的13个业务流程进行调整,涉及CRM、资管、精销平台、大数据平台等10个系统的改造,横款了BOM三域,难度远超8年前的大数据平台,但依托于企业数据治理组织的统筹推进,大家还是愿意配合去完成大量改造,这在2年前是不可想象的,当然其中的争论很多,讨论不下百次,但目标始终不变“

cfe095cd42473a3c432eb22199da9daa.png

6、制定标准,规范数据管理行为

在跨部门项目的推进过程中,在上下游流程和系统的对接中,必然会涉及到语义和数据一致性的问题,如果统一了标准,不仅可以简化流程,还可以降低协作的沟通成本。数据治理组织需要代表公司牵头立法,包括组织标准编写、评审及提交数据治理委员会批准。

数据标准渗透在每一类数据管理活动中,无论是数据架构,数据建模、数据存储和操作、数据安全、主数据和参考数据、元数据、数据质量等等,但我们没必要为每一类活动都去制定标准,这个取决于业务需要和管理成本的大小,因为制定和执行标准是有代价的。

比如领域一定要建立数据字典标准吗?不一定,领域内部能沟通清楚的就没必要建,但如果要面向企业打造一本数据字典,那么标准就有必要建立,否则其他领域看不懂。现在数据标准工作得到越来越多的重视,那是因为数字化时代数据要素共享和开放成为了趋势,数据仓库那个时代,少有人提标准这个事情。

我们在建设地址主数据项目中,定义了地址数据的“13+N”的标准,如下所示,这是跨领域协同必需的:

““13”指的是从省、市到户号共13个层级;“N”指的是地址类型、标志物别名、经纬度、兴趣点名称、兴趣点行业类型、描述信息6个附加信息。”

2f3f905b378d0195a5b673e702857c41.png

7、问题管理,推进跨域问题解决

数据治理组织既然可以建立标准,即拥有数据领域的立法权利,相应的也需要有司法的权利,即进行问题管理,问题管理包括且不限于授权、合规性、标准冲突、一致性、数据安全、数据质量等等。

虽然大多问题在数据管理团队内部就能解决,但公司有10-20%的跨领域数据问题是无法自行解决的,但又是极其重要的,这些无法解决的问题容易被隐瞒,被忽视,深埋于地下,比如供应链的物资编码问题、统计报表的口径问题、严重的数据质量问题、数据快捷开放问题等等。

数据治理需要建立问题升级机制和流程,能将问题升级到更高的管理机构,比如数据治理委员会,数据治理团队通过问题识别和记录、组织讨论、确认方案及向上升级,促进问题闭环的形成。

我们通过建立跨部门联席会议和常态化沟通协作两大机制来推进问题解决,数据问题能被放到一张圆桌上进行讨论,这其实就是巨大的成功:

“一是依托数据治理办公室,建立了定期的跨部门联席会议制度来识别和收集问题:一种是管理层提出问题,要求我们协同各部门数据责任人推进解决,这种问题往往是需要跨部门联动的,比如企业级数据目录的构建、主数据的建设、数据开放管理办法的制定、平台工具的集约化建设等等。另一种是业务部门的数据责任人提出的需要数据治理办公室协调解决的问题,比如宽带长流程问题的解决,外部业务数据的归口采集,全流程效能分分析支持等等。”

“二是建立常态化沟通协作机制,高质量落实联席会议工作要求,包括培训辅导、沟通协调、跟踪通报等手段来推进问题闭环管理。”

8、监督控制,保证持续执行到位

数据管理的制度、规范和标准是纸面上的,往往是篇章式、片段的、模糊的,必需将其嵌入到数据管理相关生产流程中才能有效发挥作用。

当然数据治理不要去额外新增管理流程,而是要把要求叠加在原有业务流程之上,这会对业务带来影响,业务部门只有接受数据治理的监管才能确保执行到位。

比如地址主数据有“13+N”的数据录入标准,前端人员需要按照结构化的要求去录入数据,这改变了前端业务人员的操作习惯。

数据治理在带来全局收益的时候,可能会让局部业务领域付出代价,因此,数据治理组织在制定规范标准的时候,一方面要协同相关业务部门充分权衡利弊,另一方面,也需要善于利用技术手段去破解规范性和灵活性的结构性矛盾。

比如地址主数据有13+N”的录入标准碰到了业务方的强烈反对,因为影响业务受理效率,我们后来采取了分角色的管理策略,针对后端业务流程的录入,严格按照规范标准录入,对于前端业务流程的录入,仍然沿用旧的方式,但会给出一个AI的算法做初步的格式化,再结合人工纠正的方式来解决。

相对于以前数据团队做数据治理只是局限在数据仓库领域,并且采取事后监督的方式去做管控,现在我们的数据治理终于能直接介入业务系统,从源端解决问题,同时采取事前事中的方式进行实时控制,并且能基于业务流程数据进行分析评估,这是跨越式的进步。

9、评估合规,确保法规合理执行

数据治理要求以业务为导向,这个业务不能简单的理解成创造收入的业务,降低成本的业务,还应包括合规性的业务、满意度的业务等等,比如一旦不合规,短期就可能给公司带来收入影响。

数据治理组织一方面要去深刻的理解各类数据法规,配合公司法律、安全部门对涉及数据监管要求或审计承诺的作出响应,比如证明数据质量合格,另一方面,也要去破除那种阻碍业务正常开展的、过时的、不合理的、但又既成事实的规定。

公司涉及数据的业务流程还存在着大量的冗余的,不合理的环节和规则,但大家已经习以为常,数据治理组织需要去分析流程的堵点和卡点,推进流程的优化,从这个角度看,数据治理干的已经是数字化转型的工作了。

比如我们在分析数据汇聚流程中发现,A部门基于条线需要设置了一些规定,导致审批环节超过11个,但这种部门流程已经不适合企业级数据的汇聚要求,因此将其精简到了4个。

又比如在数据对内开放流程中,以前各类数据的审批都遵循同样的流程,导致数据开放时间很长,后来通过对数据进行敏感分级并制定不同的开放策略,实现了90%以上的数据在一小时就可以开放,如下图所示:

bacff31dd2984b9b41232247d96850a4.png

近几年国家一方面下发了“三法一条例”来规范数据的使用,另一方面也在推动数据要素流动数据基础制度的建立,公司数据治理组织也要与时俱进。

独孤九剑,基本上涵盖了DAMA数据治理活动的大部,其实数据治理重在“治理”两字,要求跳出“数据”找出路,自己以前搞错了重点,陷在“数据”里不可自拔。

f56a4c1f682bdc2c35b256710c6082fb.png

a9a1dd18a35c826165231e7fb4f21242.png

5746f9653dcd76b6a215c51934adc89b.png

e03e324899568bd74ae2c34b85c7c33a.png

加快构建中国特色数据基础制度体系 促进全体人民共享数字经济发展红利

怎样画一张人见人爱的数据治理框架图?by 傅一平

傅一平:一文讲透DAMA数据治理基本概念(上)

数据治理领域最容易混淆的16组术语概念辨析

为什么《DAMA数据管理知识体系》这么晦涩难懂?by 傅一平

银行数字化转型中的数据治理

数据分类分级的概念、方法、标准及行业实践

查看全部文章

点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/fuyipingwml1976124/article/details/129679706

智能推荐

什么是内部类?成员内部类、静态内部类、局部内部类和匿名内部类的区别及作用?_成员内部类和局部内部类的区别-程序员宅基地

文章浏览阅读3.4k次,点赞8次,收藏42次。一、什么是内部类?or 内部类的概念内部类是定义在另一个类中的类;下面类TestB是类TestA的内部类。即内部类对象引用了实例化该内部对象的外围类对象。public class TestA{ class TestB {}}二、 为什么需要内部类?or 内部类有什么作用?1、 内部类方法可以访问该类定义所在的作用域中的数据,包括私有数据。2、内部类可以对同一个包中的其他类隐藏起来。3、 当想要定义一个回调函数且不想编写大量代码时,使用匿名内部类比较便捷。三、 内部类的分类成员内部_成员内部类和局部内部类的区别

分布式系统_分布式系统运维工具-程序员宅基地

文章浏览阅读118次。分布式系统要求拆分分布式思想的实质搭配要求分布式系统要求按照某些特定的规则将项目进行拆分。如果将一个项目的所有模板功能都写到一起,当某个模块出现问题时将直接导致整个服务器出现问题。拆分按照业务拆分为不同的服务器,有效的降低系统架构的耦合性在业务拆分的基础上可按照代码层级进行拆分(view、controller、service、pojo)分布式思想的实质分布式思想的实质是为了系统的..._分布式系统运维工具

用Exce分析l数据极简入门_exce l趋势分析数据量-程序员宅基地

文章浏览阅读174次。1.数据源准备2.数据处理step1:数据表处理应用函数:①VLOOKUP函数; ② CONCATENATE函数终表:step2:数据透视表统计分析(1) 透视表汇总不同渠道用户数, 金额(2)透视表汇总不同日期购买用户数,金额(3)透视表汇总不同用户购买订单数,金额step3:讲第二步结果可视化, 比如, 柱形图(1)不同渠道用户数, 金额(2)不同日期..._exce l趋势分析数据量

宁盾堡垒机双因素认证方案_horizon宁盾双因素配置-程序员宅基地

文章浏览阅读3.3k次。堡垒机可以为企业实现服务器、网络设备、数据库、安全设备等的集中管控和安全可靠运行,帮助IT运维人员提高工作效率。通俗来说,就是用来控制哪些人可以登录哪些资产(事先防范和事中控制),以及录像记录登录资产后做了什么事情(事后溯源)。由于堡垒机内部保存着企业所有的设备资产和权限关系,是企业内部信息安全的重要一环。但目前出现的以下问题产生了很大安全隐患:密码设置过于简单,容易被暴力破解;为方便记忆,设置统一的密码,一旦单点被破,极易引发全面危机。在单一的静态密码验证机制下,登录密码是堡垒机安全的唯一_horizon宁盾双因素配置

谷歌浏览器安装(Win、Linux、离线安装)_chrome linux debian离线安装依赖-程序员宅基地

文章浏览阅读7.7k次,点赞4次,收藏16次。Chrome作为一款挺不错的浏览器,其有着诸多的优良特性,并且支持跨平台。其支持(Windows、Linux、Mac OS X、BSD、Android),在绝大多数情况下,其的安装都很简单,但有时会由于网络原因,无法安装,所以在这里总结下Chrome的安装。Windows下的安装:在线安装:离线安装:Linux下的安装:在线安装:离线安装:..._chrome linux debian离线安装依赖

烤仔TVの尚书房 | 逃离北上广?不如押宝越南“北上广”-程序员宅基地

文章浏览阅读153次。中国发达城市榜单每天都在刷新,但无非是北上广轮流坐庄。北京拥有最顶尖的文化资源,上海是“摩登”的国际化大都市,广州是活力四射的千年商都。GDP和发展潜力是衡量城市的数字指...

随便推点

java spark的使用和配置_使用java调用spark注册进去的程序-程序员宅基地

文章浏览阅读3.3k次。前言spark在java使用比较少,多是scala的用法,我这里介绍一下我在项目中使用的代码配置详细算法的使用请点击我主页列表查看版本jar版本说明spark3.0.1scala2.12这个版本注意和spark版本对应,只是为了引jar包springboot版本2.3.2.RELEASEmaven<!-- spark --> <dependency> <gro_使用java调用spark注册进去的程序

汽车零部件开发工具巨头V公司全套bootloader中UDS协议栈源代码,自己完成底层外设驱动开发后,集成即可使用_uds协议栈 源代码-程序员宅基地

文章浏览阅读4.8k次。汽车零部件开发工具巨头V公司全套bootloader中UDS协议栈源代码,自己完成底层外设驱动开发后,集成即可使用,代码精简高效,大厂出品有量产保证。:139800617636213023darcy169_uds协议栈 源代码

AUTOSAR基础篇之OS(下)_autosar 定义了 5 种多核支持类型-程序员宅基地

文章浏览阅读4.6k次,点赞20次,收藏148次。AUTOSAR基础篇之OS(下)前言首先,请问大家几个小小的问题,你清楚:你知道多核OS在什么场景下使用吗?多核系统OS又是如何协同启动或者关闭的呢?AUTOSAR OS存在哪些功能安全等方面的要求呢?多核OS之间的启动关闭与单核相比又存在哪些异同呢?。。。。。。今天,我们来一起探索并回答这些问题。为了便于大家理解,以下是本文的主题大纲:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JCXrdI0k-1636287756923)(https://gite_autosar 定义了 5 种多核支持类型

VS报错无法打开自己写的头文件_vs2013打不开自己定义的头文件-程序员宅基地

文章浏览阅读2.2k次,点赞6次,收藏14次。原因:自己写的头文件没有被加入到方案的包含目录中去,无法被检索到,也就无法打开。将自己写的头文件都放入header files。然后在VS界面上,右键方案名,点击属性。将自己头文件夹的目录添加进去。_vs2013打不开自己定义的头文件

【Redis】Redis基础命令集详解_redis命令-程序员宅基地

文章浏览阅读3.3w次,点赞80次,收藏342次。此时,可以将系统中所有用户的 Session 数据全部保存到 Redis 中,用户在提交新的请求后,系统先从Redis 中查找相应的Session 数据,如果存在,则再进行相关操作,否则跳转到登录页面。此时,可以将系统中所有用户的 Session 数据全部保存到 Redis 中,用户在提交新的请求后,系统先从Redis 中查找相应的Session 数据,如果存在,则再进行相关操作,否则跳转到登录页面。当数据量很大时,count 的数量的指定可能会不起作用,Redis 会自动调整每次的遍历数目。_redis命令

URP渲染管线简介-程序员宅基地

文章浏览阅读449次,点赞3次,收藏3次。URP的设计目标是在保持高性能的同时,提供更多的渲染功能和自定义选项。与普通项目相比,会多出Presets文件夹,里面包含着一些设置,包括本色,声音,法线,贴图等设置。全局只有主光源和附加光源,主光源只支持平行光,附加光源数量有限制,主光源和附加光源在一次Pass中可以一起着色。URP:全局只有主光源和附加光源,主光源只支持平行光,附加光源数量有限制,一次Pass可以计算多个光源。可编程渲染管线:渲染策略是可以供程序员定制的,可以定制的有:光照计算和光源,深度测试,摄像机光照烘焙,后期处理策略等等。_urp渲染管线