御数坊参与第一届长三角数据要素高峰论坛

发布时间:2021-11-09 11:06:35 发布人:管理员

9月17日,“第一届长三角数据要素高峰论坛”在苏州智博会期间成功举办。在论坛上,御数坊(北京)科技有限公司CEO刘晨发表了主题为“全链路数据治理与跨行业数据要素合作”的精彩演讲。




以下为演讲内容:

刘晨:大家下午好,感谢主办方非常精心的安排。我这个ppt内容准备的非常多。在讲的过程当中,大家肯定会举起手机来记录,之后一定不要滥用。如果后续要引用的时候,要溯源。这个对于所有小伙伴的PPT都是这样。

今天我讲的是全链路的数据治理,前面有一部分方法论的,后面结合我们的电力实践给大家讲一下要点。

我们公司是御数坊,专注在数据治理这个领域。我们是国内第一批获得国际认证的团队,并且参与了三项国家标准的编写,包括上午提到了管理数据评估模型、数据治理规范,还有数据质量的评价指标体系,服务了很多行业。今天的一个案例会和电网有关系,电网和银行之间的合作。

我自己从2008年开始做数据治理,是这个领域的老兵,有挺长时间的经验,包括在理论方面还有在实践方面。

这是我们经常用的价值金字塔。在这个金字塔最上方,原来是企业内部的数据价值实现,现在增加了外部的数据要素合作和数据要素的价值创造,所以这是最顶层。为此企业都去进行数字化转型,进行各种数据应用的搭建。再往下是我们现在说的数据的基建。包括以前的数据仓库、大数据平台,还有比较好的数据中台,还有智能化的平台。



但是很多企业都受困于最下面的数据基础比较薄弱。这里面包括了数据的不可理解,包括了数据的质量低下,包括了最近这两三年数据安全保护的问题,以及对外确权,还有数据要素的价值计量相关的一些困难。正是因为底下数据基础薄弱,导致很多企业的数字化转型和数字价值发挥受到各种各样的障碍。数据治理工作也是去解决数据的基础工程。

在这个过程当中,我们强调的全链路有两个含义。一个就是上面的数据工作。因为很多企业内部的数据管理,现在做外部的数据管理,也有做数据标准,也有做数据质量,其实很多工作是脱节的。我们如果想要数据的价值更好发挥,要把数据工作整合到一起。

另外就是数据资产本身的全链路,这个刚才很多嘉宾也提到了,包括原始数据的采集,包括数据的标准化还有流通,再到价值的应用还有实现,这是数据资产的全链路。后面我介绍会以数据资产的全链路为主。上面的数据工作的全链路是我们在业务模式上面探索的方式。



数据要素的价值发挥,我们分成了四步。第一步要去梳理资产,形成我们数据资产的目录。第二步要进行数据的认责,把数据进行标准化,然后去实现数据的精炼。第三步我们要有数据安全的保障,上午也有很多嘉宾提到,隐私计算等各种技术。然后进行数据的分类分级并且形成数据清单,包括需求清单、负面清单、责任清单。在这些基础之上,我们才能够真正探索数据的价值。下面的三步更像一个数据的加工厂,在上面是一个数据价值的卖场或者数据流通的机制。

在这里面我们强调双引擎的方案,一方面是说我们数据开发和数据的治理一体化,特别是在面向数据的全生命周期当中,从数据的规划阶段,开发阶段,设计阶段,再到数据的事前、事中、事后的一个数据治理机制,这样数据才能真正有高质量,有安全保障。

第二,大家认为数据治理是在数据中台内部去做,但实际上是远远不够的。我们的观点应该还是要面向原来企业十几、二十年这些积累下来的业务系统进行治理。

这两方面都面向全域的数据环境治理保障之后,再进行价值的呈现,基础更牢靠,这是我们的理念。

在数据资产方向,其实在做数据处理的时候有两条路径,一个是业务的梳理,还有数据本身的梳理。以前做数据的同事,经常会忽视业务流程,有活动的流程。但实际上数据是来源于我们的业务的,数据也是为业务去服务的。

只有当我们对业务本身梳理更清晰的时候,业务场景理解更透彻的时候,无论这个数据在内部产生价值,还是到外部发挥数据要素的价值,才更有可能。我们强调这两方面的数据,在数据资产这一部分,我们是有相应的数据资产管理模块,包括各种数据资产信息的采集,包括了数据源的确定,包括流转,数据的分布情况。整体我们是用协同化的方式去帮助企业做数据资产的整个盘点和数据资产目录的构建。

像在电网企业我们基本上可能在2个月之内,帮助企业做上百套系统资产环境的资产目录。在精炼数据这一部分,我们非常强调是数据认责,以数据认责为基础。很多时候,企业内部的数据没有管理好,包括在对外合作的时候。数据确权的难度,都来自于组织和数据之间的关系并不清晰。体现在公司内部的话,比如说数据是哪个部门对应的,哪个部门在进行采集,哪个部门在进行加工,哪个部门在进行流转,在使用,很多权责是没有定义清楚的。

在我们数据资产的梳理基础之上,我们要构建出一套让数据更容易去管理的,以数据认责为核心的治理体系。在这个体系之上,才能做到数据的可用,这是一个建设过程。建设过程我就不展开说了。

在认责的支撑上面,我们也有相应工具的模块,叫做数据认责中心。它会实现组织,从总部到业务部门再到基层单位,再到地市到区县级的各级人员。他们在数据各种活动当中的使用权责实时记录下来。这要辅助一部分人工梳理的服务,也有系统平台的支撑。这样形成一个横向到边、纵向到底的数据认责的举证。

通过这个举证就可以把公司内部,采集数据、使用数据,然后质量提升、安全保障、以及数字应用,对外合作的整个体系把它搭建起来,让公司内部的数据工作能够更协同高效。

像我们在电网落地的时候,给一家省级的公司,它有600多个区县级的供电所。总共我们可以覆盖到接近7000人的认责。就把数据的工作,真真正正把它下沉到业务单元的第一线。这是数据认责的一个效果。基于数据认责,数据的职责清楚了,当出现数据问题或者数据需求时,各方怎么去合作,他们基础也就更扎实了,效率就会更高。



所以我们会基于数据认责,数据质量提升形成一个闭环的体系。在这个体系里面,我们会由业务部门定义数据的问题,定义数据的规则。由技术部门把这些规则部署在整个数据链路上。当出现数据问题的时候,会根据认责的举证,快速分发到数据产生的云端以及主管的相应部门,这样数据问题可以快速得到解决,需求可以快速得到相响应,从而提升了整个公司内部运作的效率。这是数据质量部分。

有关数据安全,现在《数据安全法》出来之后,非常强调去建立数据分类分级的保护制度,各个行业包括像金融、证券、工业互联网等等都有相应的数据分类分级的体系,很多企业也都在把自己的数据资产进行业务的分类以及安全敏感度的定级。

我们其实也开发了相应的智能化的技术,去进行数据资产的定级。并且在数据资产定级的基础之上,比如说把企业内部的数据按照成本、人力、财务、营销各个业务的属性去进行分类,分类基础之上每个业务部门会去制订好它自己这个部门可以对外开放的数据,或者是可以贡献给其它部门的数据,或者是只能够供自己部门使用的数据,去进行相应的一个共享策略的制订。

有了一个共享策略的保障之后,公司内部对各类数据有序的去进行共享,或者有序的对外去开放。在这部分支撑,我们也是有一个数据安全的中心,把自然语言处理,机器学习的一些算法引入到这个过程当中,一方面解决企业的海量数据资产很多靠人工没法梳理的问题,另外一方面去解决法律法规很多,分级的权限和标准不统一的问题。

通过自然语言处理的技术,快速对数据标签化,我们在电网以及证券公司的落地。比如说一个电网企业它可能有200万个字段,按照人工去进行字段分析,可能需要6000人天的工作量,当然按我们的方式,大概两周的时间可以把算法调好,几个小时就可以把这个字段级的数据做好,打标签,大幅度的提高数据安全定级的效率。

定级之后的结果,其实也是跟一些安全公司,包括刚才说的加密、脱敏或者是大数据平台进行合作,把我们的安全策略提供给他们去进行后续安全的保护,这个是基于数据资产和认责基础之上数据安全的定级。

最后,探索价值,我们是和南方电网做了一个合作,深度分析了南方电网的数据资产,在这个基础之上去探索了电力数据资产运营的整个体系。这里面就包括了资产处理、问责,对外再去做业务模式的设计,数据产品体系的设计,以及估值定价的设计。

左边这一侧是企业内部数据资产基础的保障,右边是增值变现服务过程当中需要注意的3个体系。第一个是产品体系,这个产品体系里头分成了基于电力数据可以有哪些分析指标,基于电力数据可以有哪些主题分析,然后形成解决方案。我们总共形成了11个行业,7个解决方案,有47个分级指标。



比如说,利用疫情复工指数,基于用电可以去判断复工的情况,然后用电可以去看电力、看经济,然后基于用电可以去看某一个行业消费情况,这是对于其它行业,对于政府其实都很有帮助的,包括对于金融企业,后面也会有一个例子去说明和银行的合作。

定价这一部分,其实现在主要业界大体上还都是用收益法、成本法和市场化这3个方式。我们也做了一些基本的研究,最后提出一个用电力数据的估值在3个方面去平衡,要去考虑成本、市场和收益价值,还要增加一定的溢价率和折扣率,这部分做了一部分的理论研究。

当然现在业界做理论研究的机构其实也还是蛮多的,大家还都没有形成一个通行的数据资产定价方法。我研究的课题是在2013年的下半年,当时MBA要写毕业论文,当时就研究了一下,后来发现实在比较难得到一个通用的评估方法,所以就搁置了一段时间,现在能看到业界有很多新的思想也出来了。

数据运营变现的体系,其实对于企业来说,还是一个新生的事物,要有组织上和工作机制上的一些配套。以前数据工作更多是在IT团队的数据部门,现在有可能把它单独独立出来变成一个独立的数据部门,但是如果要去对外合作变现的时候,其实它的组织方式还是应该有一些变化的。

所以,在这个基础上我们去做了市场组的设计,然后技术组、交付组还有运营组,以数据产品为中心的这样一个组织和工作机制的设计,这样能够让一个传统企业对外做数据合作的时候,它在组织和运转过程当中有一个组织和运营机制的保障。

最后简单来谈一下电网相关的案例。这个案例是南方电网的一个省公司,其实南网做数据资产的工作,体系化的来做大概也有5年左右的时间,从2017年左右。在最开始,企业内部的数据底账是很不清楚的,大数据平台也还没有搭建,数据的质量、安全,其实都存在很大的问题。



但是,在大数据时代到来的时候,其实企业内部收到的各种数据需求越来越多,包括内部应用的需求,包括政府来调阅数据的需求,包括国资委或者能源局要一些数据的需求,外部的数据需求很广泛。在这个过程当中,企业就会意识到自己的数据治理体系比较缺失。他们大概从2017年开始构建整个公司级数据治理体系,最开始的时候实际上先做了整体的规划,包括在组织、制度这方面做一些整体的规划。后面每一年都会有一些专项的实施,比如说在2018年的时候,他们重点去做数据认责的机制,并且做大数据平台的建设。2019年的时候就开始基于大数据平台去进行数据的分级、定级,然后数据的共享清单梳理。还有数据运营团队,最开始没有专职数据运营人员,后来就有30人左右数据运营团队了。

再到2020年的时候,就开始从应用方面发力,包括企业内部的降本增效、合规、安全保障、停电管理等等内部的应用,同时对外也开始做一些数据合作的探索。2021年真正开始了对外跨行业的应用合作,这是从最开始基本上数据没有管理。

2016年的时候,他们刚刚做完6个业务系统大集中,数据中心还没有怎么建。从那个时候经过了5年左右的时间,一步一步的走到了对外数据合作变现。这个过程大概从对外合作的角度有3个阶段,第一个阶段大概从去年我们开始帮他去探索电力数据和银行数据的合作,也形成了一些具体的合作场景,比如说用电网的数据来提高电费的回收率,然后银行可以做一些低风险的放贷,像央行包括一些商业银行它都会去基于某个企业用电情况的分析,判断这个企业的经营情况。

比如说,以前可能都是非常高水平的用电量,突然某个月可能下降,然后下一个月继续下降,这个时候其实企业的经营情况就存在一些风险。基于这个经营风险,银行就可以判断贷款发放或者是催收的一些风险。

同时,还可以去做电费贷,比如说某个企业他的电费一直很高,可能是几十万或者是百万级的,要交电费之前可能银行先放一笔贷,保证企业的电费能够按时交,降低企业现金流的风险,这也是一个比较好的方式。

这是已经形成的一些场景设计,并且现在电网已经开始和银行在打通数据,真正的做用电数据的调用了,当然这个也是在合规并且用户授权的情况之下,一定要让企业知道这个数据可以被用于银行放贷的分析,然后你是否同意去做这个分析,在企业知情并且授权情况下,这个数据才会真正的拿到外部去进行价值合作。

第二步也能看到现在以电力数据为中心的企业数据流通的情况,比如说它的供应链上下游,电网企业的供应商现在违约的情况,可以去判断它的供应商经营情况,然后也可以把电力数据跟它相应的下游,用电单位,跟它的客户去做一些数据的合作。

再往后其实是现在以电网企业为中心,去搭建一个区域性的能源大数据中心,现在是一个趋势。发改委包括一些地方政府都在主导去做能源大数据中心,这也是把除了电力之外的其他行业数据会进行分析的一个比较广泛的趋势,这个是未来要去构建的。

所以在这个基础之上,也会帮助企业规划一个比较整体的数据交易平台。这个数据交易平台包括电力企业本身,包括电力企业的客户和供应商,也包括金融机构,包括金融行业、能源行业的主管机构,围绕这个电力数据的交易平台进行合作。但是这个交易流通平台可能跟咱们之前发布的平台,会有类似的地方,其实技术上大同小异的,更重要的还是各方有一个数据开放数据合作,数据共享、价值共享这样一个整体的原则,并且有法律法规的保障,加上隐私计算、区块链以及数据治理体系的整个保障。让所有企业在生态里面,所有企业的数据能够有质量、有安全的基础上,实现各式各样的应用场景,产生价值。

我就说这么多,谢谢大家。

返回目录