① 打破数据孤岛
在兼顾技术可行性和成本的情况下,能够尽可能地连接与业务相关的数据资源,是打破数据孤岛的路径。除了打通业务系统获取主业务流中的数据以外,格局还可以放大一些,我们还可以去关注公司自研系统之外的数据来源,比如公司外采的系统(常见的如SAP的业财、ERP、WMS等系统)、公司在第三方电商平台/渠道上开展了线上业务所沉淀在平台上的数据、公司竞对的市场竞争数据、公司业务相关的流量/信息渠道的声量、舆情、用户兴趣偏好等非结构化数据(如百度搜索、抖音、小红书等)。
② 解决多源异构问题
在我们的努力下,数据孤岛被各个击破,随着数据来源的逐步丰富,数据的多源异构问题浮上水面,这是必须要解决的问题,它决定了数据效率的上限和数据质量的下限。
玩过文明系列电脑游戏的应该都知道,在迈向工业化时代及工业化走向成熟时期的标志性事件是什么?零件标准化。这个道理对标到这里,也是一样的。解决多源异构问题的过程,就是源数据标准化的过程。在数据采集环节解决多源异构问题是数据标准化工作的第一道关卡。
③ 源数据质量管控
说到数据质量,其实这是整个数据建设和治理工作中的一个专题了,甚至可以专门为了管理好数据质量做一个系统,这属于数据管理的范畴。但为什么把“源数据质量管控”放到数据采集这里来说呢?那是因为要保证最终的数据质量达标,源头是重中之重。就好比污水治理,如果不把控好上游的源头,下游花重金治理一定是事倍功半的。
怎么做好源数据质量管控?需要在数据同步进来的时候做好把关。一些很明显的数据质量问题,如空值、数据取值不合逻辑、数据结构混乱等,是很容易发现的,这一类数据一经发现就应该拒绝入湖,并且反馈问题到业务系统的产研团队,明确要求整改,整改完毕后再行补数。
③ 数据质量
数据质量是整个数据建设和治理工作的“可用基线”。不能保证数据质量的数据体系,即使数据应用建设得再炫酷,那也是“空中楼阁”,既不可信,也不可用。因此,数据质量管理是数据管理中不可或缺的部分。
我们如何衡量数据质量是否达标?看六个维度:完整性、规范性、一致性、准确性、唯一性、及时性。
我们又该如何开展数据质量管理工作呢?如下步骤可供参考: