本帖最后由 puffs 于 2024-6-18 16:24 编辑
数据治理可以说是数据产品的生命线,如果数据不准给业务带来错误的决策引导,可能会带来难以预计的业务损失。
一、数据质量问题产生的原因
→业务源系统变更
→数据开发BUG
数据质量问题根源 →物理资源不足
→基础设施不稳定
二、如何提高数据质量? 数据质量问题无法完全根治或杜绝,所以要想提升数据质量,最重要的就是“早发现,早恢复”。要做到这一点就需要依赖完善的数据质量监控能力,在数据生产加工的全链路过程中,添加质量稽核规则。例如对产出表按照业务规则,设计一些校验逻辑,确保数据的完整性、一致性和准确性。 在数据产出任务运行结束后,启动稽核校验任务对数据结果进行扫描计算,判断数据结果是否符合规则预期。如果不符合,就根据提前设定的强弱规则,触发不同的处理流程。如果是强规则,就立即终止任务加工链路,后续的任务不会执行,并且立即发出电话报警, 甚至关键任务还要开启循环电话报警,直到故障被认领;如果是弱规则,任务会继续执行。但是存在风险,这些风险会通过邮件或者短信的方式,通知到数据开发,由人来进一步判断风险严重程度。
早发现,是要能够先于数据使用方发现数据的问题,尽可能在出现问题的源头发现问题,这样就为“早恢复”争取到了大量的时间。早恢复,就是要缩短故障恢复的时间,降低故障对数据产出的影响。图5 稽核校验执行流程图 那具体要加哪些稽核规则呢
三、数据治理监控的常用规则 完整性规则。主要目的是确保数据记录是完整的,不丢失。常见的稽核规则有表数据量的绝对值监控和波动率的监控(比如表波动超20%,就认为是异常)。还有主键唯一性的监控,它是判断数据是否有重复记录的监控规则,比较基础。除了表级别的监控, 还有字段级别的监控(比如字段为 0、为 NULL 的记录)。 一致性规则。主要解决相关数据在不同模型中一致性的问题。商品购买率是通过商品购 买用户数除以商品访问 uv 计算而来的,如果在不同的模型中,商品购买用户数是 1W、 商品访问 uv10W,商品购买率 20%,那这三个指标就存在不一致。 准确性规则。主要解决数据记录正确性的问题。常见的稽核规则有,一个商品只能归属在一个类目,数据格式是不是正确的 IP 格式,订单的下单日期是还没有发生的日期等等。
四、数据治理的衡量指标 管理学大师彼得德鲁克说过如果你无法衡量,你就无法提升。做数据治理,也需要有衡量标准,促进不断改善。那么如何评价数据质量是否有改进呢?除了故障次数,你还可以有这样几个指标。 4 点半前数据中台核心任务产出完成率。这个指标是一个综合性指标,如果任务异常, 任务延迟,强稽核规则失败,都会导致任务无法在规定时间前产出。 基于稽核规则,计算表级别的质量分数。根据表上稽核规则的通过情况,为每个表建立质量分数,对于分数低的表,表负责人要承担改进责任。 需要立即介入的报警次数,通常以开启循环报警的电话报警次数为准。对于核心任务, 任务异常会触发循环电话报警,接到报警的数据开发需要立即介入。 数据产品 SLA。每个数据产品上所有指标有没有在 9 点产出,如果没有,开始计算不可 用时间,整体可以按照不同数据产品的重要性进行折算,99.8% 是数据产品一个相对比 较好的 SLA。
五、数据质量相关的数据产品 工欲善其事必先利其器,提升数据监控稽核规则的配置效率和覆盖度需要依赖于数据质量监控相关的产品,一般来说需要具备灵活的规则配置能力和批量操作的功能,随着AI的发展,增加更多的智能分析和预警能力。
源于公众号:一个数据人的自留地
|