永洪社区

标题: 数据管理 | 数据规划真的可行吗 [打印本页]

作者: 门生罗    时间: 2024-3-1 18:55
标题: 数据管理 | 数据规划真的可行吗
本帖最后由 yhdata_oioQClG8 于 2024-3-1 18:58 编辑

通常来讲,数据规划可能包括两个层面的规划,一个是表层面的规划,一个是字段层面的规划。那么对于元数据,我们可以规划些什么?数据规划是否可行呢?这篇文章里,作者谈了谈他的看法,一起来看一下。
元数据是大数据平台的一个基础,大数据平台是以元数据为中心进行构建的。一个大数据平台能够把元数据管理好,那么这个平台就成功了一半。那么对于元数据我们能够规划些什么,是否可行?
一、数据规划的时候都规划什么
数据的规划都规划些什么,具体来分的话大概包括两个层面的规划,一个是表层面的,一个是字段层面的。
二、表层面的规划
表层面的规划涉及到数据仓库设计了。会包括了数据仓库分层、业务线划分。
1. 数据仓库分层
对于数据仓库的分层也就是我们在数据仓库领域中常常听到的ODS、DWD、DWS等等层级了。
在一般建表过程中,只需要在表名称之前增加前缀来区分不同层级即可。但是在大数据平台上,我们还希望增加一个类似分层的标签,来区分表分别属于什么层级。
如果使用的是向导式的建表过程,可以直接在建表过程中,增加数仓分层的选择,这样在建表过程中就确定表所属数仓分层。如果是脚本式建的表,就需要表创建完成之后,再进行一次维护,因为在脚本式的文本编辑框中,是没有办法标记,表属于什么分层的。
当然,除非表的分层和底层存储的数据库具有逻辑关系,即不同的数据仓库分层,即是不同的数据库(好像大部分实际情况也是这个样子的)。
2. 业务分层
一张表除了需要确定是什么数据仓库分层的,还需要确定是什么业务域的。一个数据仓库一般是汇总多个业务线数据,这些业务线中有的业务域重叠,有的是独有的。这就需要按照实际的业务情况进行划分。如果说数据仓库的分层是一个技术问题,业务域的划分就是一个业务+技术的问题了。需要对业务足够熟悉,又能知道把这些业务怎么进行技术表达,做到不重不漏。
在表上进行业务域的打标签,和进行数仓分层基本类型,如果向导式的可以直接在创建过程中进行打标。如果是脚本式,则需要再维护一次了。
三、表层面的规划,可行吗
回到上面的问题,数据规划可行吗?个人认为在表层面的规划是可行的,也是有必要的。有了这些数仓分层、业务域划分,就能够很好的找到数据,或者后续对不同的层进行治理,审视。
个人感觉在大数据领域更多的是一个经验领域,每个人都有自己的认识,各种名词也都不能完全统一,各种理解也会有各自的角度,这里更多的是从自己的实际工作理解出发,后续可能随着工作接触不同层面,理解也会变化。
四、字段层面的规划
另一个层面的规划,字段层面的规划,这个层面的规划是否能够可行呢?又有哪些可以在字段层面进行规划呢?
数据指标
数据指标的使用,首选需要数据指标的统一。
数据指标的统一,在有一个系统支持之前,一般使用一张excel表进行管理,使用一个表格统一需要的指标口径,这种情况下可能小范围统一是可行的,如一个项目组,以为一个项目组内的信息拉齐很简单。如果要更大范围,变成全公司、全集团级别的指标对齐,就不能单单依赖Excel了。而是有一套系统,有指标的创建、审核、发布、下线等流程。
有了统一的数据指标,但是最终可以在两种场景下使用。一种是建模场景下的数据指标,一种是OLAP场景下的数据指标。这里的数据字段级别的规划,主要是在建模场景下的数据指标规划。

作者: zyj20230601    时间: 2024-3-5 09:43
数据指标的使用,首选需要数据指标的统一。




欢迎光临 永洪社区 (https://club.yonghongtech.com/) Powered by Discuz! X3.4