寻找新技能 发表于 2019-12-17 18:41:07

教程分享 | 手把手教你搞定元数据

数据分析的第一步是准备数据,在准备数据的这个环节中,我们必定会碰到元数据这个概念。元数据管理是数据管理中的一个重要方面,但是非业内人士,可能见到“元数据”这三个字,大概表情如下:http://p1.pstatp.com/large/pgc-image/5444d4d1f8eb4aa281db308cc89d06bd

作为一个搞IT的我来说,表示很不理解:元数据难道就这么不好理解吗?于是,我们在公司小范围内发起了一起投票,看看大家对Yonghong BI产品里的“刷新元数据”功能的理解情况。http://p1.pstatp.com/large/pgc-image/722b73ec3de848129ecd1f9046f4181b

然而,结果如下:http://p3.pstatp.com/large/pgc-image/951af8cb310640e1a48183d219077df9

出乎我的意料,大家似乎对元数据有不同的理解,要知道公司的小伙伴可都是那些来自985和211名校的同学们。一场由“元数据”引发的血案,看来我们有必要来澄清它。维基百科中的解释:Metadata is "data information that provides information about other data"。各大中文网站的解释:定义数据的数据。So,我们可以意会一下,元数据就是用来描述数据属性的信息的,可以引申一下,只要用来描述某个数据的,都可以认为是元数据。如果数据库表里存储了电视剧的数据,那么以下信息都可以认为是电视剧的元数据。http://p3.pstatp.com/large/pgc-image/88c09915276e4053a3f6c9caa147ac5a

用户在使用数据时,可以首先查看其元数据以便能够获取自己所需的信息。Yonghong BI提供了获取元数据、展示和管理元数据的界面,方便用户进行元数据的查看和管理。当通过Yonghong BI访问数据库中的数据、大数据平台中的数据或文本文件、Excel文件中的数据后,你需要做的,只是简单一步:点击“刷新元数据”来获取元数据。如果数据库中元数据有变化,比如列名、列别名、列类型等有变化,可以点击“刷新元数据”来获取新的元数据。元数据界面如下:http://p3.pstatp.com/large/pgc-image/5c2632095bd340548c6d049df28a6a38

Yonghong BI提供强大的元数据管理功能,这里我再引申一下,初步讲讲Yonghong BI里的元数据管理。用户可以在元数据区域对数据列进行默认属性设置、数据权限设置、数据治理、数据查看、数据解释等一系列可视化的动作,通过所见即所得的可视化方式帮助用户有效了解和管理元数据。1、视觉提示Yonghong BI里通过不同的Icon提示不同的信息。http://p1.pstatp.com/large/pgc-image/73043fd97c8e47ba88668fd22cad8313

2、维度和度量Yonghong BI会根据数据类型和数据含义等因素,自动的将列分成维度和度量。大多数情况下,维度是离散的,而度量是连续的。度量通常是指标,即数字数据,例如“利润”。维度通常是类别字段,例如“市场”和“地区”。所以数据类型为文本、布尔、日期时间,默认为维度;数据类型为数值,默认为度量。当然某些表达式,虽然是数值类型的,但它的数据已经离散化了,比如日期表达式的年和数据范围字段,我们也为认为是维度(这也是Yonghong BI简单易用的一方面,了解你的业务,想你之所想)。维度以其本身形态显示在视图上,度量以聚合形式显示在视图上,如:http://p3.pstatp.com/large/pgc-image/aafa3f8154304e2ea7b0a0ae1b703bc9

维度和度量可以调整,即可以将维度转为度量,和将度量转为维度。3、别名和列备注别名处可以获取数据库里定义好的别名,也可以自定义别名。可以对每一列加相应的备注信息,以对此元数据做更多的描述。http://p3.pstatp.com/large/pgc-image/db5eb9f2d8514c9c91c703538dbc4195

在可视化端进行数据绑定时,即可显示列的备注信息:http://p9.pstatp.com/large/pgc-image/196e30ff733446d7bc7e07d51befef1e

4、数据类型显示数据类型,对于Excel和文本类型的数据集,可以修改数据类型。5、列属性可以定义好数据的显示格式和对数据应用脱敏规则,可视化端在视图上会自动应用这些格式和规则。6、可见性可以显示和隐藏数据列。7、列级权限可以按组、用户、角色设置列的权限,控制哪些用户对此列可见,哪些用户对此列不可见。8、分层数据可以新建层次,将不同维度数据列拖入层次里,比如将省、市、县三个数据列拖入层次,在可视化视图层,可以通过下钻,上钻等操作查看不同层次的数据。9、分组数据列将一系列数据列放入某个文件夹中进行管理,方便管理元数据,利于可视化层的用户去绑定数据。10、调整数据列顺序默认情况下是按照拼音顺序排的,可以按需调整列的顺序。更多的数据治理在元数据管理界面可以对数据进行一系列数据查看、清洗和治理操作。•转换为维度列•转换为度量列•新建分析算法•新建层次•新建日期层次•新建表达式•新建日期表达式•新建数据范围•新建数据分组•拆分数据列•缺失数据填充•去除数据空格•值映射•转换为数字列•转换为日期列•查看数据特征值•预览数据看到这里,关于元数据,大家都了解了吗?你理解的元数据又是什么呢?欢迎大家在后台留言与我们互动。更多的数据治理功能介绍,我们后续还会更新,敬请期待。

火将军 发表于 2024-2-19 20:13:25

{:4_112:}
页: [1]
查看完整版本: 教程分享 | 手把手教你搞定元数据