数据分析的第一步是准备数据,在准备数据的这个环节中,我们必定会碰到元数据这个概念。元数据管理是数据管理中的一个重要方面,但是非业内人士,可能见到“元数据”这三个字,大概表情如下:
作为一个搞IT的我来说,表示很不理解:元数据难道就这么不好理解吗? 于是,我们在公司小范围内发起了一起投票,看看大家对Yonghong BI产品里的“刷新元数据”功能的理解情况。
然而,结果如下:
出乎我的意料,大家似乎对元数据有不同的理解,要知道公司的小伙伴可都是那些来自985和211名校的同学们。一场由“元数据”引发的血案,看来我们有必要来澄清它。 维基百科中的解释:Metadata is "data information that provides information about other data"。 各大中文网站的解释:定义数据的数据。 So,我们可以意会一下,元数据就是用来描述数据属性的信息的,可以引申一下,只要用来描述某个数据的,都可以认为是元数据。 如果数据库表里存储了电视剧的数据,那么以下信息都可以认为是电视剧的元数据。
用户在使用数据时,可以首先查看其元数据以便能够获取自己所需的信息。Yonghong BI提供了获取元数据、展示和管理元数据的界面,方便用户进行元数据的查看和管理。 当通过Yonghong BI访问数据库中的数据、大数据平台中的数据或文本文件、Excel文件中的数据后,你需要做的,只是简单一步:点击“刷新元数据”来获取元数据。如果数据库中元数据有变化,比如列名、列别名、列类型等有变化,可以点击“刷新元数据”来获取新的元数据。元数据界面如下:
Yonghong BI提供强大的元数据管理功能,这里我再引申一下,初步讲讲Yonghong BI里的元数据管理。 用户可以在元数据区域对数据列进行默认属性设置、数据权限设置、数据治理、数据查看、数据解释等一系列可视化的动作,通过所见即所得的可视化方式帮助用户有效了解和管理元数据。 1、视觉提示 Yonghong BI里通过不同的Icon提示不同的信息。
2、维度和度量 Yonghong BI会根据数据类型和数据含义等因素,自动的将列分成维度和度量。大多数情况下,维度是离散的,而度量是连续的。度量通常是指标,即数字数据,例如“利润”。维度通常是类别字段,例如“市场”和“地区”。所以数据类型为文本、布尔、日期时间,默认为维度;数据类型为数值,默认为度量。当然某些表达式,虽然是数值类型的,但它的数据已经离散化了,比如日期表达式的年和数据范围字段,我们也为认为是维度(这也是Yonghong BI简单易用的一方面,了解你的业务,想你之所想 )。维度以其本身形态显示在视图上,度量以聚合形式显示在视图上,如:
维度和度量可以调整,即可以将维度转为度量,和将度量转为维度。 3、别名和列备注 别名处可以获取数据库里定义好的别名,也可以自定义别名。可以对每一列加相应的备注信息,以对此元数据做更多的描述。
在可视化端进行数据绑定时,即可显示列的备注信息:
4、数据类型 显示数据类型,对于Excel和文本类型的数据集,可以修改数据类型。 5、列属性 可以定义好数据的显示格式和对数据应用脱敏规则,可视化端在视图上会自动应用这些格式和规则。 6、可见性 可以显示和隐藏数据列。 7、列级权限 可以按组、用户、角色设置列的权限,控制哪些用户对此列可见,哪些用户对此列不可见。 8、分层数据 可以新建层次,将不同维度数据列拖入层次里,比如将省、市、县三个数据列拖入层次,在可视化视图层,可以通过下钻,上钻等操作查看不同层次的数据。 9、分组数据列 将一系列数据列放入某个文件夹中进行管理,方便管理元数据,利于可视化层的用户去绑定数据。 10、调整数据列顺序 默认情况下是按照拼音顺序排的,可以按需调整列的顺序。 更多的数据治理 在元数据管理界面可以对数据进行一系列数据查看、清洗和治理操作。 •转换为维度列 •转换为度量列 •新建分析算法 •新建层次 •新建日期层次 •新建表达式 •新建日期表达式 •新建数据范围 •新建数据分组 •拆分数据列 •缺失数据填充 •去除数据空格 •值映射 •转换为数字列 •转换为日期列 •查看数据特征值 •预览数据 看到这里,关于元数据,大家都了解了吗?你理解的元数据又是什么呢?欢迎大家在后台留言与我们互动。更多的数据治理功能介绍,我们后续还会更新,敬请期待。
|