永洪BI 不支持复杂的数据清洗吗

yumissyou钻石一 显示全部楼层 发表于 2021-9-2 18:04:01 |阅读模式 打印 上一主题 下一主题
1
已解决

永洪BI 不支持复杂的数据清洗吗

4843 12
有一份产品销售数据,需要根据月份动态累加计算额占比.  
产品 月份  销售
  a      1       10
  b      1       15
  a      2        12
  b      2        16

  a      3        18
  b      3        20


如果我一月份来来看
产品 月份  销售   产品累计销额      市场总销额
  a      1       10       10                       25
  b      1       15       15                     25



二月份来来看,对每个产品就是前面月份的累计
产品 月份  销售   产品累计销额      市场总销额
  a      1       10           22                 53
  b      1       15          31                  53
  a      2       12           22                  53
  b      2       16           31                   53



然后再通过选择的数据找到相关的均价线. 因为这个线是每个月份变化的, 如果通过sql数据集只能计算到某一个月的,没法动态随着月份去变动.
等于没选择一个月 ,就要进行一次相关的清洗计算.  永洪是不是没有数据清洗功能,只有一些简单的聚合连接相关的.

最佳答案

_贝贝 白银二 关注Ta

2021-09-02 18:04:02

https://club.yonghongtech.com/forum.php?mod=viewthread&tid=8219&extra=&highlight=python&page=2
查看完整内容
回复

使用道具 举报

精彩评论12

_贝贝白银二 显示全部楼层 发表于 2021-9-2 18:04:02
回复

使用道具 举报

yumissyou钻石一 显示全部楼层 发表于 2021-9-2 18:17:59
也就是说在sql取了数据之后, 在进行一些复杂的比如说比较判断,过滤,增加列等操作,似乎无法实现
回复

使用道具 举报

_贝贝白银二 显示全部楼层 发表于 2021-9-2 18:38:28
目前本产品比较完全的处理功能基于自服务数据集,可以参考下是否满足。
https://club.yonghongtech.com/fo ... 0%E6%8D%AE%E9%9B%86


自服务数据集一、自服务数据集概述自服务数据集提供强大,便捷的数据准备和整合方式。无论是 IT 人员,还是业务人员,都可以通过节点之间相连将数据进行整合,清洗,做好完善的数据准备工作。
用户可通过添加数据节点的方式,将来自不同类型的数据集数据作为输入节点,例如 Excel 数据集,内嵌数据集,SQL 数据集 , Script 数据集 ,Mongo 等各种任意数据集。在输入节点之后接入各种联接和转换节点,各个节点之间可以任意组合和编辑,最后连线数据集结果节点,就可以完成数据的准备工作。
二、自服务数据集的形式通过以可视化的工作流方式,对数据进行轻度建模与转换。在自服务查询中,用户可以直接利用已建好的查询进行建模,同时也可以将外部多种数据源直接引入进行数据建模及转换。
永洪BI中自服务数据集查询的样式见【图1】

三、创建自服务数据集永洪BI提供对数据进行分组与汇总、逆透视表转化等转变数据结构的功能,同时提供数据转换功能如:值映射、去除空格、去除重复记录、缺失值替换、拆分列为多列、创建组。
在自服务数据集中,通过添加不同类型的节点,并且添加连线做数据处理。节点主要分为输入节点和中间节点(关联,转换节点),数据集结果节点。可以通过拖拽的方式将节点添加到自服务的空白画布区域。

3.1 输入节点输入节点的右键菜单有:打开,重命名,显示所有列,隐藏所有列,复制,删除,刷新。节点刷新可以更新数据。
输入节点可以直接从左边的数据集资源树上“ 数据 ”区域拖拽,可拖拽的类型主要分为三种:
1)普通数据集。
2)数据源里的表或视图。
3)新建数据节点。
输入节点只能连接一个输出节点,但镜像节点除外。
3.1.1普通数据集普通数据集:添加到画布上面的数据集类节点可以通过双击打开节点查看节点详细信息。注:不支持组合数据集。
3.1.2 数据源里的表或视图数据源里的表或视图:支持多维数据源类型,满足用户对使用不同数据源的需求。
3.1.3 新建数据节点新建数据节点:连接数据库表,导入Excel数据,创建内嵌数据,这是自服务独有的创建数据的方式,方便快捷。
3.1.3.1 连接数据库表在左侧的数据集资源树上,选择新建数据节点 > 连接数据库表,拖拽连接数据表到右侧画布空白处,会弹出如同 SQL 数据集一样的界面。如下图所示,选择 MYSQL 数据库,设置好连接属性,在选择 “ 表 ” 的区域,选择一张数据表 或者 视图,例如 表 salse,选择保存并应用到指定位置,保存名称为 mysql_tree, 如下图所示。



在数据集资源树上数据源文件夹下会生成名称为 mysql_tree 数据源 , 自服务画布上面也会添加一个节点 , 节点名称与选择的表一致 。

3.1.3.2 导入Excel数据在左侧的数据集资源树上,选择新建数据节点 > 拖拽导入 Excel 数据到画布区域,上传 Excel、CSV、TXT 或 LOG 文件,保存并应用。数据集资源树上对应的位置会生成相应的 Excel 数据集,自服务画布上面也会生成 Excel 数据集节点,节点名称与资源树上数据集名称一致。如下图所示 :

3.1.3.3 创建内嵌数据在左侧的数据集资源树上,选择新建数据节点 > 拖拽创建内嵌数据到画布区域,设置好数据之后,保存并应用。在左侧的数据集资源树上对应的位置会生成一个对应的内嵌数据集,自服务画布上面会生成对应内嵌数据集节点,节点名称与资源树上数据集名称一致。


3.2 关联&转换节点关联和转换节点的右键菜单包含,编辑节点,重命名,删除,刷新(镜像节点除外,镜像节点右键菜单没有编辑节点选项)。关联、转换节点第一次连接其输入节点时会自动弹出编辑框。
3.2.1 关联节点关联节点分为联接和联合节点。通过关联节点,可将多张不同的表,组合成为一张表。关联节点可以连接多个输入节点。
3.2.2 转换节点转换节点分为抽样,排序,透视表,逆透视表,分组和汇总,自循环列,镜像,去重。通过转换节点,可对表中的数据进行相应的处理。
3.2.2.1 抽样抽样是抽取前N行数据,原始数据行数如下图:


连接抽样节点,且设置抽样行数为20:


抽样后数据如下图:



3.2.2.2 排序排序就是对数据进行升序、降序的排列。在排序节点的编辑框内可设置列的排序类型,如下图数据:

排序结果如下:


3.2.2.3 透视表透视表是一种行转列的数据处理方式,只需选择需要转换的字段,就可以轻松将行转换为列。
如下图数据:

在透视表节点中,有三个列属性设置,保留列、转换列、值列。如下图所示,添加姓名为保留列,添加科目为转换列,添加成绩为值列。

【数据列】输入节点中所有的可见列。
【保留列】数据保持不变的列。
【转换列】需要从一维转为多维的列。
【值列】转换后对应的值。
经过透视表处理的数据如下所示,转换列科目会从一维数据转为多维显示:


3.2.3.4 逆透视表逆透视表节点是将多维转为一维的一种数据处理操作。这是一个多维的数据,如下图所示:


在逆透视节点中,有 2 个列属性设置,保留列和转换列。如下图:

【数据列】输入节点中所有的可见列。
【保留列】数据保持不变的列。
【转换列】需要从多维转为一维的列。
经过逆透视处理的数据如下所示,转换列数学,语文,英语会从多维数据转为一维显示:


3.2.3.5 分组和汇总分组和汇总是将数据根据分组列做聚合运算。如下图所示,设置分组列为【市场分布】,汇总列为【利润】。

【数据列】输入节点中所有的可见列。
【分组列】分组的依据列,可以拖拽左侧列到分组列,分组列可以为空。
【汇总列】需要做汇总的列,可以拖拽左侧列到聚合列,聚合列可以为空。
【类型】聚合函数的类型。
计算结果如下图所示:

3.2.3.6 自循环列自循环列就是根据设置自动分出层级关系的列,每个数据集只能创建一个自循环列。一般来说拥有层级关系的 ID 有两种存储方式:ID 长度不一致,ID 长度一致。在本产品中规定,如果想保持 ID 长度一致就必须用 0 补位。
例如:
  • 新建自服务数据集,用普通数据集作为一个输入节点,输入节点如下:



  • 在输入节点后面连接一个自循环列节点,在自循环列编辑菜单中,根据一列数据分层,层级长度为1,设置如下图:

【设置】选择分层列数:根据一列数据分层或者根据两列数据分层。
【层级长度】ID 中多少位代表一个层级。
【ID& 父 ID】父 ID 是 ID 的上一级 ID ;这里只显示度量列。当选择根据一列分层时,就根据层级长度和 ID 对应的列分层;当选择根据两列分层时,就根据 ID 和父 ID 分层。
【分层列】被分层的列。
  • 点击确定,新建出来的自循环列是一个层次列,由于是中间节点,层次列都没有生成文件夹,如图:

3.2.3.7 镜像通过连线镜像节点,任意节点可以被复制一个或多个,源节点改变,镜像跟着改变。

3.2.3.8 去重通过连线的方式,去重节点可以把连线节点的重复记录去掉。
1.新建自服务数据集,添加一个输入节点,输入节点的原始数据如下图所示:

  • 连接去重节点之后重复记录被去掉。如下图:


3.3 数据集结果节点数据集结果节点是所有节点数据处理的终结点,数据集结果节点只能有一个输入。
回复

使用道具 举报

yumissyou钻石一 显示全部楼层 发表于 2021-9-3 09:46:39
永洪tech-zxx 发表于 2021-9-2 18:38
目前本产品比较完全的处理功能基于自服务数据集,可以参考下是否满足。
https://club.yonghongtech.com/fo  ...

和我的需求感觉还是不一样.  想要的是能自己进行的一些数据清洗工作,  比如我想进行窗口函数操作,需要计算累计的一个占比.   似乎满足不了
回复

使用道具 举报

_贝贝白银二 显示全部楼层 发表于 2021-9-3 10:12:02
好的吧,数据集不支持计算累计占比相关的操作,因为数据集展示的数据本身是一个明细表,不支持做聚合,
回复

使用道具 举报

yumissyou钻石一 显示全部楼层 发表于 2021-9-6 09:42:30
永洪tech-zxx 发表于 2021-9-3 10:12
好的吧,数据集不支持计算累计占比相关的操作,因为数据集展示的数据本身是一个明细表,不支持做聚合, ...

是否支持一些自定义的前端图表组件导入呢. 比如和echarts的配合使用;
回复

使用道具 举报

yumissyou钻石一 显示全部楼层 发表于 2021-9-6 09:43:48
永洪tech-zxx 发表于 2021-9-3 10:12
好的吧,数据集不支持计算累计占比相关的操作,因为数据集展示的数据本身是一个明细表,不支持做聚合, ...

还有就是Python和R语言的调用, 是需要连接本地的Python程序吗.   想用Python完成一些数据的清洗工作
回复

使用道具 举报

_贝贝白银二 显示全部楼层 发表于 2021-9-6 10:03:22
yumissyou 发表于 2021-9-6 09:42
是否支持一些自定义的前端图表组件导入呢. 比如和echarts的配合使用;

echarts或者其他图表部署在永洪都是需要走定制,需要和商务沟通后才能部署在我们环境中
回复

使用道具 举报

_贝贝白银二 显示全部楼层 发表于 2021-9-6 10:03:46
yumissyou 发表于 2021-9-6 09:43
还有就是Python和R语言的调用, 是需要连接本地的Python程序吗.   想用Python完成一些数据的清洗工作 ...

R语言本机安装,python环境需要我们的DM部署包
回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |联系社区管理员|《永洪社区协议》
返回顶部