永洪社区

标题: 通过自服务数据集操作两个数据集市,生成报告,保存警告 [打印本页]

作者: ZhangNX    时间: 2022-1-11 16:46
标题: 通过自服务数据集操作两个数据集市,生成报告,保存警告
因为是跨DB取得数据所以做了两个数据集市,在通过自服务数据集经过连接和汇总等操作得到自己想要的数据,但是在保存生成的报告时有下面警告,请问大家怎么解决


作者: _贝贝    时间: 2022-1-11 17:02
没有看到您当前的图片呢,可以重新上传下吗
作者: ZhangNX    时间: 2022-1-11 17:14
图片被吃了  重新传下 发现在自服务数据集时就有了


作者: _贝贝    时间: 2022-1-11 18:19
可以看下这个帖子
https://club.yonghongtech.com/fo ... amp;extra=#pid35656
作者: ZhangNX    时间: 2022-1-11 18:51
永洪tech-Muse 发表于 2022-1-11 18:19
可以看下这个帖子
https://club.yonghongtech.com/forum.php?mod=viewthread&tid=15503&page=1&extra=#pid3 ...

这个回复是有帮助的。但是根据这个回复,难道我在Map side join数据集时需要先把数据集放在新建的自服务数据集或者组合数据集中才可以实现join的操作么?其次,我的版本是9.2.2是支持两个大表的Map side join 的,我是在将组合数据中的子数据集入集市的过程中出现了问题,我已经将两个大表的关联条件加入了切片列,是否需要将聚合的条件也勾选上切片列呢?
作者: 环环    时间: 2022-1-11 19:20
本帖最后由 永洪tech-秀秀 于 2022-1-11 19:59 编辑

就是在组合的时候,如果集市文件满足条件就可以做Map-side join。可以参与join的两个子数据集需要保证联接条件中选择的联接列都经过分片,且在入集市时勾选的分片列都要做为联接条件。
作者: ZhangNX    时间: 2022-1-11 19:46
永洪tech-秀秀 发表于 2022-1-11 19:20
入集市和做组合的先后顺序,建议是先组合再入集市,这样就可以直接读取集市数据做计算。否则需要先读取集市 ...

我是两个不同源的数据集组合,也是先组合再入集市么,是否需要勾选join结果加速。其次性能测试提示问题是因为我的做法会影响速度才发出的,不是错误导致不能运行是么?
作者: 环环    时间: 2022-1-11 19:53
本帖最后由 永洪tech-秀秀 于 2022-1-11 20:00 编辑

可以看下这篇文章,如果是两个大表要组合,在入集市时勾上分片列,做组合时才能做Map side join。那个是性能检测,可以运行,只是不能做Map Side Join ,运行起来会比较慢
https://mp.weixin.qq.com/s?__biz ... 6935c1&platform=win
作者: ZhangNX    时间: 2022-1-11 20:13
永洪tech-秀秀 发表于 2022-1-11 19:53
可以看下这篇文章,如果是两个大表要组合,在入集市时勾上分片列,做组合时才能做Map side join。
可以参与 ...

抱歉我的描述可能有些模糊,问题是两个不同源的数据集,其中每个数据集都是单表查询,我需要对这两个数据集进行组合时,应该怎么做呢?
作者: 环环    时间: 2022-1-11 20:31
如果是不同源的只有通过组合数据集,两个单表的数据量大概是多少呢。如果数据量大尽量走Map Side Join,前提是如果是大表join大表入集市时要用分片列,如果是大表join小表用事实表——维度表,然后在用集市数据集做组合。
作者: ZhangNX    时间: 2022-1-11 20:38
永洪tech-秀秀 发表于 2022-1-11 20:31
如果是不同源的只有通过组合数据集,两个单表的数据量大概是多少呢。如果数据量大尽量走Map Side Join,前 ...

目前两个表都是百万级的数据量。关键是两个跨库的单表查询,应该没办法走您说的Map side join或事实表-维度表吧
作者: 环环    时间: 2022-1-11 21:11
可以,都是在内存计算不影响




欢迎光临 永洪社区 (http://club.yonghongtech.com/) Powered by Discuz! X3.4