永洪社区

标题: 创建数据集市后速度还是很慢,有其他优化方案吗 [打印本页]

作者: yh_xishan    时间: 2022-3-17 15:35
标题: 创建数据集市后速度还是很慢,有其他优化方案吗


作者: 永洪tech-shane    时间: 2022-3-17 15:35
yh_xishan 发表于 2022-3-18 17:59
不需要了,还想咨询一下,像这种数据量非常大的时候,用那种方式访问是最优解呢,维度也比较多,打标签还 ...

您好,数据量非常大的时候,建议您叠加使用这些方式。在增加节点的情况下(M节点的计算压力会会分摊),首先通过打标签、分割、过滤减少增量入集市的数据行数减少入集市的时间,其次数据集市数据集上通过增加文件过滤(标签值、分割文件)、具体列的值过滤(如时间筛选),精确您需要查询的数据,这么会大大缩短查询时间。
作者: yh_xishan    时间: 2022-3-17 15:38
数据量大概在一个亿左右,如果选择标签则一直提示i/o错误,只能单纯增量导入然后什么也不选,数据集同步的也很慢,报表展示也很慢
作者: 永洪tech-shane    时间: 2022-3-17 15:43
您好,就该问题,请反馈一下目前在使用的永洪版本号(从登录页下方或者个性化设置可查看)。并且如果目前日志可以正常下载,麻烦提供一下出现问题这段时间的日志(从管理系统->日志管理里下载日志,选择起始时间和时间跨度,请一定要包含出现问题这段时间的日志),我们本地分析一下,谢谢~

作者: yh_xishan    时间: 2022-3-17 16:00
本帖最后由 yh_xishan 于 2022-3-18 16:12 编辑

版本为865b
作者: yh_xishan    时间: 2022-3-17 16:00
永洪科技-黄旭东 发表于 2022-3-17 15:43
您好,就该问题,请反馈一下目前在使用的永洪版本号(从登录页下方或者个性化设置可查看)。并且如果目前 ...

版本为865b
作者: 永洪tech-shane    时间: 2022-3-17 16:11
yh_xishan 发表于 2022-3-17 16:00
版本为865b

您好,该日志文件已经损坏,麻烦重新上传一下
作者: yh_xishan    时间: 2022-3-17 16:16
本帖最后由 yh_xishan 于 2022-3-18 16:11 编辑

111
作者: yh_xishan    时间: 2022-3-17 16:16
永洪科技-黄旭东 发表于 2022-3-17 16:11
您好,该日志文件已经损坏,麻烦重新上传一下

已上传

作者: 永洪tech-shane    时间: 2022-3-17 16:33
您好,从日志看“如果选择标签则一直提示i/o错误”是因为执行的sql过长导致超时失败,建议您使用分割功能,如图,可以选择你需要的列进行分割。
并且鉴于数据量非常大,建议您可以集市数据集上加文件/标签过滤、集市数据集上控制查询行数;以及增加节点个数、入集市分割集市文件等方式,都能提升数据集市查询的速度。

作者: yh_xishan    时间: 2022-3-18 08:31
永洪科技-黄旭东 发表于 2022-3-17 16:33
您好,从日志看“如果选择标签则一直提示i/o错误”是因为执行的sql过长导致超时失败,建议您使用分割功能, ...

使用此功能依旧提示io错误,但是不加任何处理的同步数据集或增量导入数据是可以跑的,还有其他办法吗
作者: 永洪tech-shane    时间: 2022-3-18 09:47
yh_xishan 发表于 2022-3-18 08:31
使用此功能依旧提示io错误,但是不加任何处理的同步数据集或增量导入数据是可以跑的,还有其他办法吗 ...

您好, 需要再分析一下,预计需要一段时间,请您耐心等待。
作者: 永洪tech-shane    时间: 2022-3-18 09:51
yh_xishan 发表于 2022-3-18 08:31
使用此功能依旧提示io错误,但是不加任何处理的同步数据集或增量导入数据是可以跑的,还有其他办法吗 ...

您好,烦请再提供一下重新执行调度任务job的任务名称、执行时间和执行时间段的日志。谢谢
作者: yh_xishan    时间: 2022-3-18 10:55
永洪科技-黄旭东 发表于 2022-3-18 09:51
您好,烦请再提供一下重新执行调度任务job的任务名称、执行时间和执行时间段的日志。谢谢 ...

增加分割以后在执行吗
作者: 永洪tech-shane    时间: 2022-3-18 11:46
yh_xishan 发表于 2022-3-18 10:55
增加分割以后在执行吗

是的,增加分割,就不需要勾选加标签
作者: 永洪tech-shane    时间: 2022-3-18 13:23
本帖最后由 永洪科技-黄旭东 于 2022-3-18 16:18 编辑
yh_xishan 发表于 2022-3-18 08:31
使用此功能依旧提示io错误,但是不加任何处理的同步数据集或增量导入数据是可以跑的,还有其他办法吗 ...

您好,这边日志分析到您产品中数据库配置的socketTimeout为180,如图,可以调大后重新执行入集市调度任务试下。

作者: yh_xishan    时间: 2022-3-18 16:13
永洪科技-黄旭东 发表于 2022-3-18 13:23
您好,这边日志分析到您产品中数据库配置的socketTimeout为180,如图,可以调大后重新执行入集市调度任务 ...

好的,麻烦吧截图删掉
作者: 永洪tech-shane    时间: 2022-3-18 16:19
yh_xishan 发表于 2022-3-18 16:13
好的,麻烦吧截图删掉

好的 非常抱歉 已经删除 那需要我单独发给您么
作者: yh_xishan    时间: 2022-3-18 17:59
永洪科技-黄旭东 发表于 2022-3-18 16:19
好的 非常抱歉 已经删除 那需要我单独发给您么

不需要了,还想咨询一下,像这种数据量非常大的时候,用那种方式访问是最优解呢,维度也比较多,打标签还是分列还是节点还是其他的形式呢
作者: Fiona    时间: 2022-3-18 19:04
您参考一下这部分内容先,https://www.yonghongtech.com/hel ... dataextraction.html




欢迎光临 永洪社区 (https://club.yonghongtech.com/) Powered by Discuz! X3.4