永洪社区

标题: 我们在数据采集时直接分组求和,这种做法是不是错的? [打印本页]

作者: Orcish    时间: 2022-3-15 17:46
标题: 我们在数据采集时直接分组求和,这种做法是不是错的?
我们公司采购了Oracle和MongoDB两种数据源采集方式,现在我有些数据采集的疑惑:
现在我们有很多调度任务,这些调度任务每天执行一次,都是追加的方式。
用js脚本生成1个带日期的文件名,数据集就叫这个文件名。
这样每一天都会有若干个文件(就是你们的数据集),放在同一个目录(就是你们的集市)。
当然我们的调度任务是直接在MongoDB里面汇总统计,group by和sum,然后经过MongoDB的这一步离线计算,数据量级大幅减少,然后才进入到BI的Hive表里面。
最后我们的使用者在使用的时候,通过各种维度、度量的拖动,相当于实时的Map-Reduce是吧,毕竟数据量级已经大幅减少,从100亿到8000万了。
然后我的疑问是,我们就不能直接把数据原封不动的弄到Hive表里面吗,然后用BI这套Hadoop直接离线计算,这种列式的数据库不是比Oracle或者MongoDB快的多?

作者: yanieye    时间: 2022-3-15 17:46
目前的这种使用方式应该是效率最好的一种方式。
1. 每天追加的是汇总后的数据,虽然追加时需要有一些计算时间,但是这个部分的消耗是每天1次的。 如果是全部明细数据的话,相当于每次计算都需要基于一个100倍以上的数据,这样每次计算的资源消耗会更高。
2. 为了保存这些业务数据,Mongo会有对应的配置要求,但是集市这一侧是按照当前的工作模式进行的资源配置,如果要满足100亿的数据量的实时计算,集市部门的资源消耗会远超当前水平,也会有更高的配置要求。
作者: Fiona    时间: 2022-3-15 18:03
没太明白您整个公司的一个数据处理逻辑,我顺一下啊:
1. 数据集查询oracle的数据,并用了永洪的数据集市,通过调度任务每天追加入集市,并通过数据集市数据集访问数据,报表绑定集市数据集,进行分析?
2. 通过调度任务将Mongo数据集的数据导出到Hive,接着直连Hive,通过永洪数据集,进行分析?
作者: Orcish    时间: 2022-3-16 09:48
数据集查询Mongo的数据,并用了永洪的数据集市,通过调度任务每天追加入集市,并通过数据集市数据集访问数据,报表绑定集市数据集,进行分析。
作者: Wang315    时间: 2022-3-16 14:55
您好,您可以在帮助中心搜下相应内容 https://www.yonghongtech.com/help/Z-Suite/9.4/ch/  您的问题正在查看,稍后给您答复。
作者: Fiona    时间: 2022-3-16 15:29
Orcish 发表于 2022-3-16 09:48
数据集查询Mongo的数据,并用了永洪的数据集市,通过调度任务每天追加入集市,并通过数据集市数据集访问数 ...

这个过程很正常,没有问题呢。每天追加入集市,每天追加的数据量大概有多少行?
作者: Orcish    时间: 2022-3-16 17:47
每天追加的大约15万行
作者: Orcish    时间: 2022-3-18 13:49
明白了,我们是1个CNR,3个M,看来是最初资源就不够,所以才采用的这种实施方式。




欢迎光临 永洪社区 (https://club.yonghongtech.com/) Powered by Discuz! X3.4