永洪社区

标题: 我们在数据采集时直接分组求和，这种做法是不是错的？ [打印本页]

作者: Orcish 时间: 2022-3-15 17:46
标题: 我们在数据采集时直接分组求和，这种做法是不是错的？
我们公司采购了Oracle和MongoDB两种数据源采集方式，现在我有些数据采集的疑惑：
现在我们有很多调度任务，这些调度任务每天执行一次，都是追加的方式。
用js脚本生成1个带日期的文件名，数据集就叫这个文件名。
这样每一天都会有若干个文件（就是你们的数据集），放在同一个目录（就是你们的集市）。
当然我们的调度任务是直接在MongoDB里面汇总统计，group by和sum，然后经过MongoDB的这一步离线计算，数据量级大幅减少，然后才进入到BI的Hive表里面。
最后我们的使用者在使用的时候，通过各种维度、度量的拖动，相当于实时的Map-Reduce是吧，毕竟数据量级已经大幅减少，从100亿到8000万了。
然后我的疑问是，我们就不能直接把数据原封不动的弄到Hive表里面吗，然后用BI这套Hadoop直接离线计算，这种列式的数据库不是比Oracle或者MongoDB快的多？

作者: yanieye 时间: 2022-3-15 17:46
目前的这种使用方式应该是效率最好的一种方式。
1. 每天追加的是汇总后的数据，虽然追加时需要有一些计算时间，但是这个部分的消耗是每天1次的。如果是全部明细数据的话，相当于每次计算都需要基于一个100倍以上的数据，这样每次计算的资源消耗会更高。
2. 为了保存这些业务数据，Mongo会有对应的配置要求，但是集市这一侧是按照当前的工作模式进行的资源配置，如果要满足100亿的数据量的实时计算，集市部门的资源消耗会远超当前水平，也会有更高的配置要求。

作者: Fiona 时间: 2022-3-15 18:03
没太明白您整个公司的一个数据处理逻辑，我顺一下啊：
1. 数据集查询oracle的数据，并用了永洪的数据集市，通过调度任务每天追加入集市，并通过数据集市数据集访问数据，报表绑定集市数据集，进行分析？
2. 通过调度任务将Mongo数据集的数据导出到Hive，接着直连Hive，通过永洪数据集，进行分析？

作者: Orcish 时间: 2022-3-16 09:48
数据集查询Mongo的数据，并用了永洪的数据集市，通过调度任务每天追加入集市，并通过数据集市数据集访问数据，报表绑定集市数据集，进行分析。

作者: Wang315 时间: 2022-3-16 14:55
您好，您可以在帮助中心搜下相应内容 https://www.yonghongtech.com/help/Z-Suite/9.4/ch/ 您的问题正在查看，稍后给您答复。

作者: Fiona 时间: 2022-3-16 15:29

Orcish 发表于 2022-3-16 09:48
数据集查询Mongo的数据，并用了永洪的数据集市，通过调度任务每天追加入集市，并通过数据集市数据集访问数 ...

这个过程很正常，没有问题呢。每天追加入集市，每天追加的数据量大概有多少行？

作者: Orcish 时间: 2022-3-16 17:47
每天追加的大约15万行

作者: Orcish 时间: 2022-3-18 13:49
明白了，我们是1个CNR，3个M，看来是最初资源就不够，所以才采用的这种实施方式。

欢迎光临永洪社区 (https://club.yonghongtech.com/)