[数据处理] 我们在数据采集时直接分组求和,这种做法是不是错的?

Orcish青铜一 显示全部楼层 发表于 2022-3-15 17:46:05 |阅读模式 打印 上一主题 下一主题
我们公司采购了Oracle和MongoDB两种数据源采集方式,现在我有些数据采集的疑惑:
现在我们有很多调度任务,这些调度任务每天执行一次,都是追加的方式。
用js脚本生成1个带日期的文件名,数据集就叫这个文件名。
这样每一天都会有若干个文件(就是你们的数据集),放在同一个目录(就是你们的集市)。
当然我们的调度任务是直接在MongoDB里面汇总统计,group by和sum,然后经过MongoDB的这一步离线计算,数据量级大幅减少,然后才进入到BI的Hive表里面。
最后我们的使用者在使用的时候,通过各种维度、度量的拖动,相当于实时的Map-Reduce是吧,毕竟数据量级已经大幅减少,从100亿到8000万了。
然后我的疑问是,我们就不能直接把数据原封不动的弄到Hive表里面吗,然后用BI这套Hadoop直接离线计算,这种列式的数据库不是比Oracle或者MongoDB快的多?

最佳答案

永洪vip
yanieye 关注Ta

2022-03-15 17:46:06

目前的这种使用方式应该是效率最好的一种方式。 1. 每天追加的是汇总后的数据,虽然追加时需要有一些计算时间,但是这个部分的消耗是每天1次的。 如果是全部明细数据的话,相当于每次计算都需要基于一个100倍以上的数据,这样每次计算的资源消耗会更高。 2. 为了保存这些业务数据,Mongo会有对应的配置要求,但是集市这一侧是按照当前的工作模式进行的资源配置,如果要满足100亿的数据量的实时计算,集市部门的资源消耗会远超当前 ...
查看完整内容
回复

使用道具 举报

精彩评论7

yanieye 显示全部楼层 发表于 2022-3-15 17:46:06
目前的这种使用方式应该是效率最好的一种方式。
1. 每天追加的是汇总后的数据,虽然追加时需要有一些计算时间,但是这个部分的消耗是每天1次的。 如果是全部明细数据的话,相当于每次计算都需要基于一个100倍以上的数据,这样每次计算的资源消耗会更高。
2. 为了保存这些业务数据,Mongo会有对应的配置要求,但是集市这一侧是按照当前的工作模式进行的资源配置,如果要满足100亿的数据量的实时计算,集市部门的资源消耗会远超当前水平,也会有更高的配置要求。
回复

使用道具 举报

Fiona 显示全部楼层 发表于 2022-3-15 18:03:21
没太明白您整个公司的一个数据处理逻辑,我顺一下啊:
1. 数据集查询oracle的数据,并用了永洪的数据集市,通过调度任务每天追加入集市,并通过数据集市数据集访问数据,报表绑定集市数据集,进行分析?
2. 通过调度任务将Mongo数据集的数据导出到Hive,接着直连Hive,通过永洪数据集,进行分析?
回复

使用道具 举报

Orcish青铜一 显示全部楼层 发表于 2022-3-16 09:48:30
数据集查询Mongo的数据,并用了永洪的数据集市,通过调度任务每天追加入集市,并通过数据集市数据集访问数据,报表绑定集市数据集,进行分析。
回复

使用道具 举报

Wang315铂金四 显示全部楼层 发表于 2022-3-16 14:55:08
您好,您可以在帮助中心搜下相应内容 https://www.yonghongtech.com/help/Z-Suite/9.4/ch/  您的问题正在查看,稍后给您答复。
回复

使用道具 举报

Fiona 显示全部楼层 发表于 2022-3-16 15:29:14
Orcish 发表于 2022-3-16 09:48
数据集查询Mongo的数据,并用了永洪的数据集市,通过调度任务每天追加入集市,并通过数据集市数据集访问数 ...

这个过程很正常,没有问题呢。每天追加入集市,每天追加的数据量大概有多少行?
回复

使用道具 举报

Orcish青铜一 显示全部楼层 发表于 2022-3-16 17:47:52
每天追加的大约15万行
回复

使用道具 举报

Orcish青铜一 显示全部楼层 发表于 2022-3-18 13:49:48
明白了,我们是1个CNR,3个M,看来是最初资源就不够,所以才采用的这种实施方式。
回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |联系社区管理员|《永洪社区协议》
返回顶部