找文章 / 找答案
精选问答 更多内容

关于增量导入数据方式,日切片数据清理方案

美滋滋白银二 显示全部楼层 发表于 2020-8-10 09:13:50 |阅读模式 打印 上一主题 下一主题
作为新人在论坛中也摸爬滚打了有些日子,今天在尝试增量导入本地数据集市时,发现了一些心得,分享给大家。
首先,日增量导入数据的方案可以看下记链接
http://club.yonghongtech.com/forum.php?mod=viewthread&fid=44&tid=1509&highlight=%E5%A2%9E%E9%87%8F
通过以上方式,我成功的完成了对数据集的日增量导入。
具体步骤可以分为以下3个步骤:
1.首先建立一个增量不追加的任务,将初始数据导入本地数据集市
2.修改数据集抽取逻辑,增加日抽取条件,每天只抽取当天新增数据,
3.建立增量且追加的任务,达到每天增量导入当天的数据。

此方式会在本地每日生成日切片增量数据文件,这样下来日积月累文件也会随之增多。随着文件的增多,也势必会影响数据集市数据集提取数据的效率。

针对此问题,我提出了一个解决方案。方案如下:
假如我们想要针对数据集A进行增量数据导入,A表的抽取逻辑为 SELECT * FROM A
具体步骤:
1.根据上记链接地址,首先建立一个增量不追加的定时任务,然后进行数据初始化导入,该任务定时时间为预期想定的自动维护频率,比如每月,每年或其他。
2.新增一个数据集B,SQL抽取逻辑同数据集A,同时修改抽取逻辑,增加日抽取条件,每天只抽取当天新增数据。
3.用数据集B建立增量且追加的任务,达到每天增量导入当天的数据。
   以上两个任务需要指定相同的文件夹。

通过以上几步设置后,由于第一步增量且不追加的任务模式会将本地数据集市文件夹中的文件进行全部删除后重新生成最初的初始文件。通过此机制来完成
定期维护日切片增量数据的目的。


回复

使用道具 举报

精彩评论2

BoJie青铜四 显示全部楼层 发表于 2020-8-10 19:27:39
给你点个赞!么么么哒!
回复 支持 反对

使用道具 举报

翻滚吧巨人铂金四 显示全部楼层 发表于 2020-8-10 19:49:15
回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |《永洪社区协议》
返回顶部