永洪社区

标题: 关于增量导入数据方式,日切片数据清理方案 [打印本页]

作者: 美滋滋    时间: 2020-8-10 09:13
标题: 关于增量导入数据方式,日切片数据清理方案
作为新人在论坛中也摸爬滚打了有些日子,今天在尝试增量导入本地数据集市时,发现了一些心得,分享给大家。
首先,日增量导入数据的方案可以看下记链接
http://club.yonghongtech.com/forum.php?mod=viewthread&fid=44&tid=1509&highlight=%E5%A2%9E%E9%87%8F
通过以上方式,我成功的完成了对数据集的日增量导入。
具体步骤可以分为以下3个步骤:
1.首先建立一个增量不追加的任务,将初始数据导入本地数据集市
2.修改数据集抽取逻辑,增加日抽取条件,每天只抽取当天新增数据,
3.建立增量且追加的任务,达到每天增量导入当天的数据。

此方式会在本地每日生成日切片增量数据文件,这样下来日积月累文件也会随之增多。随着文件的增多,也势必会影响数据集市数据集提取数据的效率。

针对此问题,我提出了一个解决方案。方案如下:
假如我们想要针对数据集A进行增量数据导入,A表的抽取逻辑为 SELECT * FROM A
具体步骤:
1.根据上记链接地址,首先建立一个增量不追加的定时任务,然后进行数据初始化导入,该任务定时时间为预期想定的自动维护频率,比如每月,每年或其他。
2.新增一个数据集B,SQL抽取逻辑同数据集A,同时修改抽取逻辑,增加日抽取条件,每天只抽取当天新增数据。
3.用数据集B建立增量且追加的任务,达到每天增量导入当天的数据。
   以上两个任务需要指定相同的文件夹。

通过以上几步设置后,由于第一步增量且不追加的任务模式会将本地数据集市文件夹中的文件进行全部删除后重新生成最初的初始文件。通过此机制来完成
定期维护日切片增量数据的目的。



作者: BoJie    时间: 2020-8-10 19:27
给你点个赞!么么么哒!
作者: 翻滚吧巨人    时间: 2020-8-10 19:49





欢迎光临 永洪社区 (https://club.yonghongtech.com/) Powered by Discuz! X3.4