[数据处理]
<永洪tech>定时同步数据的两种标签方式
在数据量大、实时性要求不高的场景下,通常为了保障客户应用体验,会使用到yonghongMPP功能,但是如果每天去全量同步会同时增大数据库、产品服务器的负荷,因此通常会使用增量同步的方式,将每天的数据或定期数据进行一次同步。为了降低数据库的负荷以及缩短同步的时间,可以进行增量的方式进行同步。 为了对数据文件进行分类,需要在文件上进行打标签,打了之后我们在读取数据的时候,就不需要读取所有的文件,只需要读取有标签过滤后的文件就可以,加快了速度。产品中有两种打标签的方式:
1、File方式的脚本:
2、meta方式分类打标签:
|
|
|
|
|
永洪tech-Jung
显示全部楼层
发表于 2021-12-27 16:26:15
补充一下打meta的3种方式: (1)增量导入数据时系统自动打meta (2)通过脚本设置meta,脚本方式设置参考下面截图。 (3)通过分组分割打meta ps:8.6后引入Setmeta属性,使用Setmeta的限制条件与分组分割相同(需要满足 数据总行数/数据分割列不同值>262144行)
|
|
|
|
|