永洪社区

标题: 读懂大数据量组合数据集在永洪的应用实例 [打印本页]

作者: 永洪数据科学院    时间: 2021-5-20 13:40
标题: 读懂大数据量组合数据集在永洪的应用实例
今天这篇文章,主要介绍大数据量组合数据集在永洪中的应用实例Mapsidejoin
    什么是Mapsidejoin?按照字面意思,Mapsidejoin就是M—节点—组合 。在了解Mapsidejoin之前,首先我们要了解一下MapReduce模型以及产品的四个节点CNMR的作用,通过MapReduce模型中,Mapsidejoin和Reducesidejoin的对比,了解在大数据量数据集进行组合时,Mapsidejoin的优点。
Yonghong中集群节点介绍
    Client Node —C节点是客户端访问节点,客户通过访问C节点来提交任务。
    Naming Node —N节点相当于集群的大脑,除了监控集群其他节点外,还要收集客户通过C节点提交的任务进行分配等等。
    Map Node — M节点是存储数据文件的节点
    Reduce Node —R节点是用来做汇总计算的计算
MapReduce模型介绍
    百度百科对MapReduce的定义感觉还是比较全面的,简单的概括一下:MapReduce是一个基于集群的计算平台,是一个简化分布式编程的计算框架,是一个将分布式计算抽象为Map和Reduce两个阶段的编程模型。而Yonghong在进行组合数据集计算时用到的就是MapReduce模型。
适用场景:多M节点的分布式集群,大数据量数据的组合包括大表join小表,大表join大表。
    1、为什么要使用Mapsidejoin
    在MapReduce模型中,对于组合计算可以分为Map-side-join 和Reduce-side-join两种,下面用一个例子简单介绍一下:
假设我们有两张表:表1人员表为大表,表2地区表为小表,如下图所示:
(, 下载次数: 118)