国内最专业的IT技术学习网

UI设计

当前位置:主页 > UI设计 >

简单的介绍一下大数据中最重要的MapReduce

发布时间:2019/09/22标签:   数据    点击量:

原标题:简单的介绍一下大数据中最重要的MapReduce
简单的介绍一下大数据中最重要的MapReduceMapReduce履行流程图概述MapReduce是一种散布式盘算模子,由Google提出,重要用于搜寻范畴,处理海量数据的盘算成绩。MapReduce是散布式运转的,由两个阶段构成:Map和Reduce,Map阶段是一个自力的顺序,有许多个节点同时运转,每个节点处置一局部数据。Reduce阶段是一个自力的顺序,有许多个节点同时运转,每个节点处置一局部数据。应用MapReduce框架都有默许完成,用户只要要笼罩map()和reduce()两个函数,便可完成散布式盘算,十分简略。这两个函数的形参和前往值都是,应用的时间必定要留神结构。

简单的介绍一下大数据中最重要的MapReduce
履行流程(此处举例阐明)一个文本(在HDFS下面保留,两个block)中每一个单词的呈现的次数:helloyouhellomarryhellomereally----->block-1hellokatereadyxiaowanghellotomcat----->block-21.猎取每一个block块中的文本,遍历全部,归去此中的一行str由于要统计的是每一个单词i的次数,以是还须要直到文本中有哪些单词,能够依据字符串的特色,应用split()停止切割。String[]words=str.split("");依据请求,需将每一个单词i转换为的情势,k为单词自身,v为单词呈现的次数。2.由于mr的盘算是散布式的 ,每一个map(称之为一个mapper task)盘算此中的一个block块数据。map阶段:输出<K1,V1>k1,偏移量,v1,以后行文本内容map()函数操纵输入<K2,V2>k2,详细单词,v2,单词对应的统计项,比方次数输入<K2,V2>shuffle阶段研讨后发觉,假如依照<key,1>这类方法向reduce输入数据的时间,会有大批的冗余数据。比方map阶段以后有5个hello,则输入<hello,1>,<hello,1>,<hello,1>,<hello,1>,<hello,1>5次,现实上会对收集形成必定的压力,能不能对这5个<hello,1>停止一个进入reduce之前的当地组合?比方成为<hello,5>或许<hello,[1,1,1,1,1]>.这个进程成为shuffle,洗牌重组阶段,到达上述的成果,称之为规约。>>>shuffle阶段,也就是对map的输入停止从新洗牌:分区、分组、排序<K2,V2>...===><K2,V2s>reduce阶段接受map的输入成果<key,values>对这个成果停止汇总统计,针对values,停止简略的累加,盘算得出key对应的次数reduce针对一个key挪用一次reduce()函数=====>reduce阶段输出<K2,V2>K2,就是map的输入的K2,V2s是map经由shuffle以后的成果集reduce()函数操纵转化为<K3,V3>经由上述操纵以后,体系会将盘算成果输入给用户,个别会先存储(落地)到hdfs,而后反应给用户。到此为止,MapReduce履行结束,接上去便可以停止大数据的其余一系列操纵了。【编纂推举】Spark:超出Hadoop MapReduce巧用MapReduce+HDFS,海量数据去重的五大战略MapReduce运转道理从HDFS和MapReduce两方面懂得Hadoop大数据中心框架MapReduce进程剖析【义务编纂:未丽燕 TEL:(010)68476606】 点赞 0

版权信息Copyright © 银河官网 版权所有    ICP备案编号:鲁ICP备09013610号