更新時間:2021-04-15 來源:黑馬程序員 瀏覽量:
MapReduce編程模型開發(fā)簡單且功能強(qiáng)大,專門為并行處理大規(guī)模數(shù)據(jù)量而設(shè)計,接下來,我們通過一張圖來描述MapReduce的工作過程,如圖1所示。
圖1 MapReduce工作過程
在圖1中,MapReduce的工作流程大致可以分為5步,具體如下:
1.分片、格式化數(shù)據(jù)源
輸入Map階段的數(shù)據(jù)源,必須經(jīng)過分片和格式化操作。其中:
分片操作:指的是將源文件劃分為大小相等的小數(shù)據(jù)塊(Hadoop2.x中默認(rèn)128M),也就是分片(split),Hadoop會為每一個分片構(gòu)建一個Map任務(wù),并由該任務(wù)運(yùn)行自定義的map()函數(shù),從而處理分片里的每一條記錄;格式化操作:將劃分好的分片(split)格式化為鍵值對<key,value>形式的數(shù)據(jù),其中,key代表偏移量,value代表每一行內(nèi)容。2.執(zhí)行MapTask
每個Map任務(wù)都有一個內(nèi)存緩沖區(qū)(緩沖區(qū)大小100M),輸入的分片(split)數(shù)據(jù)經(jīng)過Map任務(wù)處理后的中間結(jié)果,會寫入內(nèi)存緩沖區(qū)中。如果寫入的數(shù)據(jù)達(dá)到內(nèi)存緩沖的閥值(80M),會啟動一個線程將內(nèi)存中的溢出數(shù)據(jù)寫入磁盤,同時不影響map中間結(jié)果繼續(xù)寫入緩沖區(qū)。在溢寫過程中,MapReduce框架會對Key進(jìn)行排序,如果中間結(jié)果比較大,會形成多個溢寫文件,最后的緩沖區(qū)數(shù)據(jù)也會全部溢寫入磁盤形成一個溢寫文件,如果是多個溢寫文件,則最后合并所有的溢寫文件為一個文件。
3.執(zhí)行Shuffle過程
MapReduce工作過程中,map階段處理的數(shù)據(jù)如何傳遞給Reduce階段,這是MapReduce框架中關(guān)鍵的一個過程,這個過程叫做Shuffle。Shuffle會將MapTask輸出的處理結(jié)果數(shù)據(jù),分發(fā)給ReduceTask,并在分發(fā)的過程中,對數(shù)據(jù)按key進(jìn)行分區(qū)和排序。
4.執(zhí)行ReduceTask
輸入ReduceTask的數(shù)據(jù)流是<key,{value list}>形式,用戶可以自定義reduce()方法進(jìn)行邏輯處理,最終以<key,value>的形式輸出。
5.寫入文件
MapReduce框架會自動把ReduceTask生成的<key,value>傳入OutputFormat的write方法,實(shí)現(xiàn)文件的寫入操作。
猜你喜歡:
【AI設(shè)計】北京143期畢業(yè)僅36天,全員拿下高薪offer!黑馬AI設(shè)計連續(xù)6期100%高薪就業(yè)
2025-09-19【跨境電商運(yùn)營】深圳跨境電商運(yùn)營畢業(yè)22個工作日,就業(yè)率91%+,最高薪資達(dá)13500元
2025-09-19【AI運(yùn)維】鄭州運(yùn)維1期就業(yè)班,畢業(yè)14個工作日,班級93%同學(xué)已拿到Offer, 一線均薪資 1W+
2025-09-19【AI鴻蒙開發(fā)】上海校區(qū)AI鴻蒙開發(fā)4期5期,距離畢業(yè)21天,就業(yè)率91%,平均薪資14046元
2025-09-19【AI大模型開發(fā)-Python】畢業(yè)33個工作日,就業(yè)率已達(dá)到94.55%,班均薪資20763元
2025-09-19【AI智能應(yīng)用開發(fā)-Java】畢業(yè)當(dāng)天offer率91%,薪資1W+占比54.2%,班級均薪12k+
2025-09-19