轉(zhuǎn)帖|使用教程|編輯:龔雪|2014-09-18 09:56:27.000|閱讀 375 次
概述:國內(nèi)外使用Hadoop的公司比較多,全球最大的Hadoop集群在雅虎,有大約25000個(gè)節(jié)點(diǎn),主要用于支持廣告系統(tǒng)與網(wǎng)頁搜索。國內(nèi)用Hadoop的主要有百度、淘寶、騰訊、華為、中國移動(dòng)等,其中淘寶的Hadoop集群屬于較大的(如果不是最大)。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
國內(nèi)外使用Hadoop的公司比較多,全球最大的Hadoop集群在雅虎,有大約25000個(gè)節(jié)點(diǎn),主要用于支持廣告系統(tǒng)與網(wǎng)頁搜索。國內(nèi)用Hadoop的主要有百度、淘寶、騰訊、華為、中國移動(dòng)等,其中淘寶的Hadoop集群屬于較大的(如果不是最大)。
淘寶Hadoop集群現(xiàn)在超過1700個(gè)節(jié)點(diǎn),服務(wù)于用于整個(gè)阿里巴巴集團(tuán)各部門,數(shù)據(jù)來源于各部門產(chǎn)品的線上數(shù)據(jù)庫(Oracle, MySQL)備份,系統(tǒng)日志以及爬蟲數(shù)據(jù),數(shù)量總量已經(jīng)超過17個(gè)PB,每天凈增長20T左右。每天在Hadoop集群運(yùn)行的 MapReduce任務(wù)有超過4萬(有時(shí)會超過6萬),其中大部分任務(wù)是每天定期執(zhí)行的統(tǒng)計(jì)任務(wù),例如數(shù)據(jù)魔方、量子統(tǒng)計(jì)、推薦系統(tǒng)、排行榜等等。這些任務(wù)一般在凌晨1點(diǎn)左右開始執(zhí)行,3-4個(gè)小時(shí)內(nèi)全部完成。每天讀數(shù)據(jù)在2PB左右,寫數(shù)據(jù)在1PB左右。
Hadoop包括兩類節(jié)點(diǎn)Master和Slave節(jié)點(diǎn),
Master節(jié)點(diǎn)包括Jobtracker,Namenode, SecondName, Standby,
硬件配置:16CPU*4核,96G內(nèi)存。
Slave節(jié)點(diǎn)主要是TaskTracker和DataNode,
硬件配置存在一定的差別:8CPU*4核-16CPU*4核,16G-24G內(nèi)存
(注:通常是一個(gè)slave節(jié)點(diǎn)同時(shí)是TaskTracker和DataNode,目的是提高數(shù)據(jù)本地性data locality)。
每個(gè)slave節(jié)點(diǎn)會劃分成12~24個(gè)slots。整個(gè)集群約34,916個(gè)slots,其中Map slots是19,643個(gè),Reduce slots是15,273個(gè)
所有作業(yè)會進(jìn)行分成多個(gè)Group,按照部門或小組劃分,總共有38個(gè)Group。整個(gè)集群的資源也是按各個(gè)Group進(jìn)行劃分,定義每個(gè)Group的最大并發(fā)任務(wù)數(shù),Map slots與Reduce slots的使用上限。每個(gè)作業(yè)只能使用自己組的slots資源。
來源:馬哥linux運(yùn)維
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉(zhuǎn)載自:慧都控件網(wǎng)