現(xiàn)在,越來越難以定義到底Hadoop是什么,亦或是Hadoop不是什么。幾年前,Hadoop基本上等于MapReduce,一個(gè)處理海量數(shù)據(jù)的批處 理系統(tǒng),讓人們誤認(rèn)為Hadoop即為大數(shù)據(jù)(Big Data),大數(shù)據(jù)就是“很多很多的數(shù)據(jù)”。但如果市場上不存在這樣的困惑,今天只會更糟。因?yàn)镠adoop正承擔(dān)和提供著各種各樣的功能,而這在兩年前 被認(rèn)為是不可能的。
在Hadoop生態(tài)繁榮的背后,是開發(fā)者們夜以繼日的開發(fā)與支持。而在用戶得益甚至贊賞這些應(yīng)用的時(shí)候,開發(fā)者們卻不得不面對Hadoop平臺中一些可用性較差的地方。本文列舉了網(wǎng)絡(luò)上一些關(guān)于Hadoop的缺點(diǎn),供大家探討,部分觀點(diǎn)來自InfoWorld及開發(fā)者博客。
隨著互聯(lián)網(wǎng)的快速發(fā)展,特別是移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的發(fā)展, 企業(yè)的數(shù)據(jù)比以往任何時(shí)候產(chǎn)生的都要多都要快,面對動輒幾十TB、上百TB、甚至PB級別的數(shù)據(jù)進(jìn)行分析時(shí),傳統(tǒng)架構(gòu)已近乎“疲于奔命”,難以招架。 Hadoop在企業(yè)級市場隨之受到關(guān)注,逐漸被認(rèn)為是新形勢下最佳乃至唯一的選擇 。
本次QCon上海的Hadoop專題出品人王峰(莫問)接受了InfoQ郵件采訪,談到自己在阿里的工作,YARN的優(yōu)勢以及Stream和Spark等平臺的比較。
國內(nèi)外使用Hadoop的公司比較多,全球最大的Hadoop集群在雅虎,有大約25000個(gè)節(jié)點(diǎn),主要用于支持廣告系統(tǒng)與網(wǎng)頁搜索。國內(nèi)用Hadoop的主要有百度、淘寶、騰訊、華為、中國移動等,其中淘寶的Hadoop集群屬于較大的(如果不是最大)。
當(dāng)下大數(shù)據(jù)之熱使得技術(shù)界對Hadoop的話題熱火朝天。但在日常工作中,企業(yè)往往還是遵循既有模式,對于Hadoop到底能否真正幫到企業(yè)的應(yīng)用依然心存顧慮。Hadoop是不是很年輕?這個(gè)開源的事物能否符合公司業(yè)務(wù)級的嚴(yán)謹(jǐn)要求?有沒有企業(yè)真的應(yīng)用過?一系列問題縈繞人們心頭。這可以理解,畢竟任何一個(gè)新生事物出來都要有一個(gè)接受過程 。
在這個(gè)博客帖子中,你將會學(xué)到一些工作負(fù)載評估的原則和它在硬件選擇中起著至關(guān)重要的作用。在這個(gè)過程中,你也將學(xué)到Hadoop管理員應(yīng)該考慮到各種因素。
通過Hadoop安全部署經(jīng)驗(yàn)總結(jié)以下十大建議,以確保大型和復(fù)雜多樣環(huán)境下的數(shù)據(jù)信息安全。