原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-10-11 10:04:01.000|閱讀 419 次
概述:Apache Hadoop 2.0正式發(fā)布,這是Hadoop領(lǐng)域巨大的里程碑,因?yàn)樗_(kāi)啟了史無(wú)前例的數(shù)據(jù)存儲(chǔ)方式革命。Hadoop保留它典型的“大數(shù)據(jù)”基礎(chǔ)技術(shù),但它是否適合當(dāng)下數(shù)據(jù)庫(kù)及數(shù)據(jù)倉(cāng)庫(kù)的使用方式?又是否有一種通用模式可以切實(shí)降低固有的使用復(fù)雜性呢?
# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷(xiāo)售中 >>
相關(guān)鏈接:
正式發(fā)布,這是Hadoop領(lǐng)域巨大的里程碑,因?yàn)樗_(kāi)啟了史無(wú)前例的數(shù)據(jù)存儲(chǔ)方式革命。Hadoop保留它典型的“”基礎(chǔ)技術(shù),但它是否適合當(dāng)下數(shù)據(jù)庫(kù)及數(shù)據(jù)倉(cāng) 庫(kù)的使用方式?又是否有一種通用模式可以切實(shí)降低固有的使用復(fù)雜性呢?
Hadoop使用的一般模式
Hadoop最初的構(gòu)想是為像Yahoo、Google、Facebook等這樣的公司以非常低的成本來(lái)解決大量數(shù)據(jù)的存儲(chǔ)問(wèn)題。現(xiàn)在,它正被越來(lái) 越多地引入企業(yè)環(huán)境中處理新不同數(shù)據(jù)類(lèi)型。機(jī)器生成的數(shù)據(jù)、傳感器數(shù)據(jù)、社交數(shù)據(jù)、網(wǎng)絡(luò)日志等數(shù)據(jù)類(lèi)型呈指數(shù)級(jí)增長(zhǎng),而且這些數(shù)據(jù)也常常(但不總是)是非 結(jié)構(gòu)化。正是由于這種類(lèi)型的數(shù)據(jù)將人機(jī)對(duì)話(huà)從“數(shù)據(jù)分析”帶到“”:因?yàn)橥诰蜻@些數(shù)據(jù)可以得到商業(yè)優(yōu)勢(shì)。
分析應(yīng)用程序以各種形式流行起來(lái),最重要的是可以定向解決一個(gè)垂直行業(yè)的需要。乍一看,他們彼此似乎在行業(yè)和垂直上沒(méi)有關(guān)系,但是實(shí)際上,當(dāng)在基礎(chǔ)設(shè)施層面觀察時(shí),會(huì)出現(xiàn)一些非常清晰的模式,也就是以下3種模式:
Pattern 1:數(shù)據(jù)精煉廠(chǎng)
使用Hadoop的“數(shù)據(jù)精煉廠(chǎng)”模式使組織能夠?qū)⑦@些新數(shù)據(jù)源納入他們常用BI和分析應(yīng)用程序。例如,我可能有一個(gè)應(yīng)用程序,它能夠在ERP和CRM系統(tǒng)中查看客戶(hù)建立在上面的數(shù)據(jù)。但是如何才能從他們的web session(基于我們網(wǎng)站)中發(fā)現(xiàn)他們的興趣所在?“數(shù)據(jù)精煉廠(chǎng)”,這個(gè)使用模式正是顧客期望的。
這里的關(guān)鍵概念是Hadoop是被用來(lái)提取大量數(shù)據(jù)以便更容易管理。然后生成的數(shù)據(jù)被加載到現(xiàn)有數(shù)據(jù)系統(tǒng),這些數(shù)據(jù)可以使用傳統(tǒng)的工具訪(fǎng)問(wèn),但是別 忘了,這些操作都是建立在更豐富的數(shù)據(jù)集上。從某些方面來(lái)說(shuō),這是最簡(jiǎn)單的用例,因?yàn)闊o(wú)需對(duì)傳統(tǒng)途徑進(jìn)行大的修改,企業(yè)就可以清晰的從Hadoop上獲 益。無(wú)論垂直與否,精煉廠(chǎng)概念仍然適用。在金融服務(wù)領(lǐng)域,我們看到組織提煉交易數(shù)據(jù)以便更好地了解市場(chǎng),分析和從復(fù)雜的組合中尋找價(jià)值。
能源公司使用大數(shù)據(jù)來(lái)分析不同地區(qū)的消費(fèi)水平以便更好地預(yù)測(cè)生產(chǎn)水平。零售企業(yè)(任何面向消費(fèi)者組織)經(jīng)常使用精煉廠(chǎng)來(lái)洞察網(wǎng)絡(luò)人氣。電信公司使用精煉廠(chǎng)調(diào)用電話(huà)記錄來(lái)提 取有用信息細(xì)節(jié)以便優(yōu)化計(jì)費(fèi)方式。最后,在昂貴的,任務(wù)關(guān)鍵的垂直設(shè)備上,我們常常發(fā)現(xiàn)Hadoop被用來(lái)預(yù)測(cè)分析和主動(dòng)的故障識(shí)別。在通信技術(shù)中,這可 能是一個(gè)網(wǎng)絡(luò)的基站。特許經(jīng)營(yíng)餐廳中可以用來(lái)監(jiān)控冷藏庫(kù)的數(shù)據(jù)。
Pattern 2: 用Apache Hadoop來(lái)探索數(shù)據(jù)
第二個(gè)最常見(jiàn)的用例我們稱(chēng)之為“數(shù)據(jù)探索”。在這種情況下,組織在Hadoop上獲取和存儲(chǔ)大量的新數(shù)據(jù),然后直接探索這些數(shù)據(jù)。因此不是使用 Hadoop作為暫存區(qū)域進(jìn)行處理然后將數(shù)據(jù)轉(zhuǎn)移到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(就像使用精煉廠(chǎng)用例一樣),數(shù)據(jù)是保存在Hadoop上然后直接探索。
數(shù)據(jù)探索用例通常是在企業(yè)開(kāi)始可以探索以前被丟棄的數(shù)據(jù)(如網(wǎng)絡(luò)日志,社交媒體數(shù)據(jù)等等)并構(gòu)建全新的分析應(yīng)用程序然后直接使用這些數(shù)據(jù)。
幾乎每一個(gè)垂直系統(tǒng)都可以享受到探索用例的優(yōu)越性。在金融服務(wù)領(lǐng)域,我們可以用探索用例來(lái)執(zhí)行取證或識(shí)別欺詐。職業(yè)體育團(tuán)隊(duì)將利用數(shù)據(jù)科學(xué)來(lái)分析交易和年 度草案,就像我們?cè)陔娪啊禡oneyball》看到的。總之?dāng)?shù)據(jù)科學(xué)和探索可以用來(lái)發(fā)現(xiàn)新的商業(yè)機(jī)會(huì)或新的見(jiàn)解,這在Hadoop之前是不可能實(shí)現(xiàn)的。
Pattern 3: 挖掘應(yīng)用程序
第三個(gè)也是最后一個(gè)用例是“挖掘應(yīng)用程序”。在這種情況下,存儲(chǔ)在Hadoop中的數(shù)據(jù)決定了應(yīng)用程序的用途。例如,通過(guò)挖掘存儲(chǔ)的所有網(wǎng) 絡(luò)會(huì)話(huà)數(shù)據(jù),當(dāng)用戶(hù)重返網(wǎng)站時(shí),我們可以為他們定制個(gè)性體驗(yàn)。通過(guò)挖掘Hadoop中存儲(chǔ)的這些數(shù)據(jù),我們可以從會(huì)話(huà)歷史找到很多有用的價(jià)值。比如通過(guò)用 戶(hù)的歷史記錄來(lái)提供一個(gè)及時(shí)反饋。
這個(gè)用例是世界上許多大型網(wǎng)站如Yahoo、Facebook等業(yè)務(wù)的基礎(chǔ)。通過(guò)定制的用戶(hù)體驗(yàn),他們可以有效與他們的競(jìng)爭(zhēng)對(duì)手區(qū)分。這是雅虎Hadoop的第二個(gè)用例,就如當(dāng)初它意識(shí)到Hadoop能夠幫助改善廣告位置一樣。這個(gè)概念轉(zhuǎn)變了大型的網(wǎng)站,同時(shí)也正在使傳統(tǒng)的企業(yè)改善銷(xiāo)售,而一些小組織甚至也使用這些概念在零售網(wǎng)點(diǎn)實(shí)現(xiàn)動(dòng)態(tài)定價(jià)。
正如你所預(yù)料的那樣,隨著組織熟悉在Hadoop上提煉和探索數(shù)據(jù),最后的這種最典型的用例正在被普遍采用或接受。但與此同時(shí),這也暗示了今后Hadoop能做什么,并且隨著時(shí)間的推移和發(fā)展,傳統(tǒng)的數(shù)據(jù)庫(kù)應(yīng)用程序?qū)⒅饾u被Hadoop應(yīng)用程序取代。
當(dāng)然任何涉及到新平臺(tái)技術(shù),在進(jìn)入IT企業(yè)環(huán)境時(shí)都有一定的復(fù)雜性,Hadoop也不例外。無(wú)論你是使用Hadoop來(lái)改進(jìn)或是探 索,還是豐富你的數(shù)據(jù),與現(xiàn)有IT基礎(chǔ)架構(gòu)的兼容將是關(guān)鍵。這就是為什么目前Hadoop生態(tài)系統(tǒng)和能集成不同供應(yīng)商之間解決方案得以顯著增長(zhǎng)。 Hadoop有潛力在企業(yè)數(shù)據(jù)領(lǐng)域產(chǎn)生深遠(yuǎn)影響,通過(guò)理解常見(jiàn)的使用模式,您將可以極大地減少其復(fù)雜性。
詳情請(qǐng)咨詢(xún)!
客服熱線(xiàn):023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn