【干貨】數(shù)據(jù)控使用Hadoop的三種最常用方式
正式發(fā)布,這是Hadoop領(lǐng)域巨大的里程碑,因為它開啟了史無前例的數(shù)據(jù)存儲方式革命。Hadoop保留它典型的“”基礎(chǔ)技術(shù),但它是否適合當(dāng)下數(shù)據(jù)庫及數(shù)據(jù)倉 庫的使用方式?又是否有一種通用模式可以切實降低固有的使用復(fù)雜性呢?
Hadoop使用的一般模式
Hadoop最初的構(gòu)想是為像Yahoo、Google、Facebook等這樣的公司以非常低的成本來解決大量數(shù)據(jù)的存儲問題。現(xiàn)在,它正被越來 越多地引入企業(yè)環(huán)境中處理新不同數(shù)據(jù)類型。機器生成的數(shù)據(jù)、傳感器數(shù)據(jù)、社交數(shù)據(jù)、網(wǎng)絡(luò)日志等數(shù)據(jù)類型呈指數(shù)級增長,而且這些數(shù)據(jù)也常常(但不總是)是非 結(jié)構(gòu)化。正是由于這種類型的數(shù)據(jù)將人機對話從“數(shù)據(jù)分析”帶到“”:因為挖掘這些數(shù)據(jù)可以得到商業(yè)優(yōu)勢。
分析應(yīng)用程序以各種形式流行起來,最重要的是可以定向解決一個垂直行業(yè)的需要。乍一看,他們彼此似乎在行業(yè)和垂直上沒有關(guān)系,但是實際上,當(dāng)在基礎(chǔ)設(shè)施層面觀察時,會出現(xiàn)一些非常清晰的模式,也就是以下3種模式:
Pattern 1:數(shù)據(jù)精煉廠
使用Hadoop的“數(shù)據(jù)精煉廠”模式使組織能夠?qū)⑦@些新數(shù)據(jù)源納入他們常用BI和分析應(yīng)用程序。例如,我可能有一個應(yīng)用程序,它能夠在ERP和CRM系統(tǒng)中查看客戶建立在上面的數(shù)據(jù)。但是如何才能從他們的web session(基于我們網(wǎng)站)中發(fā)現(xiàn)他們的興趣所在?“數(shù)據(jù)精煉廠”,這個使用模式正是顧客期望的。

這里的關(guān)鍵概念是Hadoop是被用來提取大量數(shù)據(jù)以便更容易管理。然后生成的數(shù)據(jù)被加載到現(xiàn)有數(shù)據(jù)系統(tǒng),這些數(shù)據(jù)可以使用傳統(tǒng)的工具訪問,但是別 忘了,這些操作都是建立在更豐富的數(shù)據(jù)集上。從某些方面來說,這是最簡單的用例,因為無需對傳統(tǒng)途徑進行大的修改,企業(yè)就可以清晰的從Hadoop上獲 益。無論垂直與否,精煉廠概念仍然適用。在金融服務(wù)領(lǐng)域,我們看到組織提煉交易數(shù)據(jù)以便更好地了解市場,分析和從復(fù)雜的組合中尋找價值。
能源公司使用大數(shù)據(jù)來分析不同地區(qū)的消費水平以便更好地預(yù)測生產(chǎn)水平。零售企業(yè)(任何面向消費者組織)經(jīng)常使用精煉廠來洞察網(wǎng)絡(luò)人氣。電信公司使用精煉廠調(diào)用電話記錄來提 取有用信息細(xì)節(jié)以便優(yōu)化計費方式。最后,在昂貴的,任務(wù)關(guān)鍵的垂直設(shè)備上,我們常常發(fā)現(xiàn)Hadoop被用來預(yù)測分析和主動的故障識別。在通信技術(shù)中,這可 能是一個網(wǎng)絡(luò)的基站。特許經(jīng)營餐廳中可以用來監(jiān)控冷藏庫的數(shù)據(jù)。
Pattern 2: 用Apache Hadoop來探索數(shù)據(jù)
第二個最常見的用例我們稱之為“數(shù)據(jù)探索”。在這種情況下,組織在Hadoop上獲取和存儲大量的新數(shù)據(jù),然后直接探索這些數(shù)據(jù)。因此不是使用 Hadoop作為暫存區(qū)域進行處理然后將數(shù)據(jù)轉(zhuǎn)移到企業(yè)數(shù)據(jù)倉庫(就像使用精煉廠用例一樣),數(shù)據(jù)是保存在Hadoop上然后直接探索。

數(shù)據(jù)探索用例通常是在企業(yè)開始可以探索以前被丟棄的數(shù)據(jù)(如網(wǎng)絡(luò)日志,社交媒體數(shù)據(jù)等等)并構(gòu)建全新的分析應(yīng)用程序然后直接使用這些數(shù)據(jù)。
幾乎每一個垂直系統(tǒng)都可以享受到探索用例的優(yōu)越性。在金融服務(wù)領(lǐng)域,我們可以用探索用例來執(zhí)行取證或識別欺詐。職業(yè)體育團隊將利用數(shù)據(jù)科學(xué)來分析交易和年 度草案,就像我們在電影《Moneyball》看到的。總之?dāng)?shù)據(jù)科學(xué)和探索可以用來發(fā)現(xiàn)新的商業(yè)機會或新的見解,這在Hadoop之前是不可能實現(xiàn)的。
Pattern 3: 挖掘應(yīng)用程序
第三個也是最后一個用例是“挖掘應(yīng)用程序”。在這種情況下,存儲在Hadoop中的數(shù)據(jù)決定了應(yīng)用程序的用途。例如,通過挖掘存儲的所有網(wǎng) 絡(luò)會話數(shù)據(jù),當(dāng)用戶重返網(wǎng)站時,我們可以為他們定制個性體驗。通過挖掘Hadoop中存儲的這些數(shù)據(jù),我們可以從會話歷史找到很多有用的價值。比如通過用 戶的歷史記錄來提供一個及時反饋。

這個用例是世界上許多大型網(wǎng)站如Yahoo、Facebook等業(yè)務(wù)的基礎(chǔ)。通過定制的用戶體驗,他們可以有效與他們的競爭對手區(qū)分。這是雅虎Hadoop的第二個用例,就如當(dāng)初它意識到Hadoop能夠幫助改善廣告位置一樣。這個概念轉(zhuǎn)變了大型的網(wǎng)站,同時也正在使傳統(tǒng)的企業(yè)改善銷售,而一些小組織甚至也使用這些概念在零售網(wǎng)點實現(xiàn)動態(tài)定價。
正如你所預(yù)料的那樣,隨著組織熟悉在Hadoop上提煉和探索數(shù)據(jù),最后的這種最典型的用例正在被普遍采用或接受。但與此同時,這也暗示了今后Hadoop能做什么,并且隨著時間的推移和發(fā)展,傳統(tǒng)的數(shù)據(jù)庫應(yīng)用程序?qū)⒅饾u被Hadoop應(yīng)用程序取代。
當(dāng)然任何涉及到新平臺技術(shù),在進入IT企業(yè)環(huán)境時都有一定的復(fù)雜性,Hadoop也不例外。無論你是使用Hadoop來改進或是探 索,還是豐富你的數(shù)據(jù),與現(xiàn)有IT基礎(chǔ)架構(gòu)的兼容將是關(guān)鍵。這就是為什么目前Hadoop生態(tài)系統(tǒng)和能集成不同供應(yīng)商之間解決方案得以顯著增長。 Hadoop有潛力在企業(yè)數(shù)據(jù)領(lǐng)域產(chǎn)生深遠(yuǎn)影響,通過理解常見的使用模式,您將可以極大地減少其復(fù)雜性。
詳情請咨詢!
客服熱線:023-66090381