原創(chuàng)|大數(shù)據(jù)新聞|編輯:況魚杰|2020-06-10 11:27:06.793|閱讀 418 次
概述:在開放式混合架構(gòu)系列的最后三個博客(視覺,關(guān)鍵原則/概念,實(shí)際案例)的基礎(chǔ)上,現(xiàn)在希望更深入地研究我們的存儲環(huán)境,尤其是O3(臭氧的分子式)。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
在與CLOUDERA合并之前,此博客文章已發(fā)布在HORTONWORKS.COM上。某些鏈接,資源或參考可能不再準(zhǔn)確。
介紹我們的存儲環(huán)境O3
在開放式混合架構(gòu)系列的最后三個博客(視覺,關(guān)鍵原則/概念,實(shí)際案例)的基礎(chǔ)上,現(xiàn)在希望更深入地研究我們的存儲環(huán)境,尤其是O3(臭氧的分子式)。
首先,我們想回顧一下Hadoop歷史。Apache Hadoop文件系統(tǒng)(HDFS)在2006年以5000行代碼開始。這是企業(yè)采用的第一個軟件定義的存儲,現(xiàn)在在商品硬件上存儲數(shù)百EB的大數(shù)據(jù),以推動我們今天熟悉的分析革命。現(xiàn)在,又邁出了一大步,我們乘坐上了名為“ O3”的火箭飛船。
Ozone或O3是下一代對象存儲,旨在:
我們開始看到存儲在云世界中與計算分離,隨著網(wǎng)絡(luò)變得越來越快,規(guī)模越來越大,優(yōu)先級流控制越來越好,計算和存儲都可以分別擴(kuò)展。Cloudera的客戶可能會要求解耦存儲,以便他們可以分別擴(kuò)展存儲環(huán)境。當(dāng)存儲被解耦和共享時,它需要擴(kuò)展并具有多種協(xié)議來支持各種用例。借助對容器編排的支持,現(xiàn)在可以設(shè)計工作負(fù)載,以便可以將它們部署在本地和云中。但是,需要聲明以下說法:一些核心客戶仍然喜歡將計算和存儲架構(gòu)耦合以從本地化中受益,沒關(guān)系,O3架構(gòu)支持兩種部署模型。
取其精華
O3利用了十多年的經(jīng)驗(yàn)教訓(xùn),由第一天就參與Apache HDFS的同一社區(qū)和核心團(tuán)隊(duì)成員設(shè)計。
開放
顧名思義,“ O”表示O3是100%開放源代碼(Apache Hadoop項(xiàng)目的一部分)。客戶不必?fù)?dān)心專有數(shù)據(jù)格式的鎖定。
規(guī)模
從Apache HDFS的許多優(yōu)勢中受益。像Apache HDFS一樣,O3可以擴(kuò)展到成千上萬個節(jié)點(diǎn),因?yàn)镃loudera的客戶在生產(chǎn)中的單個集群中有成千上萬個節(jié)點(diǎn)。對于某些對象存儲供應(yīng)商來說,這是一個致命弱點(diǎn)。數(shù)據(jù)放置算法抑制了某些對象存儲供應(yīng)商的規(guī)模,因?yàn)楣?jié)點(diǎn)被永久刪除或添加,大量數(shù)據(jù)移動(超過了刪除或添加的數(shù)據(jù)量)并且新節(jié)點(diǎn)無法長時間使用。現(xiàn)在,Apache HDFS還存在文件較小的問題,因?yàn)樵趩蝹€集群中創(chuàng)建了大量文件(為了澄清,HDFS可以輕松地在集群中擴(kuò)展到250M +文件,但是這是當(dāng)今連接世界的Hadoop擴(kuò)展 )。雖然將整個元數(shù)據(jù)存儲在名稱節(jié)點(diǎn)內(nèi)部的JVM內(nèi)存占用中有助于緩解延遲,但它限制了Hadoop群集中文件的總數(shù),現(xiàn)在再使用名稱節(jié)點(diǎn)聯(lián)合來推高擴(kuò)展限制。O3確實(shí)使用平坦的鍵值和存儲容器方法徹底解決了小文件問題,因此可以擴(kuò)展到數(shù)百億個對象。
合并
在與客戶交流時,Cloudera的客戶希望鎖定存放在其歸檔存儲中的暗數(shù)據(jù)的價值。很多時候,他們必須將數(shù)據(jù)從一層復(fù)制到另一層,從而創(chuàng)建重復(fù)數(shù)據(jù)。他們想將分析應(yīng)用于暗數(shù)據(jù)。 O3將提供可擴(kuò)展的解決方案,以將所有輔助數(shù)據(jù)孤島(包括堆棧,日志,備份,存檔)整合到一個解決方案中,并打破孤島,然后Cloudera將最有能力將所有大數(shù)據(jù)分析帶到數(shù)據(jù)旁邊。
一致性
O3高度一致,并且始終遵循Apache HDFS的根源。由于許多內(nèi)部部署和云對象存儲解決方案最終都是一致的,因此上層應(yīng)用程序需要構(gòu)建一個一致性層來解決最終的一致性缺陷。很多時候,這意味著它們只限于歸檔用例,而不能真正合并所有輔助存儲層。
多協(xié)議
雖然Apache HDFS是為使用Hadoop API的不可變數(shù)據(jù)(僅附加操作)而設(shè)計的,但O3卻被設(shè)計為在新世界中支持多種協(xié)議。在第一次迭代中,O3將支持Hadoop API,以便現(xiàn)有Hadoop工作負(fù)載可以按原樣工作,而無需進(jìn)行任何更改。O3也將支持S3 API,以便Cloudera的客戶可以使其應(yīng)用程序跨云和本地部署模型移植,并且Cloudera最近推出了一個支持S3 API的Alpha版本。強(qiáng)化Hadoop和S3 API之后,Cloudera將為O3提供iSCSI和NFS接口。通過一項(xiàng)舉措(在內(nèi)部稱為Quadra),這個項(xiàng)目取得了不錯的進(jìn)展,以展示iSCSI卷與Kubernetes容器一起使用。
就地升級
O3可以使用與Apache HDFS相同的服務(wù)器集(即數(shù)據(jù)節(jié)點(diǎn))。這有助于O3和HDFS在同一群集中共存以及從Apache HDFS遷移到O3。我們的強(qiáng)烈意圖是為目前管理著數(shù)百PB的企業(yè)客戶提供無縫的就地升級途徑。
更好的用戶體驗(yàn)
傳統(tǒng)上,Cloudera專注于Apache HDFS中強(qiáng)大的文件系統(tǒng)功能,但是圍繞Apache HDFS的用戶體驗(yàn)還沒有那么豐富。從第一天開始,Cloudera就準(zhǔn)備好投資O3的用戶體驗(yàn),并將在DataPlane Services中提供豐富的用戶體驗(yàn)(HDFS和O3之間的附加監(jiān)視或數(shù)據(jù)遷移)。
集裝箱就緒
當(dāng)Cloudera為客戶提供選件時,O3可以部署在裸機(jī)服務(wù)器或Kubernetes容器上。O3將支持容器存儲接口(CSI),以便O3可以為Kubernetes或Apache YARN上的容器提供持久性存儲(S3 API或iSCSI接口),這又將托管Cloudera的分析工作負(fù)載,例如企業(yè)數(shù)據(jù)倉庫或數(shù)據(jù)科學(xué)/工程工作負(fù)載 。
關(guān)于Cloudera
在 Cloudera,我們相信數(shù)據(jù)可以使今天的不可能,在明天成為可能。我們使人們能夠?qū)?fù)雜的數(shù)據(jù)轉(zhuǎn)換為清晰而可行的洞察力。Cloudera 為任何地方的任何數(shù)據(jù)從邊緣到人工智能提供企業(yè)數(shù)據(jù)云平臺服務(wù)。在開源社區(qū)不懈創(chuàng)新的支持下,Cloudera推動了全球最大型企業(yè)的數(shù)字化轉(zhuǎn)型歷程。
慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供Cloudera大數(shù)據(jù)平臺搭建,免費(fèi)業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團(tuán)隊(duì),為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn