轉帖|使用教程|編輯:龔雪|2014-08-26 10:03:43.000|閱讀 596 次
概述:剛剛宣布放寬計算及內存限制,Aster提供R語言分析能力之后,Teradata迅速出手,宣布由Teradata實驗室收購了Revelytix和Hadapt。前者主要致力于Hadoop上的數(shù)據(jù)管理,而Hadapt則是一家專注SQL-on-Hadoop的公司。顯然,Teradata構建統(tǒng)一數(shù)據(jù)架構方面正在加速奔跑。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
剛剛宣布放寬計算及內存限制,Aster提供R語言分析能力之后,Teradata迅速出手,宣布由Teradata實驗室收購了Revelytix和Hadapt。前者主要致力于Hadoop上的數(shù)據(jù)管理,而Hadapt則是一家專注SQL-on-Hadoop的公司。顯然,Teradata構建統(tǒng)一數(shù)據(jù)架構方面正在加速奔跑。
事實上,結構化數(shù)據(jù)和非結構化數(shù)據(jù)通過傳統(tǒng)的SQL分析和新的分析算法(時間序列、路徑、圖和文字)正在產(chǎn)生新的價值。為了最高效率、最優(yōu)存儲、分析和 應用的成本,大數(shù)據(jù)的技術鏈條正在分層。在Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān)孔宇華的分析中,統(tǒng)一數(shù)據(jù)架構可以分為三層:Teradata整合數(shù)據(jù)倉庫、以Aster為主的探索分析平臺,以及以Hadoop為主的數(shù)據(jù)平臺 。
Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān) 孔宇華
Hadoop自然是為了實現(xiàn)快速數(shù)據(jù)加載和獲取,數(shù)據(jù)過濾和預處理以及在線歸檔;Aster則是數(shù)據(jù)發(fā)現(xiàn)、快速假設校驗和試錯、模式監(jiān)測,實現(xiàn)路徑、圖、時間序列分析;Teradata數(shù)據(jù)倉庫是實現(xiàn)戰(zhàn)略智能、預測分析和操作型智能。
這也是業(yè)內比較認可的技術分層模式。通過三個平臺的整合,來滿足更多行業(yè)深入的數(shù)據(jù)分析需求。
以醫(yī)療行業(yè)為例,要實現(xiàn)對病人住院情況進行分析,需要在數(shù)據(jù)平臺上復查住院治療數(shù)據(jù),并通過運用Aster中的時間序列路徑函數(shù),聚集函數(shù)以及 Sigma值函數(shù),識別一個病人從住院到出院的所有治療程序以及為其提供醫(yī)療服務的醫(yī)生,進而在Teradata中生成時間、地域、交叉、醫(yī)療效果等可視 化分析圖譜。而通過對美國一家醫(yī)院肺炎患者的相關分析并指導業(yè)務改進,“降低了10%的住院時間,節(jié)省了5000萬美元”。孔宇華表示。
同樣可分享的案例還有運營商、銀行、零售、電商、高科技制造等。而回到技術上,整合數(shù)據(jù)倉庫,無論是在共享相關性、一致性和整合數(shù)據(jù),還是快速部署新應用,形成業(yè)務視圖等方面都較為成熟。與之相對應的是,最有技術挑戰(zhàn)的是數(shù)據(jù)平臺和探索平臺。
這兩者在技術發(fā)展上有重疊,也各有側重。對Teradata而言,就是如何有效利用Hadoop,并在其上通過Aster實現(xiàn)挖掘和分析。
在孔宇華看來,Aster和Hadoop同樣是MPP架構,但在存儲,運算引擎以及界面方面都有較多的差異,這決定兩者所擅長任務的差別(如圖)。
Aster和Hadoop的區(qū)別(點擊看大圖)
在Hadoop基礎上進行創(chuàng)新并不鮮見。但能夠在企業(yè)級市場擁有如此多引擎的并不多。Aster的優(yōu)勢就在于此。以Aster SQL-Graph引擎為例,相比Hadoop Giraph或者Google相關產(chǎn)品,Aster SQL-Graph的優(yōu)勢在于:
圖并行架構
通用目標的BSP 框架
無內存綁定,高可擴展
易于開發(fā)使用的APIs
面向頂點編程的API
構建用戶自定義圖函數(shù)的SDK 和 IDE
預定義的圖函數(shù)
開箱即用的函數(shù),適合圖并行執(zhí)行
和現(xiàn)有平臺集成能力
和Aster關系存儲、文件存儲、外部數(shù)據(jù)源的
數(shù)據(jù)一起工作
和其它分析引擎集成 (SQL, SQL-MR)
其它企業(yè)服務
不止如此,Aster對R的支持已經(jīng)進入企業(yè)級標準。這與趨勢相符。Rexer Analytics咨詢公司調查顯示,70%的調查對象稱他們正在使用R語言。數(shù)據(jù)顯示,從2010年開始到2013年,使用R的人群是陡然劇增的。
但R也有不得不面對的挑戰(zhàn)。如R分散于各節(jié)點或各服務器,各節(jié)點或各服務器單獨運行,盡管有利于行的獨立分析處理,例如模型評分,但并不利于分析功能所需要的所有數(shù)據(jù),例如模型搭建等。要突破開源R語言的限制,整合Aster和R,實現(xiàn)企業(yè)級分析需求,需要更多技術優(yōu)化:
孔宇華表示:“Teradata Aster R以軟件數(shù)據(jù)包形式,實現(xiàn)開源R語言的大規(guī)模并發(fā),這對數(shù)據(jù)分析人員而言,更具優(yōu)勢。”
從Hadoop中讀取數(shù)據(jù),在Teradata數(shù)據(jù)倉庫或Teradata Aster數(shù)據(jù)庫中智能地運用多種異構處理引擎的功能進行數(shù)據(jù)分析,形成可視化報告,進而帶動業(yè)務洞察和創(chuàng)新。這個技術架構已經(jīng)極為流暢,對 Teradata而言,更重要的挑戰(zhàn)是如何盡快在更多行業(yè)落地,驅動數(shù)據(jù)分析變革。
來源:CSDN
本站文章除注明轉載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:慧都控件網(wǎng)