轉(zhuǎn)帖|行業(yè)資訊|編輯:陳俊吉|2016-05-04 09:33:51.000|閱讀 469 次
概述:Apache Spark在SnappyData支持即時SQL分析
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
2016年5月13日-15日,由CSDN重磅打造的2016中國云計算技術(shù)大會(CCTC 2016)將于5月13日-15日在北京舉辦,今年大會特設(shè)“中國Spark技術(shù)峰會”、“Container技術(shù)峰會”、“OpenStack技術(shù)峰會”、“核心技術(shù)與應(yīng)用實(shí)戰(zhàn)峰會”四大技術(shù)主題峰會,以及“云計算核心技術(shù)架構(gòu)”、“云計算平臺構(gòu)建與實(shí)踐”等專場技術(shù)論壇。大會講師陣容囊括Intel、微軟、、AWS、Hortonworks、Databricks、Elastic、百度、阿里、騰訊、華為、樂視、京東、小米、微博、迅雷、國家電網(wǎng)、中國移動、長安汽車、廣發(fā)證券、民生銀行、國家超級計算廣州中心等60+頂級技術(shù)講師,CCTC必將是中國云計算技術(shù)開發(fā)者的頂級盛會。詳情訪問CCTC 2016官網(wǎng)。
Pivotal’s GemFire的基于內(nèi)存數(shù)據(jù)存儲團(tuán)隊最近發(fā)布了一種新的數(shù)據(jù)庫解決方案,叫做SnappyData,基于GemFire 和 Apache Spark。
SnappyData是最近又出現(xiàn)的一個使用Spark作為組件的數(shù)據(jù)庫解決方案。這種使用Spark的方案中,有一些使用了Apache Hadoop的技術(shù)。SnappyData的查詢可以使用傳統(tǒng)的SQL語句,或者使用Spark的查詢,這樣原來的工作可以兼容SnappyData,也可以使用兩種方式同時工作。
Snap和Spark
SnappyData是這個新數(shù)據(jù)庫的名字,同時也是這個組織的名字,跨越了兩個領(lǐng)域。它使用了Apache Spark的內(nèi)存數(shù)據(jù)分析引擎,所以可以在靜態(tài)數(shù)據(jù)和流數(shù)據(jù)中實(shí)時分析SQL。
在存儲和取回數(shù)據(jù)方面,SnappyData使用了一個分布式的數(shù)據(jù)存儲,叫做Snappy-Store,起源于GemFire的技術(shù)。它要么使用自己的數(shù)據(jù)存儲,要么使用一種異步的回寫式高速緩沖存儲器連接另一個數(shù)據(jù)庫,比如Hadoop或者HDFS。這意味著,原來的數(shù)據(jù)可以直接使用SnappyData,而不需要一些正式的數(shù)據(jù)遷移操作。
SnappyData也嘗試對流數(shù)據(jù)的問題提供一些新奇的解決方案。比如,如果有個查詢返回的結(jié)果太多,可能導(dǎo)致不能及時地反回結(jié)果。SnappyData使用近似查詢結(jié)果(approximate query processing,AQP)或者從結(jié)果中抽樣的方式來生成結(jié)果。
這種方式返回的結(jié)果,相比與在所有數(shù)據(jù)上操作并不準(zhǔn)確,而且AQP并不能適用于所有查詢。但是,AQP查詢對CPU和內(nèi)存的要求更低,速度更快。
這并不是Spark第一次在數(shù)據(jù)分析方面同時覆蓋OLTP和OLAP了?;趦?nèi)存的數(shù)據(jù)庫系統(tǒng)Splice Machine使用了Hadoop的組件,就同時支持OLTP和OLAP。2.0版本加入了Spark作為一個OLAP的處理引擎。
SnappyData和Splice Machine背道而馳的地方,就是使用Spark的不同。SnappyData稱,他們在很多方式對Spark的流進(jìn)行的擴(kuò)展,比如允許流可以像表一樣被查詢和操作,包括連接這樣的操作。
SnappyData的環(huán)境也比較適合嘗試使用Apache Spark新特性。比如Spark 2.0將在今年發(fā)布,屆時將重構(gòu)內(nèi)存管理和流系統(tǒng),拉取流數(shù)據(jù)將更加簡單。
本文轉(zhuǎn)載自
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn