轉(zhuǎn)帖|行業(yè)資訊|編輯:陳俊吉|2016-05-30 09:58:16.000|閱讀 679 次
概述:聯(lián)機(jī)分析系統(tǒng)產(chǎn)生于OLTP之后,也有悠久的歷史,它對(duì)交易系統(tǒng)產(chǎn)生的當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析,生成各種報(bào)表、支持多角度數(shù)據(jù)分析,挖掘隱藏在數(shù)據(jù)中的規(guī)律,可對(duì)未來做一定預(yù)測(cè),這些可輔助管理層進(jìn)行各種決策。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
由于OLAP系統(tǒng)所處理的數(shù)據(jù)量通常巨大,單臺(tái)計(jì)算機(jī)的處理能力通常不能滿足要求,因此需要并行處理,目前MPP(Massively Parallel Processing)是公認(rèn)的結(jié)構(gòu)化數(shù)據(jù)并行處理最高效的架構(gòu)。
MPP數(shù)據(jù)庫(kù)由多個(gè)數(shù)據(jù)庫(kù)分區(qū)組成,分區(qū)可分布在一臺(tái)或多臺(tái)服務(wù)器上,單個(gè)分區(qū)不可跨多臺(tái)服務(wù)器。數(shù)據(jù)庫(kù)在容量增長(zhǎng)、處理能力不足時(shí)可垂直或水平擴(kuò)展,垂直擴(kuò)展指增加現(xiàn)有服務(wù)器的能力,比如增加CPU、內(nèi)存、存儲(chǔ)空間等;水平擴(kuò)展指增加新的服務(wù)器進(jìn)來,同時(shí)增加新的數(shù)據(jù)庫(kù)分區(qū),這時(shí)可能有數(shù)據(jù)的重新分布。
每個(gè)數(shù)據(jù)庫(kù)分區(qū)只管理部分?jǐn)?shù)據(jù),處理數(shù)據(jù)時(shí)各分區(qū)可并行處理,分區(qū)間通過網(wǎng)絡(luò)交換數(shù)據(jù)。應(yīng)用面對(duì)的是一個(gè)數(shù)據(jù)庫(kù),SQL語句不需要調(diào)整,運(yùn)行時(shí)數(shù)據(jù)庫(kù)引擎會(huì)根據(jù)數(shù)據(jù)所在位置自動(dòng)調(diào)度。
數(shù)據(jù)在各分區(qū)之間分布時(shí)要有一定的依據(jù),這個(gè)依據(jù)我們稱之為表的分布鍵,它可以由一個(gè)或多個(gè)字段組成。數(shù)據(jù)進(jìn)入MPP數(shù)據(jù)庫(kù)時(shí),會(huì)根據(jù)每條記錄中分布鍵的具體值計(jì)算它應(yīng)該去的數(shù)據(jù)庫(kù)分區(qū)。
1、分布鍵的選擇是MPP數(shù)據(jù)庫(kù)表設(shè)計(jì)的關(guān)鍵點(diǎn)。選擇原則:先考慮表之間關(guān)聯(lián)關(guān)系,比如客戶信息表CUSTOMER與客戶交易流水表TRANSLOG之間經(jīng)常使用客戶號(hào)做關(guān)聯(lián)運(yùn)算,如果這兩張表都用客戶號(hào)做分布鍵,則對(duì)同一客戶的數(shù)據(jù)都會(huì)保存在同一數(shù)據(jù)庫(kù)分區(qū),關(guān)聯(lián)時(shí)不需要與其它數(shù)據(jù)庫(kù)分區(qū)進(jìn)行數(shù)據(jù)交換;其次考慮數(shù)據(jù)分布的均勻,只有在分布鍵的組合取值范圍比較廣的時(shí)候才能保證數(shù)據(jù)分布的均勻性,比如性別字段就不合適作為分布鍵。最慢的分區(qū)決定語句的最終性能,這是要求數(shù)據(jù)分布均勻的原因。
2、數(shù)據(jù)搜索效率。應(yīng)用在處理數(shù)據(jù)時(shí),并非每次都需要處理全量數(shù)據(jù),這樣就涉及到從全量數(shù)據(jù)中定位部分?jǐn)?shù)據(jù)的問題,如果不能快速定位,則不可避免地每次掃描全量數(shù)據(jù),這帶來無謂的IO浪費(fèi)及性能問題。一般情況下這個(gè)問題可通過表的范圍分區(qū)設(shè)計(jì)避免。比如某表保存三年歷史數(shù)據(jù),而應(yīng)用經(jīng)常訪問某個(gè)月的數(shù)據(jù),如果我們按月組織數(shù)據(jù),當(dāng)應(yīng)用只訪問某月數(shù)據(jù)時(shí),相對(duì)于沒做范圍分區(qū)的表,其表掃描性能可提升大約36倍。
3、避免過度復(fù)雜SQL語句,盡管通常MPP數(shù)據(jù)庫(kù)都支持復(fù)雜語句,但復(fù)雜性使得SQL優(yōu)化引擎出錯(cuò)幾率增加,一旦出錯(cuò),排錯(cuò)困難,另外應(yīng)用的可讀性可能會(huì)增加維護(hù)成本。避免復(fù)雜SQL可通過臨時(shí)表技術(shù)將復(fù)雜任務(wù)拆成多步完成。
via:華南IBM大數(shù)據(jù)支持團(tuán)隊(duì)
詳情請(qǐng)咨詢“”!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn