原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-09-07 09:40:31.000|閱讀 1589 次
概述:隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的不斷發(fā)展,海量數(shù)據(jù)的不斷涌現(xiàn),企業(yè)迫切需要對(duì)數(shù)據(jù)進(jìn)行高效、準(zhǔn)確、及時(shí)地分析。傳統(tǒng) BI分析系統(tǒng)(例如:數(shù)據(jù)倉(cāng)庫(kù))一般是按天、周或者月作為數(shù)據(jù)的更新周期,可以提供對(duì)歷史數(shù)據(jù)的分析與查詢,能夠幫助決策者制定企業(yè)運(yùn)營(yíng)戰(zhàn)略,但卻不能實(shí)時(shí)地反映企業(yè)商業(yè)信息的變化。然而當(dāng)前在電子商務(wù)、金融證券等領(lǐng)域中,需要及時(shí)的將數(shù)據(jù)發(fā)送到?jīng)Q策者手中,為企業(yè)提供更有價(jià)值的戰(zhàn)術(shù)型決策支持,因此實(shí)時(shí)BI分析系統(tǒng)需求和建設(shè)應(yīng)運(yùn)而生。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷(xiāo)售中 >>
相關(guān)鏈接:
隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的不斷發(fā)展,海量數(shù)據(jù)的不斷涌現(xiàn),企業(yè)迫切需要對(duì)數(shù)據(jù)進(jìn)行高效、準(zhǔn)確、及時(shí)地分析。傳統(tǒng) BI分析系統(tǒng)(例如:數(shù)據(jù)倉(cāng)庫(kù))一般是按天、周或者月作為數(shù)據(jù)的更新周期,可以提供對(duì)歷史數(shù)據(jù)的分析與查詢,能夠幫助決策者制定企業(yè)運(yùn)營(yíng)戰(zhàn)略,但卻不能實(shí)時(shí)地反映企業(yè)商業(yè)信息的變化。然而當(dāng)前在電子商務(wù)、金融證券等領(lǐng)域中,需要及時(shí)的將數(shù)據(jù)發(fā)送到?jīng)Q策者手中,為企業(yè)提供更有價(jià)值的戰(zhàn)術(shù)型決策支持,因此實(shí)時(shí)BI分析系統(tǒng)需求和建設(shè)應(yīng)運(yùn)而生。
數(shù)據(jù)的實(shí)時(shí)性和查詢的頻繁性是實(shí)時(shí)BI分析系統(tǒng)的兩個(gè)重要特性,它成為了實(shí)時(shí)BI分析系統(tǒng)設(shè)計(jì)中的難點(diǎn)。 而對(duì)于實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的研究,最具有代表性的是以下兩個(gè)方面:
大家所熟悉的 (CDC)是一種準(zhǔn)確而高效的數(shù)據(jù)復(fù)制工具,可以幫助我們輕松地獲取業(yè)務(wù)生產(chǎn)系統(tǒng)的增量數(shù)據(jù);而 則是企業(yè)數(shù)據(jù)集成領(lǐng)域另一個(gè)專業(yè)而強(qiáng)大的ETL工具,可以高效批量處理海量數(shù)據(jù)。將CDC與DataStage進(jìn)行集成,就能實(shí)現(xiàn)快速地把業(yè)務(wù)增量數(shù)據(jù),實(shí)時(shí)地按業(yè)務(wù)規(guī)則進(jìn)行數(shù)據(jù)轉(zhuǎn)換和集成處理,把最終處理結(jié)果更新到目標(biāo)的分析系統(tǒng)中。IBM CDC 與 DataStage 集成的方式有四種可選項(xiàng),具體描述如下:
1、數(shù)據(jù)庫(kù)中轉(zhuǎn)
CDC從源數(shù)據(jù)庫(kù)系統(tǒng)捕獲增量交易數(shù)據(jù),復(fù)制到目標(biāo)的數(shù)據(jù)庫(kù)表。然后,通過(guò)抽取這些數(shù)據(jù)表數(shù)據(jù),進(jìn)行轉(zhuǎn)換處理并加載到目標(biāo)數(shù)據(jù)庫(kù)。
2、IBM MQ集成
CDC從源數(shù)據(jù)庫(kù)系統(tǒng)捕獲交易數(shù)據(jù)增量,并交送到 IBM MQ消息隊(duì)列中;MQ傳送這些數(shù)據(jù)到 DataStage作為它的數(shù)據(jù)輸入,然后進(jìn)行轉(zhuǎn)換處理,最后把數(shù)據(jù)處理結(jié)果加載到目標(biāo)數(shù)據(jù)庫(kù)。
3、基于文件
CDC從源數(shù)據(jù)庫(kù)系統(tǒng)捕獲交易數(shù)據(jù)增量,生成數(shù)據(jù)文件。DataStage讀取這些數(shù)據(jù)文件,然后進(jìn)行數(shù)據(jù)轉(zhuǎn)換處理,并加載到目標(biāo)數(shù)據(jù)庫(kù)。
4、直接連接
從源數(shù)據(jù)庫(kù)系統(tǒng)捕獲交易數(shù)據(jù)增量,并傳送到目標(biāo)端的DataStage服務(wù)器內(nèi)存,DataStage直接讀取這些數(shù)據(jù)文件,然后進(jìn)行數(shù)據(jù)轉(zhuǎn)換處理,并加載到目標(biāo)數(shù)據(jù)庫(kù)。
在上述的四種集成選項(xiàng)中,第3和第4種是被客戶使用得最多和最廣泛的選項(xiàng),特別是針對(duì)需要對(duì)大量數(shù)據(jù)進(jìn)行復(fù)雜邏輯轉(zhuǎn)換處理的系統(tǒng)實(shí)施(例如:實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng))。下面,我們給關(guān)心技術(shù)實(shí)施細(xì)節(jié)的朋友們作些說(shuō)明。
在上圖中, CDC從源系統(tǒng)捕獲到增量數(shù)據(jù)后,經(jīng)過(guò)TCP/IP網(wǎng)絡(luò)傳送到目標(biāo) CDC for DataStage Agent,并產(chǎn)生數(shù)據(jù)文本文件(FlatFile);DataStage ETL工具抽取這些數(shù)據(jù)文件,進(jìn)行 ETL處理,并加載到 ETL信息集成平臺(tái)系統(tǒng)的目標(biāo)端。這種技術(shù)架構(gòu)的優(yōu)勢(shì)很明顯:
上圖采用的 CDC 與 DataStage 連接方式,是把來(lái)源于 CDC捕獲的增量數(shù)據(jù),在DataStage ETL 服務(wù)器內(nèi)存中直接交付給DataStage進(jìn)行后續(xù)的數(shù)據(jù)轉(zhuǎn)換處理,其特點(diǎn)是:
與 DataStage 集成的安裝和配置如下:
1、CDC 與 DataStage 基于文件方式集成
產(chǎn)生的數(shù)據(jù)文件格式有兩種,如果選擇“Single Record”,那么對(duì)于 Update 交易操作,每一筆交易只產(chǎn)生一條記錄,把BeforeImage和AfterImage 信息合在一條記錄顯示;如果選擇“MultipleRecords”,那么對(duì)于Update 交易操作,每一筆交易會(huì)產(chǎn)生兩條記錄,分別記錄BeforeImage和AfterImage信息。
產(chǎn)生的數(shù)據(jù)文件大小,可在配置 CDC預(yù)訂過(guò)程中,指定合適的“Numberof Rows”和“Time(seconds)”。當(dāng)記錄數(shù)達(dá)到“Numberof Rows”時(shí),生成一個(gè)新的數(shù)據(jù)文件,如果記錄數(shù)沒(méi)達(dá)到指定數(shù)值,時(shí)間超過(guò)了指定數(shù)值,同樣也會(huì)觸發(fā)一個(gè)新的數(shù)據(jù)文件生成。這就實(shí)現(xiàn)了對(duì)數(shù)據(jù)文件大小的控制。
2、CDC 與 DataStage 基于直連方式集成
對(duì)于 CDC與 DataStage直接連接,DataStage ETL作業(yè)由 CDC預(yù)訂配置完成后自動(dòng)生成,無(wú)需額外開(kāi)發(fā),該作業(yè)配置上需要注意CDC_Transaction 和目標(biāo)數(shù)據(jù)庫(kù)Stage的配置,涉及部分如下圖所描述:
總結(jié):
1、與傳統(tǒng)的 ETL、批量裝載、查詢或基于消息的系統(tǒng)不同,InfoSphereCDC 最初的設(shè)計(jì)目的就是提供可伸縮的高性能實(shí)時(shí)數(shù)據(jù)集成,盡可能降低延遲。InfoSphere CDC 獨(dú)特的變化數(shù)據(jù)捕捉技術(shù)能夠大大降低對(duì)運(yùn)營(yíng)性應(yīng)用程序性能的影響,這確保源系統(tǒng)上運(yùn)行的重要應(yīng)用程序的性能不會(huì)受到嚴(yán)重影響。通過(guò)使用基于日志的CDC,就不需要修改數(shù)據(jù)庫(kù)、應(yīng)用程序、中間件、硬件或操作系統(tǒng)。
2、CDC 與 DataStage ETL工具無(wú)縫集成,可以輕松地處理大量企業(yè)數(shù)據(jù),同時(shí)保持事務(wù)的完整性和一致性。
3、IBM 有國(guó)內(nèi)有大型商業(yè)銀行、電信公司和龍頭制造業(yè)等客戶已使用該方案和技術(shù),并取得成功經(jīng)驗(yàn)。
詳情請(qǐng)咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn