助力大數(shù)據(jù)集成,且看DataStage新玩法

一、已成為企業(yè)信息供應(yīng)鏈中的重要一環(huán)
我們對大數(shù)據(jù)的認(rèn)知在前幾年還僅僅停留在概念和理論中,但轉(zhuǎn)眼間,你會發(fā)現(xiàn)身邊的如雨后春筍般拔地而起,大數(shù)據(jù)儼然成為當(dāng)今熱得不能再熱的話題和焦點。因為Hadoop及其相關(guān)開源技術(shù)的橫空出世和迅猛發(fā)展,越來越多的企業(yè)發(fā)現(xiàn)那些塵封已久的歷史數(shù)據(jù)或每天正在以指數(shù)級產(chǎn)生的交易數(shù)據(jù)、日志數(shù)據(jù)和客戶行為數(shù)據(jù)其實蘊藏著巨大的價值,猶如一座座尚未開發(fā)的金礦,誰能搶占先機(jī),就能挖掘并實現(xiàn)巨大的商業(yè)價值。互聯(lián)網(wǎng)企業(yè)深諳此道,利用大數(shù)據(jù)分析結(jié)果進(jìn)行產(chǎn)品推廣和定向營銷,大大改善了消費者的購物體驗和消費習(xí)慣,在收獲口碑的同時也賺得盆滿缽滿!與此同時,傳統(tǒng)企業(yè)也在積極轉(zhuǎn)型,紛紛將Hadoop大數(shù)據(jù)平臺納入到現(xiàn)有的IT架構(gòu)和解決方案,那么如何將傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)進(jìn)行高效的集成、管理和分析呢?如何保證數(shù)據(jù)的準(zhǔn)確性,一致性和可靠性呢?帶著眾多疑問,我們來看看IBM所提供的DataStage,一切必將豁然開朗。

二、大數(shù)據(jù)集成所面臨的挑戰(zhàn)
1.新型的數(shù)據(jù)存儲
- 大數(shù)據(jù)引入了新型的數(shù)據(jù)存儲,例如,Hadoop及NoSQL,這些新型的數(shù)據(jù)存儲都需要集成。
- 沒有好的傳統(tǒng)方法能夠有效集成這些新型數(shù)據(jù)存儲。
2.新的數(shù)據(jù)類型及格式
- 非結(jié)構(gòu)化數(shù)據(jù);半結(jié)構(gòu)化數(shù)據(jù);JSON, Avro ...
- 視頻、文檔、網(wǎng)絡(luò)日志 ...
- 如何有效處理復(fù)雜且多樣化的數(shù)據(jù)
3.更大的數(shù)據(jù)量
- 需要針對更大的數(shù)據(jù)量進(jìn)行數(shù)據(jù)移動,轉(zhuǎn)換,清洗等等。
- 需要更好的可擴(kuò)展性

三、大數(shù)據(jù)信息整合是Hadoop項目成敗的關(guān)鍵
大部分的Hadoop方案包括以下階段:
- 數(shù)據(jù)收集
- 數(shù)據(jù)移動
- 數(shù)據(jù)轉(zhuǎn)換
- 數(shù)據(jù)清洗
- 數(shù)據(jù)整合
- 數(shù)據(jù)探查
- 數(shù)據(jù)分析
由于面對的是基于海量的,彼此孤立的異構(gòu)數(shù)據(jù)源和數(shù)據(jù)類型,所以大部分企業(yè)的Hadoop項目將花費80%的精力在數(shù)據(jù)整合上,而僅有20%的精力用于數(shù)據(jù)分析。可見,數(shù)據(jù)集成對Hadoop項目的成敗有多重要。

四、IBM大數(shù)據(jù)集成解決方案:InfoSphere DataStage
1. 集中、批量式處理:整合和連接、清洗轉(zhuǎn)換大數(shù)據(jù)
- Hadoop大數(shù)據(jù)作為源和目標(biāo),同現(xiàn)有企業(yè)信息整合;
- 與現(xiàn)有整合任務(wù)具備同樣的開發(fā)界面和邏輯架構(gòu);
- 將處理邏輯下壓至MapReduce,利用Hadoop平臺最小化網(wǎng)絡(luò)開銷;
- 通過InfoSphere Streams流處理進(jìn)行實時分析流程;
- 驗證和清洗大數(shù)據(jù)源的數(shù)據(jù)質(zhì)量;
- 貫穿大數(shù)據(jù)和/或傳統(tǒng)數(shù)據(jù)流通過世系跟蹤和血緣分析;

2.面向大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的豐富接口,支持企業(yè)所有的數(shù)據(jù)源和目標(biāo)
- 對DBMS(DB2, Netezza, Oracle, Teradata, SQL Server, GreenPlum,…)提供高性能的原生API;
- 提供特定的ERP連接器;
- 基于JDBC、ODBC連接器提供靈活支持(MySQL);
- 支持簡單和復(fù)雜的文件格式 (Flat, Cobol, XML, native Excel);
- 支持?jǐn)U展數(shù)據(jù)源:Web Services, Cloud, Java
- 連接Hadoop文件系統(tǒng)(HDFS),提供可擴(kuò)展的并行讀寫
- 直連InfoSphere Streams,支持實時分析處理
- 提供對NoSQL數(shù)據(jù)源(Hive,HBase,MongoDB,Cassandra)的支持

3.最廣泛的異構(gòu)平臺支持

4.IBM大數(shù)據(jù)集成方案帶給客戶的驚喜

五、DataStage連通Hadoop的最佳實踐
在DataStage中,可通過File Connector組件或Big Data File組件來連接Hadoop平臺,從而將傳統(tǒng)RDBMS數(shù)據(jù)庫或本地文件中的數(shù)據(jù)加載到HDFS。比較而言,Big Data File組件支持IBM BigInsights,提供更佳的讀寫性能;而File Connector組件則通過WebHDFS接口或HttpFS接口訪問HDFS,不依賴于Hadoop的品牌和版本,提供更廣泛的兼容性。

FileConnector是DataStage v11.3面向Hadoop的全新組件,提供以下功能:
- 可用于讀/寫Hadoop文件系統(tǒng)(HDFS)
- 支持并行處理和線性擴(kuò)展
- 不需要安裝其他Hadoop客戶端軟件包
- 支持Kerberos認(rèn)證
- 支持SSL安全訪問協(xié)議
- 支持Knox gateway
- 支持通過WebHDFS,HttpFS方式訪問Hadoop
- 支持訪問本地的Hadoop節(jié)點
- 更全面的支持Hadoop(不依賴于其版本變更)
下面以Apache Hadoop v2.7為例,介紹通過配置File Connector將Oracle表數(shù)據(jù)寫入HDFS的方法:
1.安裝DataStage v11.3.1(參考以下鏈接)
//www-01.ibm.com/support/knowledgecenter/SSZJPZ_11.3.0/com.ibm.swg.im.iis.install.nav.doc/containers/cont_iis_information_server_installation.html?lang=en
2.配置Kerberos安全認(rèn)證
將Apache Hadoop服務(wù)器上的krb5.conf文件(KDC配置信息)復(fù)制到DataStage服務(wù)器上的/etc目錄。
3.檢查Apache Hadoop的HDFS配置文件,確認(rèn)已啟用WebHDFS支持

如何配置WebHDFS Rest API for Apache Hadoop v2.7:
//hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html
4.配置SSL訪問Hadoop
- 登陸DataStage服務(wù)器,使用keytool命令創(chuàng)建truststore,用于存放來自于Hadoop服務(wù)器的SSL安全證書,該truststore名為test.jks, 在/opt目錄下
keytool -genkey -alias test -keystore test.jks -storepass test
- 將Hadoop服務(wù)器上的SSL證書(例如cert.pem)復(fù)制到DataStage服務(wù)器
- 在DataStage服務(wù)器上通過keytool命令導(dǎo)入證書cert.pem
keytool -import -trustcacerts -alias test -file cert.pem -keystore test.jks -storepass test -noprompt
- 用DataStage自帶的encrypt.sh命令加密上面所創(chuàng)建truststore的password,得到加密后的二進(jìn)制密碼(例如{iisenc} iWuRnROgFLbk0H1sjfIc7Q==)
cd /opt/IBM/InformationServer/ASBNode/bin/
[root@IBM-DataStage bin]# ./encrypt.sh
Enter the text to encrypt: test
Enter the text again to confirm: test
{iisenc} iWuRnROgFLbk0H1sjfIc7Q==
- 在/opt目錄下創(chuàng)建一個名為properties.txt的文本文件,添加內(nèi)容如下
password={iisenc}iWuRnROgFLbk0H1sjfIc7Q==
- 修改DataStage配置文件(dsenv),添加以下環(huán)境變量
DS_TRUSTSTORE_LOCATION=/opt/test.jks
DS_TRUSTSTORE_PROPERTIES=/opt/properties.txt
- 重啟DataStage
5.在DataStage開發(fā)客戶端中找到File Connector組件

6.配置File Connector組件的屬性
- 通過WebHDFS接口訪問Apache Hadoop
- 采用Kerberos安全認(rèn)證(指定Keytab文件)
- 采用https協(xié)議及相應(yīng)端口
- 將源表數(shù)據(jù)自動拆分成多個文件并行寫入HDFS(為提高性能,利用8個節(jié)點同時寫數(shù)據(jù))

7.運行DataStage作業(yè),可看到數(shù)據(jù)已成功寫入Hadoop HDFS
雖然本次測試是基于虛擬機(jī)環(huán)境,但DataStage所展現(xiàn)出來的性能依然非常強(qiáng)勁,從Oracle讀取4.64億條記錄并寫入HDFS,僅需10分鐘左右,最高速率達(dá)到619495 行/秒。如果增加CPU以提高并行度,性能更可線性增長!

在目標(biāo)端生成的HDFS文件列表(8個子文件):

詳情請咨詢!
客服熱線:023-66090381