2014年2月12號。
今天是學習Datastage這門技術的第一天,也是這個博客開始的首篇。堅持與否,完成與否,全憑個人喜好和意志。道路坎坷哉!
首先,Datastage的概念與用途。
IBM InfoSphere DataStage是IBM開發的一種ETL工具,也是IBM信息平臺解決方案套件和IBM InfoSphere的其中一部分。它是一個以圖形界面方式來提供數據整合解決方案的集成工具。DataStage有服務器版本和企業版本等多種版本。(copy from 維基百科)
ETL是Extraction-Transformation-Loading的簡寫。它是數據倉庫和數據集成應用中的一個重要部分。主要是一個將數據進行抽取,轉換,最後加載的過程。是數據倉庫重要的一個環節。主要是負責將分散的、異構數據源中的數據如關係數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後加載到數據倉庫或數據集市中,成爲聯機分析處理、數據挖掘的基礎。
Datastage 便是這個ETL技術的工具之一,還有類似工具有OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)等等。
介紹:
一、數據源
數據整合中,數據源的連接範圍直接決定着它的使用範圍。DS支持多種數據源,包括;
1.文本文件
2.xml 文件
3.企業應用程序,比如 SAP、PeopleSoft、Siebel、Oracle Application
4. 幾乎所有的數據庫系統,比如 DB2、Oracle、SQL Server、Sybase ASE/IQ、Teradata、Informix等以及可通過ODBC連接的數據庫
5.Web Service
6. SAS、WebSphere MQ
二、堅持多語言
三、支持任務並行工作。
四、開發環境。DS是基於C/S的開發模式。通過DS client 連接到DS Server上進行工作。說DS client 只能在windows平臺上安裝,而server端是多平臺安裝的。DS Client端有四種客戶端工具:DataStage Administrator、DataStage Designer、DataStage Manager、DataStage Director。
目前我對datastage的瞭解是它是一個用於數據倉庫中數據整合的工具,可以有多個異構數據源,通過各種函數控件將數據轉化成合理需要的,並加載到目標數據倉庫中。