Datastage的學習革命道路之首篇

2014年2月12號

   今天是學習Datastage這門技術的第一天,也是這個博客開始的首篇。堅持與否,完成與否,全憑個人喜好和意志。道路坎坷哉!


   首先,Datastage的概念與用途。

    IBM InfoSphere DataStage是IBM開發的一種ETL工具,也是IBM信息平臺解決方案套件和IBM InfoSphere的其中一部分。它是一個以圖形界面方式來提供數據整合解決方案的集成工具。DataStage有服務器版本和企業版本等多種版本。(copy from 維基百科)

   ETL是Extraction-Transformation-Loading的簡寫。它是數據倉庫和數據集成應用中的一個重要部分。主要是一個將數據進行抽取,轉換,最後加載的過程。是數據倉庫重要的一個環節。主要是負責將分散的、異構數據源中的數據如關係數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後加載到數據倉庫或數據集市中,成爲聯機分析處理、數據挖掘的基礎。

   Datastage 便是這個ETL技術的工具之一,還有類似工具有OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)等等。

   介紹:

   一、數據源

         數據整合中,數據源的連接範圍直接決定着它的使用範圍。DS支持多種數據源,包括;

           1.文本文件

           2.xml 文件

           3.企業應用程序,比如 SAP、PeopleSoft、Siebel、Oracle Application

           4. 幾乎所有的數據庫系統,比如 DB2、Oracle、SQL Server、Sybase ASE/IQ、Teradata、Informix等以及可通過ODBC連接的數據庫

           5.Web Service

           6. SAS、WebSphere MQ

 二、堅持多語言

 三、支持任務並行工作。

 四、開發環境。DS是基於C/S的開發模式。通過DS client 連接到DS Server上進行工作。說DS client 只能在windows平臺上安裝,而server端是多平臺安裝的。DS Client端有四種客戶端工具:DataStage Administrator、DataStage Designer、DataStage Manager、DataStage Director。

   目前我對datastage的瞭解是它是一個用於數據倉庫中數據整合的工具,可以有多個異構數據源,通過各種函數控件將數據轉化成合理需要的,並加載到目標數據倉庫中。




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章