原创 34個ETL子系統-3:數據抽取系統

數據抽取系統,就是從不同的數據源裏抽取數據,並將其輸入到ETL流程中。數據的抽取方式有兩種:基於流的抽取和基於文件的抽取。這兩種方式,從本質上講,都是數據流。唯一有區別的地方,基於靜態的文件時進行抽取時,數據源是不變的,當然,如果是要抽取

原创 34個ETL子系統-5:錯誤事件處理

處理過程錯誤:指的是在ETL過程的處理中發生的錯誤,這類錯誤是最嚴重的。例如,任務執行中觸發了異常,系統資源不足,數據庫連接失敗等。對此類的錯誤,可

原创 Chapter 18 Greenplum 特性總結

Chapter 18  Greenplum 特性總結 This sectionprovides a high-level overview of the system requirements and feature set ofGr

原创 34個ETL子系統-1:數據剖析系統

子系統1:數據剖析系統      該子系統主要分析不同數據源的結構和內容。     1、元數據信息     表名,表中文名,字段名,字段類型,字段備註,是否爲空,是否主鍵,默認值     2、統計信息     記錄行數,NULL個數,最小

原创 Chapter 16 Greenplum PL/Java 語言擴展-About PL/Java

通過使用Greenplum數據庫PL/Java擴展,您可以使用您最喜歡的Java IDE編寫Java方法,並將包含這些方法的JAR文件安裝到Gree

原创 34個ETL子系統-2:增量數據捕獲系統

增量數據捕獲系統,其目標是用來捕獲源系統的變化。捕獲數據變化的形式可以有很多種,典型的幾種方式如下: 1、基於數據源的數據變化捕獲     1.1 時間戳   利用數據表的更新時間戳來實現,最好有兩個時間戳。一個是數據生成時間(標記數據什

原创 Chapter 16 Greenplum PL/Java 語言擴展-安裝並使用PL/JAVA

Installing PL/Java 對於Greenplum數據庫,PL/Java擴展可作爲一個包提供。從Pivotal網絡下載軟件包,然後使用Greenplum軟件包管理器(gppkg)進行安裝。 gppkg實用程序會在羣集中的所有主

原创 Pivotal Clustering Concepts-Greenplum服務器選擇

Greenplum數據庫集成了三種服務器:主服務器,段服務器和ETL服務器。 Greenplum數據庫服務器必須符合以下標準。 MasterServers 通常是1U服務器 與段服務器相同的處理器,RAM,RAID卡和NICs 卡 將6到

原创 34個ETL子系統-4:數據清洗和數據質量處理系統

子系統4:數據清洗和質量處理系統 數據清洗是指修改進入到ETL流程中的業務定義的髒數據。一般而言,我們反覆強調數據清洗應當在數據源進行。但是原始數據

原创 34個ETL子系統-6:審計維度

34個ETL子系統-6:審計維度 前面講的錯誤數據處理,和數據倉庫中的業務數據是完全獨立的。但現在說的審計維度卻是數據倉庫內部的維度表。 審計維度是

原创 Pivotal Clustering Concepts Greenplum 網絡配置管理

NetworkLayout Guidelines General Recommendations   Pivotal集羣中的所有系統都需要以某種形式的高速數據互連連接在一起。Pivotal集羣的一般經驗法則是最大值的20%,每個分段節點的

原创 Chapter 11 Greenplum MapReduce 規範

Chapter 11 Greenplum MapReduce 規範 本規範描述了定義GreenplumMapReduce作業的文檔格式和模式。 MapReduce是由Google開發的用於在一系列商品服務器上處理和生成大型數據集的編程模

原创 第12 章 Greenplum PL/pgSQL 程序語言

Chapter 12 GreenplumPL/pgSQL 程序語言 This section contains an overview ofthe Greenplum Database PL/pgSQL language. •    

原创 pivotal 集羣相關概念-1

introduction toDesigning a Pivotal Cluster with Customer-supplied Hardware PivotalAppliance提供了一個現成的平臺,致力於滿足大多數客戶的工作負載。

原创 Pivotal Clustering Concepts 安裝指南

每個配置都需要特定的機架計劃。 單機和多機架配置由配置中存在的服務器數量決定。 單機架配置就是將所有計劃的設備放入一個機架中的配置。 多機架配置需要兩個或更多的機架來容納所有計劃的設備。 RackingGuidelines  for a