原创 34個ETL子系統-3:數據抽取系統
數據抽取系統,就是從不同的數據源裏抽取數據,並將其輸入到ETL流程中。數據的抽取方式有兩種:基於流的抽取和基於文件的抽取。這兩種方式,從本質上講,都是數據流。唯一有區別的地方,基於靜態的文件時進行抽取時,數據源是不變的,當然,如果是要抽取
原创 34個ETL子系統-5:錯誤事件處理
處理過程錯誤:指的是在ETL過程的處理中發生的錯誤,這類錯誤是最嚴重的。例如,任務執行中觸發了異常,系統資源不足,數據庫連接失敗等。對此類的錯誤,可
原创 Chapter 18 Greenplum 特性總結
Chapter 18 Greenplum 特性總結 This sectionprovides a high-level overview of the system requirements and feature set ofGr
原创 34個ETL子系統-1:數據剖析系統
子系統1:數據剖析系統 該子系統主要分析不同數據源的結構和內容。 1、元數據信息 表名,表中文名,字段名,字段類型,字段備註,是否爲空,是否主鍵,默認值 2、統計信息 記錄行數,NULL個數,最小
原创 Chapter 16 Greenplum PL/Java 語言擴展-About PL/Java
通過使用Greenplum數據庫PL/Java擴展,您可以使用您最喜歡的Java IDE編寫Java方法,並將包含這些方法的JAR文件安裝到Gree
原创 34個ETL子系統-2:增量數據捕獲系統
增量數據捕獲系統,其目標是用來捕獲源系統的變化。捕獲數據變化的形式可以有很多種,典型的幾種方式如下: 1、基於數據源的數據變化捕獲 1.1 時間戳 利用數據表的更新時間戳來實現,最好有兩個時間戳。一個是數據生成時間(標記數據什
原创 Chapter 16 Greenplum PL/Java 語言擴展-安裝並使用PL/JAVA
Installing PL/Java 對於Greenplum數據庫,PL/Java擴展可作爲一個包提供。從Pivotal網絡下載軟件包,然後使用Greenplum軟件包管理器(gppkg)進行安裝。 gppkg實用程序會在羣集中的所有主
原创 Pivotal Clustering Concepts-Greenplum服務器選擇
Greenplum數據庫集成了三種服務器:主服務器,段服務器和ETL服務器。 Greenplum數據庫服務器必須符合以下標準。 MasterServers 通常是1U服務器 與段服務器相同的處理器,RAM,RAID卡和NICs 卡 將6到
原创 34個ETL子系統-4:數據清洗和數據質量處理系統
子系統4:數據清洗和質量處理系統 數據清洗是指修改進入到ETL流程中的業務定義的髒數據。一般而言,我們反覆強調數據清洗應當在數據源進行。但是原始數據
原创 34個ETL子系統-6:審計維度
34個ETL子系統-6:審計維度 前面講的錯誤數據處理,和數據倉庫中的業務數據是完全獨立的。但現在說的審計維度卻是數據倉庫內部的維度表。 審計維度是
原创 Pivotal Clustering Concepts Greenplum 網絡配置管理
NetworkLayout Guidelines General Recommendations Pivotal集羣中的所有系統都需要以某種形式的高速數據互連連接在一起。Pivotal集羣的一般經驗法則是最大值的20%,每個分段節點的
原创 Chapter 11 Greenplum MapReduce 規範
Chapter 11 Greenplum MapReduce 規範 本規範描述了定義GreenplumMapReduce作業的文檔格式和模式。 MapReduce是由Google開發的用於在一系列商品服務器上處理和生成大型數據集的編程模
原创 第12 章 Greenplum PL/pgSQL 程序語言
Chapter 12 GreenplumPL/pgSQL 程序語言 This section contains an overview ofthe Greenplum Database PL/pgSQL language. •
原创 pivotal 集羣相關概念-1
introduction toDesigning a Pivotal Cluster with Customer-supplied Hardware PivotalAppliance提供了一個現成的平臺,致力於滿足大多數客戶的工作負載。
原创 Pivotal Clustering Concepts 安裝指南
每個配置都需要特定的機架計劃。 單機和多機架配置由配置中存在的服務器數量決定。 單機架配置就是將所有計劃的設備放入一個機架中的配置。 多機架配置需要兩個或更多的機架來容納所有計劃的設備。 RackingGuidelines for a