不容錯過!Greenplum的又一本好書

Greenplum數據庫是基於MPP架構的開源大數據平臺,具有良好的彈性和線性擴展能力,內置並行存儲、並行通信、並行計算和並行優化功能,兼容SQL標準,具有強大、高效的PB級數據存儲、處理和實時分析能力,同時支持涵蓋OLTP型業務的混合負載,可部署於企業裸機、容器、私有云和公有云中,已爲全球金融、電信、製造等行業核心生產系統提供支撐。

隨着大數據技術越來越成熟,各行業領頭企業已基本完成大數據技術平臺的搭建。隨着“十四五”期間強調數據治理和數據要素潛能釋放,以及近些年來養成的“互聯網+”思維,越來越多的企業,尤其是擁有成千上萬家線下直營/加盟門店的零售企業,甚至生產型企業,都開始越來越重視數據。

這些企業所積累的數據以企業經營數據爲主,也就是信息系統產生的結構化數據爲主,數據量比較多,且這些數據之間關係複雜。而企業不僅要求性能快,還要求敏捷響應快速變化的業務需求。MPP分佈式數據庫不僅能夠藉助SQL實現複雜業務邏輯,還能通過分佈式計算達到高效性能。Greenplum非常適合企業建設離線分析的數倉,其邏輯統一管理,加工後的數據價值密度相對較高。

《高效使用Greenplum:入門、進階與數據中臺》作者將多年用Greenplum幫助企業搭建數據倉庫的經驗,藉助實際項目案例以通俗易懂的語言記錄並分享出來,是入行數據分析與應用行業人員的初學指南,也是那些希望採用Greenplum作爲數據倉庫企業的參考。書中提到的架構、技術標準、實施方法,均可作爲參考借鑑。

這不僅是一本從原理到使用、從入門到進階講解Greenplum的著作,而且是一本指導企業用更省錢、更高效的方式使用Greenplum構建企業級數據倉庫和數據中臺的著作。


作者在數據架構和數據倉庫一線工作10餘年,積累了豐富的項目經驗,他用淺顯易懂的語言、貼近生產環境的案例、豐富的示意圖例寫作了本書,能幫助讀者快速掌握具有實戰價值的知識。

內容簡介

本書內容分爲4部分。

第一部分 大數據平臺概述(第1章):主要從應用的角度介紹了大數據技術的發展歷程,幫助讀者瞭解時代背景,把握大數據技術的發展方向。

第二部分 Greenplum入門(第2~4章):簡單介紹Greenplum數據庫的基本原理、安裝與部署、入門操作,幫助讀者認識Greenplum數據庫。沒有任何數據庫應用經驗的讀者可以認真學習這部分內容。

第三部分 Greenplum應用(第5~11章):着重講解了Greenplum數據庫的部分高級應用功能,包括SQL語法、ETL工具箱、運維管理與監控、性能優化以及外部生態。

第四部分 數據中臺實戰(第12~17章):通過對數據中臺建設過程進行全面解讀和深入實戰講解,幫助讀者認識數據中臺的全流程。

具體地閱讀本書你將收穫如下內容:

  • 掌握數據倉庫技術的發展歷程和發展方向;
  • 理解MPP架構的架構特點和實現邏輯;
  • Greenplum數據庫的安裝和基本操作;
  • Greenplum數據庫的工作原理;
  • SQL語句從入門到開發實戰;
  • Greenplum數據庫ETL相關功能的具體用途;
  • 機器學習、文本處理、圖計算、GIS等的入門知識;
  • 掌握Greenplum數據庫的運維和監控要點;
  • 全面掌握Greenplum數據庫的性能優化;
  • 數據中臺的理念和建設路徑;
  • 數據中臺從接口到智能化應用的項目實戰;
  • 零售行業數據中臺的項目實戰案例。  

作者簡介

王春波,資深架構師和數據倉庫專家,現任上海啓高信息科技有限公司大數據架構師,Apache Doris和openGauss貢獻者,Greenplum中文社區參與者。
具有十多年的數據倉庫、數據集市、數據中臺項目實戰經驗,對大數據主流技術架構、產品選型與解決方案有深入研究,尤其擅長用優雅的SQL實現複雜的邏輯。


常年奔波在各個項目交付現場,曾成功主導過中國郵政儲蓄銀行、南海農商銀行、廣東省聯社、前海微衆銀行、廣東南粵銀行等多家銀行的管理會計項目,以及卡賓、安踏、特步等多家零售鞋服企業的數據中臺項目。公衆號“數據中臺研習社”運營者。

專家推薦

本書是春波一線實踐經驗的積累和沉澱,內容覆蓋了Greenplum從入門到深入應用,再到運維監控和性能調優的各個方面。此外,對數據中臺的各個要素也進行了詳細的講解,用案例和圖文並茂的方式闡述了基於Greenplum的數據中臺建設。

——曹正炎 上海漢得信息技術股份有限公司數據研發中心總經理


本書對Greenplum的技術特點、適用場景、常見問題等都做了非常詳盡的闡述。難能可貴的是,作者結合項目實踐,對如何利用Greenplum數據庫解決分析需求、服務業務創新、發揮數據價值也給出了實用高效的經驗分享。對於初學者,本書可以幫助其快速成長爲Greenplum專業人才;對於有經驗的從業人員,本書也是難得的查漏補缺、總結經驗的工具書。

——楊宏武 上海啓高信息科技有限公司聯合創始人兼CTO 


本書通過講背景、說架構、述功能、舉案例的方式,由淺入深地層層剖析了Greenplum的架構原理和功能組件,並通過實戰項目講述了Greenplum適用的各項應用場景。


——黎文惠 潤智科技有限公司大數據架構師

市面上關於Hive和Spark的書非常多,關於Greenplum和數據中臺結合的數據卻沒有,本書填補了這一空白。很多中小企業其實並不需要一套架構複雜的Hadoop平臺,Greenplum集羣纔是他們的最佳選擇。


——蘇丹 成都慧擇網絡技術有限公司數據產品經理

目錄

序一

序二

序三

前言

第一部分 大數據平臺概述

第1章 大數據平臺技術的演進2

1.1 關係型數據庫2

1.1.1 數據庫發展歷程2

1.1.2 關係型數據庫獨霸天下4

1.1.3 結構化查詢語言SQL4

1.1.4 列存儲的興起5

1.2 Hadoop生態系統7

1.2.1 Hadoop概述7

1.2.2 Hadoop生態圈7

1.2.3 Hadoop的優缺點9

1.3 NoSQL的瓶頸和SQL數據庫的迴歸10

1.3.1 NoSQL產品的發展10

1.3.2 NoSQL的共性11

1.3.3 SQL數據庫的迴歸12

1.4 MPP架構的興起14

1.4.1 什麼是MPP架構14

1.4.2 MPP架構的蓬勃發展15

1.4.3 MPP數據庫代表—TBase17

1.4.4 淺談HTAP19

第二部分 Greenplum入門

第2章 Greenplum概述24

2.1 Greenplum的前世今生24

2.2 Greenplum數據庫架構27

2.3 Greenplum數據庫的特點28

2.4 Greenplum新特性及展望30

2.5 Greenplum的優勢32

第3章 Greenplum的安裝與部署35

3.1 Greenplum數據庫安裝過程35

3.1.1 準備工作35

3.1.2 安裝Master節點39

3.1.3 複製安裝包到其他節點41

3.1.4 初始化Greenplum數據庫42

3.2 安裝GPCC43

3.3 Greenplum訪問接口46

3.3.1 CLI46

3.3.2 JDBC47

3.3.3 ODBC48

3.4 Greenplum數據庫常用命令48

3.4.1 啓動和停止48

3.4.2 修改參數49

3.4.3 其他常用命令51

3.5 Greenplum性能測試52

第4章 Greenplum使用入門54

4.1 數據類型詳解54

4.1.1 基本數據類型54

4.1.2 特殊數據類型56

4.1.3 組合數據類型60

4.2 數據表的基本使用62

4.2.1 表對象定義62

4.2.2 表的基本操作63

4.2.3 數據的基本操作64

4.3 數據表的高級應用65

4.3.1 數據表的存儲特性69

4.3.2 分區表詳解72

4.3.3 外部表76

4.4 數據庫函數79

4.4.1 數學函數79

4.4.2 三角函數列表80

4.4.3 字符串函數和操作符80

4.4.4 類型轉換相關函數82

4.4.5 自定義函數83

4.5 數據庫的其他對象85

4.5.1 視圖85

4.5.2 索引85

4.5.3 序列87

第三部分 Greenplum應用

第5章 Greenplum查詢詳解90

5.1 SQL語法92

5.1.1 簡單SQL語法92

5.1.2 WITH子句特性95

5.1.3 IN語句和EXISTS語句98

5.1.4 MERGE子句的實現100

5.2 JOIN操作101

5.3 分析函數的妙用106

5.4 高級函數精選110

第6章 ETL工具箱114

6.1 數據加載王者GPLoad114

6.1.1 GPLoad簡介114

6.1.2 GPLoad配置詳解116

6.1.3 GPLoad實戰118

6.2 自定義存儲過程120

6.2.1 存儲過程介紹 120

6.2.2 存儲過程應用模板121

6.2.3 存儲過程精選案例122

6.3 PXF插件131

6.3.1 PXF簡介131

6.3.2 安裝PXF132

6.3.3 PXF實戰135

6.4 DBLink136

6.4.1 DBLink簡介136

6.4.2 安裝DBLink137

6.4.3 DBlink實戰139

6.5 拉鍊表142

第7章 Greenplum高級應用147

7.1 開放的編程接口147

7.1.1 PL/Python148

7.1.2 PL/R150

7.2 MADlib機器學習庫153

7.2.1 安裝MADlib154

7.2.2 線性迴歸案例157

7.2.3 關聯規則案例158

7.2.4 樸素貝葉斯分類案例159

7.3 半結構化數據分析164

7.4 地理空間數據分析166

7.5 圖計算應用168

第8章 Greenplum運維管理和監控172

8.1 數據庫管理172

8.1.1 創建和管理數據庫172

8.1.2 創建和管理模式173

8.1.3 創建和管理表空間175

8.1.4 創建和管理用戶178

8.1.5 創建和管理資源隊列180

8.2 可視化監控頁面—GPCC183

8.3 管理好幫手—gp_toolkit185

8.4 Greenplum備份和恢復187

8.5 在線擴容工具GPExpand189

8.5.1 Greenplum擴容實戰189

8.5.2 擴容原理分析191

8.6 鎖機制192

8.6.1 鎖管理概述192

8.6.2 普通鎖數據結構192

第9章 Greenplum性能優化197

9.1 系統級優化197

9.1.1 操作系統選擇197

9.1.2 硬件資源配置198

9.1.3 磁盤讀寫199

9.1.4 節點之間的網絡帶寬202

9.1.5 系統參數202

9.2 數據庫級優化204

9.2.1 數據庫參數配置204

9.2.2 資源隊列206

9.3 表級優化206

9.3.1 建表參數207

9.3.2 表的優化208

9.4 執行計劃和查詢優化209

9.4.1 查看執行計劃210

9.4.2 數據掃描方式210

9.4.3 分佈式執行方式213

9.4.4 兩種聚合方式214

9.4.5 關聯分類214

9.4.6 優化器的選擇216

9.4.7 其他關鍵術語217

第10章 Greenplum與開源組件220

10.1 Kettle220

10.2 DataX224

10.3 HDFS、Hive和HBase228

10.4 Spark230

10.5 Kafka235

10.6 Flink238

第11章 Greenplum與BI應用244

11.1 Tableau244

11.1.1 Tableau連接Greenplum245

11.1.2 Tableau最佳實踐要點245

11.2 永洪BI248

11.3 帆軟BI250

11.4 DataV253

11.5 Quick BI253

第四部分 數據中臺實戰

第12章 數據中臺建設思路256

12.1 爲什麼要搭建數據中臺256

12.2 什麼是數據中臺258

12.3 如何搭建數據中臺259

12.3.1 數據資產盤點和規劃259

12.3.2 數據應用規劃與設計260

12.3.3 數據平臺選型與建設261

12.3.4 數據應用設計與實現262

12.3.5 組織架構調整與流程變革262

12.4 數據中臺怎麼選型263

12.4.1 數據倉庫選型263

12.4.2 ETL工具選型265

12.4.3 調度平臺選型266

12.4.4 BI工具選型268

第13章 接口數據同步270

13.1 全量接口同步270

13.2 增量接口同步276

13.3 流式數據同步281

13.4 日誌流數據同步283

第14章 數據建模285

14.1 數據建模思想285

14.1.1 Inmon企業信息化工廠286

14.1.2 Kimball的維度數據倉庫287

14.1.3 兩種建模體系的對比288

14.2 數據分層設計288

14.2.1 操作數據存儲層289

14.2.2 數據倉庫層290

14.2.3 數據集市層292

14.3 數據分層實戰案例293

14.3.1 ODS層293

14.3.2 DWD層293

14.3.3 DWB層297

14.3.4 DWS層299

14.3.5 ADS層307

14.4 數據中臺命名規範311

14.4.1 數據庫表命名312

14.4.2 數據庫字段命名312

14.4.3 腳本命名規範313

第15章 數據中臺主要配套功能314

15.1 數據權限管理314

15.2 數據補錄319

15.3 BI門戶320

15.4 元數據管理323

15.5 指標管理324

第16章 數據中臺數據應用328

16.1 商業智能328

16.2 自助分析平臺331

16.3 數據服務332

16.4 標籤平臺335

16.5 推薦系統338

第17章 基於Greenplum的數據中臺實踐案例342

17.1 項目背景342

17.2 項目需求343

17.3 項目技術實現344

17.3.1 系統架構344

17.3.2 系統ETL分層345

17.3.3 系統調度任務346

17.4 智能數據應用347

17.4.1 自助分析應用348

17.4.2 固定報表349

17.4.3 可視化大屏350

17.4.4 釘釘數據服務351

17.5 典型技術方案分享352

17.5.1 準實時需求實現方案352

17.5.2 數據庫優化方案353

17.5.3 數據權限控制方案355

17.5.4 歷史數據離線存儲方案358

17.5.5 系統備份方案358

17.6 典型業務方案分享359

17.6.1 零售指標同期分析359

17.6.2 零售指標節假日對比分析361

17.6.3 在庫庫存362

17.6.4 在途庫存363

17.6.5 售罄率365

17.6.6 齊碼率368

17.7 項目總結370

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章