原创 1.Centos7.6下1.安裝2+4節點Greenplum集羣

Greenplum 2+4測試集羣搭建 概述: ​ 本文檔用於Centos7.6系統下搭建Grennplum 5.25版本“2+4節點”的測試集羣。集羣規劃如下: 主機名 角色 硬件配置 網卡配置 master m

原创 使用pgadminⅢ連接GreenPlum 出現的錯誤

1、在安裝完成pgadminIII後,運行pgadminIII連接服務器主機數據庫,需要GP授權登錄,否則會報錯 解決方案: master主機ip:192.168.xx.xx 在/data/master/gpseg-1/pg_hb

原创 GreenPlum--視圖篇

對於那些使用頻繁或比較複雜的查詢,通過創建視圖(VIEW)可以把其當作訪問表一樣使用SELECT語句來訪問: 視圖不能存在與物理介質上 創建視圖 視圖會忽略ORDER BY 或者排序操作; 使用CREATE VIEW命令將查詢語句

原创 GP--大表分區管理(一)

表分區使用背景: 表分區用以解決特別大的表的問題。比如事實表,解決辦法就是將表分成很多小且更容易管理的部分。通過讓GreenPlum數據庫查詢優化器只掃描滿足給定查詢所需的數據而避免掃描大表的全部內容,分區表能夠提升查詢性能。 表

原创 GreenPlum--創建與管理模式(schema)

模式: DB內組織對象的一種邏輯結構。位於每一個數據庫(DB)下面。 PUBLIC 模式: 每一個DB都自帶的schema。創建的任何對象,在沒有指定schema時,默認創建到PUBLIC下。 創建模式: 1、使用CREATE S

原创 GreenPlum--增、刪、改

插入新記錄 1、需要表名和該表每列的值使用INSERT命令插入數據 INSERT INTO tb_cp_02 VALUES (1,‘2013-12-31’,9.99); 2、顯式的指定列名插入數據 INSERT INTO tb_c

原创 GP--表分區管理(二)

1、定義日期範圍分區表 日期範圍分區表使用單個date或者timestamp字段作爲分區鍵。 可以通過使用START值、 END值和EVERY子句定義分區增量讓GPDB自動產生分區。 缺省情況下, START值總是被包含而END值

原创 GreenPlum--回收空間和分析

回收空間和分析 · 事務ID管理 數據庫的每個事務對應着一個ID,當ID個數超過數據庫限定的閾值時,就會重複用前面的ID,造成混亂。 在每個數據庫每2百萬個事務的時候,對每張表執行VACUUM是很有必要的。 · 系統目錄維護 大

原创 GreenPlum--管理日誌

數據庫服務日誌文件 1、GP的日誌輸出量大而且不需要無期限的保存這些日誌,管理員需要定期的滾動日誌文件。 2、GP在Master和所有Segment實例上開啓了日誌文件按天滾動。 3、服務器日誌文件存放在每個實例數據目錄的pg_l

原创 GreenPlum--gpfdist,gpfdists,file和gphdfs

三種用來訪問外部表數據源的協議:gpfdist,gpfdists和gphdfs gpfdist 在外部表指定文件的所有主機上運行GP文件分發程序(gpfdist)。 該程序指向一個給定的目錄,並行的爲所有segment實例提供外部

原创 GreenPlum--事務管理

定義 事務允許將多個SQL語句放在一起作爲一個整體操作,左右SQL一起成功或失敗 使用事務:在GP中執行事務的SQL 命令: 使用BEGIN或START TRANSACTION 開始一個事務塊 使用END或COMMIT提交事務塊

原创 Linux多版本python切換

[root@hadoop102 ~]# ln -s /usr/bin/python2.7 /usr/bin/python ln: 無法創建符號鏈接"/usr/bin/python": 文件已存在 [root@hadoop102 ~

原创 卸載linux系統自帶JDK,安裝自己的jdk

卸載linux系統自帶JDK,安裝自己的jdk 先確認jdk的具體版本號: [root@hadoop102 ~]# rpm -qa|grep jdk 卸載jdk: 卸載成功。 安裝JDK就不在這裏介紹了,還是比較簡單的,解壓安

原创 MapReduce與Spark

MapReduce是一種分佈式編程模型,採用‘分而治之’的思想,將一個大規模數據集分解成多個小規模數據,然後分發給集羣中多個節點共同計算。這樣可以有效的降低每一部分的運算複雜度,達到提高運算效率的目的。 MapReduce模型將計

原创 GreenPlum--備份與恢復

備份恢復操作概述-關於並行備份(gp_dump) GP同時備份Master和所有活動的Segment實例 備份消耗的時間與系統中實例的數據沒有關係 在Master主機上備份所有DDL文件和GP相關的數據字典表 每個Segment備