原创 GreenPlum 介紹 - client認證、限制併發、SSL連接

【設置client認證】 要從遠端連接GP,修改配置文件 pg_hba.conf (標準PostgreSQL host-basedauthentication文件) 雖然在master和segment都存在pg_hba.conf,但是隻

原创 GreenPlumn數據庫體系結構

        GreenPlumn 數據庫是基於 PostgreSQL 基礎上開發,具有巨大的並行處理能力的數據倉庫,MPP( massively

原创 GREENPLUM優化建議

1. 在完成大批量數據裝載之後,針對目標表總是進行vacuum analyze操作。 2. 表的佈局: 儘量把數據分佈鍵放在最前面,如果是分區表,那麼接下來是分區鍵,並且在此基礎上建議按照數據類型寬度從大到小的順序排列比如先8 byte的

原创 VACCUM

VACUUM Name VACUUM -- 垃圾收集以及可選地分析一個數據庫 Synopsis VACUUM [ FULL | FREEZE ] [ VERBOSE ] [ table ] VACUUM [ FULL | FREE

原创 Linux下管理用戶

查看: Linux下,用戶文件存放在/etc/passwd下: cat /etc/passwd tung@ubuntu:~/download$ cat /etc/passwd root:x:0:0:root:/root:/bin/bash

原创 Hive優化--關鍵參數及HQL案例

  1.      關鍵參數及HQL案例 1.1.    當輸入數據量較大時減小Map處理的最大數據量 已知表midsrc有1.5億條記錄,如下: 分別設置map處理最大數據量爲1024000000、512000000、25600000

原创 ResourceManager GC

ResourceManager GC GC,指Garbage Collection 是JAVA中的垃圾收集器。 現象 在系統運行高峯期,YARN的RM無法登錄或登錄界面現實特別慢。應用執行也特別慢。 分析與解決方案 根據經驗,系統

原创 問題分析報告--讀取ORC文件報seek錯誤

問題分析報告--讀取ORC文件報seek錯誤 1、問題描述 1.1 基本信息[Basic Information] 集羣規模:37+3臺物理機,每臺128G內存;CPU:2*16C;SATA磁盤,2T*12hadoop社區版本:**

原创 問題分析報告--Hive表列屬性更新慢並偶爾更新失敗

問題分析報告--Hive表列屬性更新慢並偶爾更新失敗 1、問題描述 1.1 基本信息[Basic Information] 集羣規模:37+3臺物理機,每臺128G內存;CPU:2*16C;SATA磁盤,2T*12hadoop社區

原创 Greenplum中內存設置不合理導致的報錯

現象: 以下2個案例: 1.RPSM_TRADE_INFO_NLC這個腳本的 560行報錯 腳本中寫法:          DELETEFROM $RPSM_SCH.RPSM_TRADE_INFO O          USING    

原创 問題分析報告--壓力環境下運行緩慢

問題分析報告--壓力環境下運行緩慢 1、問題描述 1.1 基本信息[Basic Information] 集羣規模:37+3臺物理機,每臺128G內存;CPU:2*16C;SATA磁盤,2T*12hadoop社區版本:**商業版本

原创 問題分析報告--DBService備份問題

1、問題描述 1.1 基本信息[Basic Information] 集羣規模:37+3臺物理機,每臺128G內存;CPU:2*16C;SATA磁盤,2T*12hadoop社區版本:**商業版本:FusionInsight_HD_V10

原创 Hive優化--定位調優指導

1.1.    日誌蒐集 1.1.1.   HiveServer日誌獲取 Hive調優需要看HiveServer的運行日誌及GC日誌。 HiveServer日誌路徑爲:HiveServer節點的/var/log/Bigdata/hive

原创 Hive優化--文件格式

1.      Hive調優前相關規劃設計 Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供Hive SQL(簡稱HQL)查詢功能,可以將HQL語句轉換爲MapReduce、Tez、Spark

原创 表關聯優化方法分享

在數據庫中,表與表之間的關聯,通過JOIN連接。可以理解爲“橫向關聯”,如果是多個大表,“橫向關聯”,效率比較慢;  “縱向關聯”:UNION每個表,再GROUPBY去重,得到“關聯”的效果。“縱向關聯”效率比“橫向關聯”強很多。 舉例: