原创 GreenPlum 介紹 - client認證、限制併發、SSL連接
【設置client認證】 要從遠端連接GP,修改配置文件 pg_hba.conf (標準PostgreSQL host-basedauthentication文件) 雖然在master和segment都存在pg_hba.conf,但是隻
原创 GreenPlumn數據庫體系結構
GreenPlumn 數據庫是基於 PostgreSQL 基礎上開發,具有巨大的並行處理能力的數據倉庫,MPP( massively
原创 GREENPLUM優化建議
1. 在完成大批量數據裝載之後,針對目標表總是進行vacuum analyze操作。 2. 表的佈局: 儘量把數據分佈鍵放在最前面,如果是分區表,那麼接下來是分區鍵,並且在此基礎上建議按照數據類型寬度從大到小的順序排列比如先8 byte的
原创 VACCUM
VACUUM Name VACUUM -- 垃圾收集以及可選地分析一個數據庫 Synopsis VACUUM [ FULL | FREEZE ] [ VERBOSE ] [ table ] VACUUM [ FULL | FREE
原创 Linux下管理用戶
查看: Linux下,用戶文件存放在/etc/passwd下: cat /etc/passwd tung@ubuntu:~/download$ cat /etc/passwd root:x:0:0:root:/root:/bin/bash
原创 Hive優化--關鍵參數及HQL案例
1. 關鍵參數及HQL案例 1.1. 當輸入數據量較大時減小Map處理的最大數據量 已知表midsrc有1.5億條記錄,如下: 分別設置map處理最大數據量爲1024000000、512000000、25600000
原创 ResourceManager GC
ResourceManager GC GC,指Garbage Collection 是JAVA中的垃圾收集器。 現象 在系統運行高峯期,YARN的RM無法登錄或登錄界面現實特別慢。應用執行也特別慢。 分析與解決方案 根據經驗,系統
原创 問題分析報告--讀取ORC文件報seek錯誤
問題分析報告--讀取ORC文件報seek錯誤 1、問題描述 1.1 基本信息[Basic Information] 集羣規模:37+3臺物理機,每臺128G內存;CPU:2*16C;SATA磁盤,2T*12hadoop社區版本:**
原创 問題分析報告--Hive表列屬性更新慢並偶爾更新失敗
問題分析報告--Hive表列屬性更新慢並偶爾更新失敗 1、問題描述 1.1 基本信息[Basic Information] 集羣規模:37+3臺物理機,每臺128G內存;CPU:2*16C;SATA磁盤,2T*12hadoop社區
原创 Greenplum中內存設置不合理導致的報錯
現象: 以下2個案例: 1.RPSM_TRADE_INFO_NLC這個腳本的 560行報錯 腳本中寫法: DELETEFROM $RPSM_SCH.RPSM_TRADE_INFO O USING
原创 問題分析報告--壓力環境下運行緩慢
問題分析報告--壓力環境下運行緩慢 1、問題描述 1.1 基本信息[Basic Information] 集羣規模:37+3臺物理機,每臺128G內存;CPU:2*16C;SATA磁盤,2T*12hadoop社區版本:**商業版本
原创 問題分析報告--DBService備份問題
1、問題描述 1.1 基本信息[Basic Information] 集羣規模:37+3臺物理機,每臺128G內存;CPU:2*16C;SATA磁盤,2T*12hadoop社區版本:**商業版本:FusionInsight_HD_V10
原创 Hive優化--定位調優指導
1.1. 日誌蒐集 1.1.1. HiveServer日誌獲取 Hive調優需要看HiveServer的運行日誌及GC日誌。 HiveServer日誌路徑爲:HiveServer節點的/var/log/Bigdata/hive
原创 Hive優化--文件格式
1. Hive調優前相關規劃設計 Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供Hive SQL(簡稱HQL)查詢功能,可以將HQL語句轉換爲MapReduce、Tez、Spark
原创 表關聯優化方法分享
在數據庫中,表與表之間的關聯,通過JOIN連接。可以理解爲“橫向關聯”,如果是多個大表,“橫向關聯”,效率比較慢; “縱向關聯”:UNION每個表,再GROUPBY去重,得到“關聯”的效果。“縱向關聯”效率比“橫向關聯”強很多。 舉例: