原创 Hive參數

命名空間 使用權限 描述 hivevar 可讀/可寫 用戶自定義變量 hiveconf 可讀/可寫 Hive相關的配置屬性 system 可讀/可寫 java定義的配置屬性 env 只可讀 shell環境定義的環境變量 set; se

原创 Hive優化--文件壓縮格式

1.1.    Hive表文件及中間文件使用合適的文件壓縮格式 GZip和Snappy,這兩種壓縮算法在大數據應用中最常見,適用範圍最廣,壓縮率和速度都較好,讀取數據也不需要專門的解壓操作,對編碼來說透明。 壓縮率跟數據有關,通常從2到5

原创 問題分析報告--簡單SQL啓動MR

1、問題描述 1.1 基本信息[Basic Information] 集羣規模:37+3臺物理機,每臺128G內存;CPU:2*16C;SATA磁盤,2T*12hadoop社區版本:**商業版本:FusionInsight_HD_V10

原创 問題分析報告--在壓力場景下OS在某種硬件環境下的性能可能會下降90%的問題

1、問題描述 1.1 基本信息[Basic Information] 集羣規模:37+3臺物理機,每臺128G內存;CPU:2*16C;SATA磁盤,2T*12hadoop社區版本:**商業版本:FusionInsight_HD_V10

原创 Hive優化--分區表與分桶表

1.  根據業務特徵創建分區表 使用分區表能有效地分隔數據,分區條件作爲查詢條件時,減少掃描的數據量,加快查詢的效率。     如果業務數據有明顯的時間、區域等維度的區分,同時有較多的對應維度的查詢條件時,建議按照相應維度進行一級或多級分

原创 Hive調優的目標、原則及手段

1.      Hive調優的目標、原則及手段 1.1.    調優目標 Hive調優的目標是在不影響其他業務正常運行的前提下,最大限度利用集羣的物理資源,如CPU、內存、磁盤IO,使其某一項達到瓶頸。如下CPU接近瓶頸:   1.2.

原创 Hive優化--關鍵參數配置指導

  1.      關鍵參數配置指導 1.1.    Container內存相關 1.1.1.   map的內存大小 【參數值】 mapreduce.map.memory.mb 【參數解析】 map任務的內存限制。 【如何調優】 默認:4

原创 獲取gp表結構的函數

說明:此函數可以獲取二級分區表以內的表結構,裏面添加了一些關鍵字過濾,可能不全,遇到時可自行添加 用法:select get_gp_create_sql('schemaname.tablename') -- Function: publ

原创 ubuntu 15.10下設置靜態IP地址

² 先看一下當前狀態: 如上圖所示,我的網卡爲eno16777736(因爲是虛擬機),IP地址爲192.168.0.109,動態分配   ² 開始配置靜態IP Step 1: Ubuntu的IP配置地址:/etc/network/i

原创 JOIN詳解

JOIN詳解 SQL中JOIN有多種:JOIN、INNER JOIN、FULL JOIN、FULL OUTER JOIN、LEFT JOIN、LEFT OUTER JOIN、RIGHT JOIN、LEFT OUTER JOIN。 同