原创 hive上創建表視圖

  數據倉庫中對有些表採用全量分區,每天一個歷史鏡像數據,有些數據應用系統正好使用該類型表,可以對外輸出一個表視圖使數據消費方不用關心是何種類型的表。在每天定時調度的workflow中重建該視圖,還可以屏蔽調度數據失敗對外面的影響,即使失

原创 Spark On Yarn的配置

Spark on Yarn模式下的配置   spark-env.sh配置如下,standalone deploy mode部署模式下忽略 export JAVA_HOME=/usr/jdk64/jdk export SPARK_HOME

原创 kafka0.8.2命令

##  kafka啓動 zookeeper-server start bin/kafka-server-stop.sh  nohup bin/kaf

原创 Linux下網絡設置

Linux下網絡環境相關配置,基於Redhat版本的設置 1. 靜態IP配置 vim /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 ONBOOT=yes BOOTPROTO

原创 windows下python環境安裝與配置

1. Python安裝包在https://www.python.org/downloads/下載, 因對對python2.x熟悉些 所以下載的是python-2.7.13版本    安裝完成後添加環境變量 Path=%Path%;C:\P

原创 mysql導出庫結構和表數據

##導出整個數據庫結構和數據 mysqldump -h localhost -uroot -p123456 database > dump.sql mysqldump -h localhost -uroot -p123456 databa

原创 運行java程序shell腳本

一個運行普通Java程序的shell腳本,指定運行的jdk,依賴jar路徑和運行時arguments #!/bin/bash source ~/.bash_profile APP_HOME=/home/xubc/app_test ec

原创 hive常用函數整理

Hive常用的函數整理,方便快速查找使用,更多參考文檔https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.條件函數 select nvl(T v1

原创 橫豎表相互轉換SQL

以Oracle數據庫爲例,測試在數據處理中經常遇到數據庫中橫表和豎表的相互轉換,採用學生各科成績分數爲測試數據 橫錶轉換豎表: CREATE table score ( username varchar(10) , chin

原创 數據庫SQL解析執行過程

SQL解析執行的主要步驟: 對提交SQL的進行判斷是否已解析和生產執行計劃,對已生成執行計劃的SQL直接執行返回結果對SQL進行語法規範檢查對SQL進行語義檢查,使用表、字段、函數、視圖等數據庫對象是否存在,以及是否擁有對應的操作權限將

原创 hive 動態分區使用

hive 動態分區與靜態分區,靜態分區需要制定分區字段的值插入分區數據,動態分區可以根據分區字段的值自動插入對應分區 靜態分區:須指定分區字段的值 insert overwrite table test.tmp_edw_customer

原创 spark-submit提交的shell腳本

spark-submit向yarn提交application的腳本,包括spark參數、環境變量、應用程序參數傳入 #!/bin/bash source ~/.bash_profile APP_HOME=/home/data_use

原创 hive sql優化整理

Hive sql優化方法參數一些整理,方便快速查找使用1. map數量與reduce數量的控制    輸入文件大小指實際文件大小,與文件格式textfile, ORC等無關,壓縮的文件格式會小很多設置參數要適當調整--map數量控制 se

原创 HDFS上磁盤數據清理

HDFS數據清理一些辦法: datanode數據做reblance 清理臨時目錄、日誌目錄文件 全量分區表歷史分區清理 使用lzo,orc格式進行數據壓縮 清理或者歸檔歷史冷數據 增加datanode橫向擴容 附上自動清理目錄下過期的文件

原创 impala大數據量查詢/tmp/impala-scratch創建異常

使用impala對大數據量查詢distinct的時候出現如下錯誤 5ab149d_24414dab2c19caca:e54b206c5ab149f_91001337-9d70-4c93-84ce-e7916c1ae804 failed