台部落xubc

數據倉庫中對有些表採用全量分區，每天一個歷史鏡像數據，有些數據應用系統正好使用該類型表，可以對外輸出一個表視圖使數據消費方不用關心是何種類型的表。在每天定時調度的workflow中重建該視圖，還可以屏蔽調度數據失敗對外面的影響，即使失

2020-06-19 19:22:45

Spark on Yarn模式下的配置 spark-env.sh配置如下，standalone deploy mode部署模式下忽略 export JAVA_HOME=/usr/jdk64/jdk export SPARK_HOME

2020-06-19 19:22:34

## kafka啓動 zookeeper-server start bin/kafka-server-stop.sh nohup bin/kaf

2020-06-19 11:00:42

Linux下網絡環境相關配置，基於Redhat版本的設置 1. 靜態IP配置 vim /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 ONBOOT=yes BOOTPROTO

2020-06-19 11:00:32

1. Python安裝包在https://www.python.org/downloads/下載，因對對python2.x熟悉些所以下載的是python-2.7.13版本安裝完成後添加環境變量 Path=%Path%;C:\P

2020-06-19 11:00:32

##導出整個數據庫結構和數據 mysqldump -h localhost -uroot -p123456 database > dump.sql mysqldump -h localhost -uroot -p123456 databa

2020-02-20 16:03:26

一個運行普通Java程序的shell腳本，指定運行的jdk，依賴jar路徑和運行時arguments #!/bin/bash source ~/.bash_profile APP_HOME=/home/xubc/app_test ec

2020-02-20 16:03:26

Hive常用的函數整理，方便快速查找使用，更多參考文檔https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.條件函數 select nvl(T v1

2020-02-20 16:03:26

以Oracle數據庫爲例，測試在數據處理中經常遇到數據庫中橫表和豎表的相互轉換，採用學生各科成績分數爲測試數據橫錶轉換豎表: CREATE table score ( username varchar(10) , chin

2020-02-20 16:03:26

SQL解析執行的主要步驟：對提交SQL的進行判斷是否已解析和生產執行計劃，對已生成執行計劃的SQL直接執行返回結果對SQL進行語法規範檢查對SQL進行語義檢查，使用表、字段、函數、視圖等數據庫對象是否存在，以及是否擁有對應的操作權限將

2020-02-20 16:03:26

hive 動態分區與靜態分區，靜態分區需要制定分區字段的值插入分區數據，動態分區可以根據分區字段的值自動插入對應分區靜態分區：須指定分區字段的值 insert overwrite table test.tmp_edw_customer

2020-02-20 16:03:26

spark-submit向yarn提交application的腳本，包括spark參數、環境變量、應用程序參數傳入 #!/bin/bash source ~/.bash_profile APP_HOME=/home/data_use

2020-02-20 16:03:14

Hive sql優化方法參數一些整理，方便快速查找使用1. map數量與reduce數量的控制輸入文件大小指實際文件大小，與文件格式textfile, ORC等無關，壓縮的文件格式會小很多設置參數要適當調整--map數量控制 se

2020-02-20 16:03:14

HDFS數據清理一些辦法： datanode數據做reblance 清理臨時目錄、日誌目錄文件全量分區表歷史分區清理使用lzo，orc格式進行數據壓縮清理或者歸檔歷史冷數據增加datanode橫向擴容附上自動清理目錄下過期的文件

2020-02-20 16:03:14

使用impala對大數據量查詢distinct的時候出現如下錯誤 5ab149d_24414dab2c19caca:e54b206c5ab149f_91001337-9d70-4c93-84ce-e7916c1ae804 failed

2020-02-20 16:03:14