原创 【總結】Spark任務的core,executor,memory資源配置方法

文章地址:https://blog.51cto.com/10120275/2364992執行Spark任務,資源分配是很重要的一方面。如果配置不準確,Spark任務將耗費整個集羣的機緣導致其他應用程序得不到資源。 怎麼去配置Spark任務的

原创 【HQL】HQL實現用戶訪問記錄表,即訪問A又訪問B的用戶數

用戶訪問表(visit_table)user_id(用戶ID)Url(訪問地址)1A1B2C2A1ASQL查詢,訪問過A並且訪問過B的用戶數量實現1:with user_visit as (     select 1 as user_id,

原创 【HQL】HQL實現每日訂單量和未填地址訂單量以及未填地址訂單量N日後的變化

原始表(order_tbl),按dt分區,每天分區保存全量訂單(20200321分區)order_idaddresstrade_timedt1天津20200320202003212北京20200320202003213北京202003192

原创 【Supervisor】配置

/etc/supervisord.conf配置 注意1、去掉[include]配置的註釋,包括[include]本身[include]files = /etc/supervisor/.ini2、[inet_http_server]中的por

原创 【Kafka】常用命令

創建Topic kafka-topics.sh --create --bootstrap-server localhost:9092 --topic abtest --partitions 2 --replication-factor 1

原创 【Druid】Druid讀取Kafka數據的簡單配置過程

Druid的單機版安裝參考:https://blog.51cto.com/10120275/2429912 Druid實時接入Kafka的過程 下載、安裝、啓動kafka過程: wget http://mirrors.tuna.tsingh

原创 【Druid】單機版Druid安裝過程

記錄Druid單機版安裝過程,大體與官網安裝過程,加入了個別與官網安裝不一致的情況和解決方法 Druid運行依賴zookeeper作爲分佈式協調服務,下載安裝zookeeper wget https://archive.apache.org

原创 如何校驗SQL查詢結果是否準確

總結平常工作中幾種校驗數據的思路 1、對比其他渠道數據結果 查詢需求:從Hive端查詢20190909當天的訂單量(簡單例子),需要校驗SQL結果是否正確校驗方法:Hive的上游數據源爲Mysql,Mysql端會有一些產出數據可供校驗如上數

原创 【總結】Spark任務的core,executor,memory資源分配方法

執行Spark任務,資源分配是很重要的一方面。如果配置不準確,Spark任務將耗費整個集羣的機緣導致其他應用程序得不到資源。 怎麼去配置Spark任務的executors,cores,memory,有如下幾個因素需要考慮: 數據量 任務完

原创 【Spark】Spark什麼時候進行Shuffle數據抓取

一本書中看到完全相反的兩個觀點。矛盾!!!!誰知道具體細節和結論,給留下個評論1、一邊Mapper一邊Reducer 2、完成Mapper之後,才進行Reducer端的Shuffle

原创 Maven、Jenkins實現自動化部署

明天寫 [email protected]:chocolateBlack/multi_env_folder_maven.git

原创 【翻譯】關於Apache Flume FileChannel

這篇文章關於Apache Flume中的File Channel,Apache Flume 是一個分佈式,可靠的,高可用的服務,能夠有效的收集,聚合,傳輸海量的日誌數據,Flume具有基於流數據的簡單靈活的架構,具有魯棒性,容錯性,可靠性機

原创 【總結】各種數據格式的Hive建表語句

Xml格式CREATE EXTERNAL TABLE Gateway_pmsarisoap(BookingSoapLogID STRING, GuidNo STRING, SoapType STRING, SoapContent STRIN