台部落阿武z

先了解Hera代碼裏一些基本數據結構一、Event事件、Listener、Dispatcher 一、初始化 Listener、Dispatcher.jobHandlers 初始化不同任務類型的Listener 獲取前2天到當

2019-07-30 09:07:45

2019-07-30 09:07:45

簡單介紹待運行隊列(MasterContext.scheduleQueue) 生產者：定時時間到、或者依賴任務都執行完，往隊列裏添加待執行的任務消費者：worker 定時去掃描隊列裏是否有任務需要執行一、定時任務如何往隊

2019-07-30 09:07:44

1、設計目標儘可能生成豐富維度屬性儘可能多給出有意義文字性描述（xxx_id + xxx_name）沉澱出通用的維度屬性（需要複雜運算得到，比如商品的三級分類名稱，需要JOIN品類表得到 category3 name

2019-07-30 09:07:44

簡單介紹參照文章 zeus源碼剖析之事件處理機制瞭解Hera也是使用着觀察者模式進行對事件處理。其中老鷹是 Event事件，母雞是不同任務類型的Listener，小雞是 Dispatcher.jobHandlers

2019-07-30 09:07:44

背景 YARN有資源，但有很多JOB處於PENDING狀態，獲取不到資源。這時查看 resourcemanager log日誌，發現有大量的以下信息。 resourcemanager.RMAppManager (RMAppMa

2019-07-07 09:44:13

記一次由於zeus服務停止後，啓動花半小時… MasterContext 初始化 // MasterContext.java public void init(int port){ log.info("init begin");

2019-07-05 09:30:38

如何查看歷史所有數據傾斜的任務參考之前的博客獲取YARN上執行時間最長的JOB列表，並查看是否存在數據傾斜 1. JOIN 數據傾斜 1.1 空值問題 select t1.id from table_a t1 left

2019-07-01 09:57:27

處理思路 1、通過 HistoryServerRestApi 獲取YARN JOB的基本信息（包括JOB的 ID和名稱，開始時間和結束時間） http://<history server http address:port>/w

2019-06-30 10:25:58

思路 1、通過Hive元數據，獲取到表和HDFS的對應關係 2、通過 pyhdfs工具類的get_content_summary方法快速獲取到佔用HDFS大小代碼如下 # requirements.txt MySQL-pyth

2019-06-30 10:25:58

Step 1. 利用HIVE Hook LineageLogger 獲取字段之間的依賴關係注意：LineageLogger Hook 是Hive2.0版本之後存在的，如果HIVE版本不夠需要升級HIVE版本。PS.CDH有的HI

2019-06-29 11:06:10

問題計算每日訪問用戶在之後日期的留存數基礎表每日訪問用戶ID create external table if not exists user_visit_date ( user_id bigint comment

2019-06-27 11:33:15

HQL 例子 select distinct channel from ( select user_id, collect_set(channel) as channel from test_table

2018-12-25 16:43:31

表Schema hive> desc gdm.dim_category; name string 分類名稱

2018-10-27 00:30:58

下載(安裝的方式比較特殊) 官網下載安裝查看python site-packages位置 >>> import sys >>> print sys.path ['', '/Library/Python/2.7/site-pac

2018-08-26 01:44:27