原创 azkaban2.5.0安裝及其使用

Azkaban安裝部署 安裝前準備 azkaban-web-server-2.5.0.tar.gz azkaban-executor-server-2.5.0.tar.gz azkaban-sql-script-2.5.0.tar

原创 動態規劃之揹包問題(java實現)

動態規劃 揹包問題 揹包問題:有一個揹包,容量爲4磅 物品 重量 價格 吉他(G) 1 1500 音響(S) 4 3000 電腦(L) 3 2000 要求達到的目標爲裝入的揹包的總價值最大,並且重

原创 hive配置tez引擎(排除所有情況bug)

hive配置tez引擎(最管用直插) 多次入坑最終總結出了經驗 tez相比MapReduce而言少了中間階段向hdfs持久化的過程,多作業轉化爲單作業,只需要一次hdfs,提升計算性能。 集羣 我的集羣比較複雜,基

原创 項目中數據遷移實踐(更)

項目中的數據遷移(更) 需求 數據服務的需求,除了公司集羣現有的業務數倉表之外,還需要用戶行爲數據,因爲主要是風控業務,所以大數據一直在做和規則機有關的數據處理和分析,由於定位問題,所以是有將行爲數據回收自己開發的想法,爲了完成

原创 實時數倉1

實時數倉 離線→實時 介紹 從某種角度而言,實時數倉是針對基礎實時應用的優化版,避免實時處理的煙囪式發展,分層管理,數倉思想,邏輯、性能優化,提高了代碼的複用率和整體生產效率。 從離線到實時的角度而言,實時性更強了,能夠滿足即時

原创 hadoop2.7.6五臺機器HA高可用centos6.5,無任何格式和配置bug可直接完成操作全過程

ljwha 準備 虛擬機準備 1. 概念:集羣是真實環境的多臺機器,共同配合完成一個分佈式文件系統的構建 2. 環境:centos6.5,hadoop2.7.6,jdk1.8+ 3. 準備工作: 1. linux,jdk,

原创 (數據結構和算法)哈希表的講解和案例實現

哈希表 看一個實際需求,google公司的一個上機題: 有一個公司,當有新的員工來報道時,要求將該員工的信息加入(id,性別,年齡,住址…),當輸入該員工的id時,要求查找到該員工的 所有信息. 要求: 不使用數據庫,儘量節省內

原创 Hive全實現經典五十題(持續優化)

學生課程成績老師,四張表 學生表 成績表 課程表 老師表 查詢"01"課程比"02"課程成績高的學生的信息及課程分數 //連接表時對連接的表加條件 select s.s_name,s.s_id,s.s_

原创 hive經典例題(持續更新)

hive經典例題 hive的項目實戰 https://blog.csdn.net/Kevin__Durant/article/details/101115361 每個用戶的連續登陸的最大天數 uid,date 1,2019-0

原创 HIVE項目實戰

Hive實戰之影音系統 數據(https://download.csdn.net/download/kevin__durant/11798895)這上面還要積分,如果有需要我私發 數據格式↓前九行分別對應表名,最後對應相關