阿武的博客文檔索引

原創

2019-10-26 11:37

1、Hadoop組件安裝

搭建CDH 阿里雲 (Step 1: 啓動hdfs)
搭建CDH 阿里雲 (Step 2: 啓動yarn)
搭建CDH 阿里雲 (Step 3: 搭建Hive)
Hive On Spark搭建(cdh)

2、元數據

HIVE 字段級血緣分析寫入Neo4j

3、JOB計算管理

Dr Elephant（HIVE JOB監控調優）安裝使用
 獲取YARN上執行時間最長的JOB列表，並查看是否存在數據傾斜
 HIVE SQL數據傾斜情況以及解決辦法

4、HDFS存儲管理

HIVE表佔用HDFS空間 TOP表查詢
 HDFS文件壓縮工具，支持各種壓縮格式

5、集羣運維

YARN隊列資源、NameNode等數據指標監控
 YARN集羣資源如何分配
 hadoop yarn組件
 YARN假死處理（JOB超過10000個）

6、數據倉庫建模

數據倉庫解決問題和分層設計好處
 一致性維度表設計思路
 一致性事實表設計思路

7、調度工具

zeus調度工具啓動慢（zeus_action數據量太大）
一、Hera調度系統基本數據結構（Event、Listener、Dispatcher）
二、Hera調度系統初始化、生成和清理版本
 三、Hera調度系統待執行隊列入隊和出隊時機

8、HIVE 相關整合

Sqoop 同步Parquet partition Hive表
 Hive元數據表結構
 Hive Metastore部署方式
 HIVE SQL 計算留存率思路
 HIVE分區表添加字段cascade 執行時間過長出現bug
hive collect_set 結果順序不一致
 Hive orc表刪除字段
 同一個sql 在Hive和spark-sql 跑出結果不一樣記錄

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

大數據入門（五）windows上搭建單機版Hadoop2.8（踩坑記錄）

目錄安裝jdk1、下載jdk的包並安裝2、配置環境變量3、驗證Hadoop安裝和配置1、下載Hadoop包及安裝2、環境變量配置Hadoop的文件修改1、core-site.xml2、mapred-site.xml（hadoop2

2020-07-08 12:35:24

大數據入門（七）win10上eclipse使用Hadoop的配置

目錄工具eclipse的Hadoop環境配置參考系列：大數據入門（一）環境搭建，VMware15+CentOS8.1 配置 https://blog.csdn.net/qq_34391511/article/details/1

2020-07-08 12:35:23

學習Hadoop第一個MapReduce程序WordCount的詳解

WordCount官方代碼的詳解作爲小白的我初次在hadoop裏接觸mapReduce程序，難免會有些費解以及難懂代碼所蘊含的意思，經過自己查閱資料以及消化，便得到下面代碼的的解釋： package homework; imp

2020-07-08 12:33:27

WordCount大變身做一些簡單的數據處理應用案列

目錄前言任務描述任務分析MapReduce默認排序規則代碼實現任務最終效果 ———————————————————————————————————————— 前言 WordCount算是我們學習hadoop的第一分佈式計算程序了，

2020-07-08 12:33:17

Hadoop集羣裏執行程序出現異常就要尋找日誌文件查看情況

當我們運行Hadoop執行我們的程序時，很多時候因爲我們的各種無法猜測得到的原因導致程序執行出現異常情況，當然這時的我們也會很苦惱並大聲尖叫“太TM難了，嗚嗚嗚~”，莫着急！出現這樣的情況就需要我們冷靜下來啦，現在我們就需要去尋

2020-07-08 12:33:16

hadoop入門習題集

以下是我上hadoop課程時由老師提供的習題集（利用Hadoop提供的shell命令完成任務）：一、將HDFS中指定文件的內容輸出到終端中；二、顯示HDFS中指定的文件的讀寫權限、大小、創建時間、路徑等信息；三、給定HD

2020-07-08 12:33:16

關於IP地址與主機名映射的/etc/hosts文件配置

爲什麼要這樣做？首先，在hadoop工作就像是一個社團幫派，master是老大，而slave1、slave2等就是master的小弟。但是，slave並沒有像我們那麼聰明一眼就能分辨出自己的老大，它們是以ip地址作爲辨別的。那麼

2020-07-08 12:33:16

Hadoop-02 HDFS簡介讀寫文件

Hadoop - HDFS 簡介 Hadoop Distributed File System，分佈式文件系統架構 Block數據塊基本存儲單位，一般大小爲64M 配置大的塊主要原因：減少搜尋時間，一般硬盤傳輸速率比

2020-07-08 12:26:19

Hadoop-03 Yarn

YARN - ResourceManager 負責全局的資源管理和任務調度，把整個集羣當成計算資源池，只關注分配，不管應用，且不負責容錯資源管理以前資源是每個節點分成一個個的Map slot和Reduce slot，現在是

2020-07-08 12:26:19

Hadoop -04 MapReduce介紹

Hadoop-MapReduce MapReduce是一個框架，我們可以使用它來編寫應用程序，以可靠的方式並行地處理大量商品硬件羣集上的大量數據。什麼是MapReduce？ MapReduce是一種基於java的分佈式計算的處理

2020-07-08 12:26:19

Hadoop-01 hadoop簡介安裝配置測試

Hadoop - 簡介 Hadoop可運行於一般的商用服務器上，具有高容錯、高可靠性、高擴展性等特點特別適合寫一次，讀多次的場景適合大規模數據流式數據（寫一次，讀多次）商用硬件（一般硬件）不適合低延時的數據訪問

2020-07-08 12:26:19

hadoop的DistributedCache

DistributedCache類主要用來設定文件，jar等。其的思想就是將指定的文件（必須在hdfs文件系統上面）在每一個task運行的地方都複製一份數據，所以在map或reduce函數中讀取DistributedCache設定的文件就

2020-07-08 11:59:45

Hive 窗口函數（Windowing Functions）

窗口函數對點擊流處理，和類似的時間序列/滑動窗分析很有用。最近在做時間序列分析，希望趁這個機會對窗口函數有進一步深入的瞭解。 Lead & Lag Lead 和Lag是金融方面的術語，意思是提前和延期。按照時間段統計時，有些

2020-07-08 12:17:40

hive使用tez環境配置

Tez引擎包下載： https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.8.4/apache-tez-0.8.4-bin.tar.gz 1：將下載的安裝包解壓 $ pwd /opt/ubd/

梦里却知是客

2020-07-08 11:59:58

tez 0.9.0 的安裝和測試

文章目錄1 tez的概覽1.1 tez介紹1.1.1 介紹2 tez的安裝2.1 tez下載2.2 tez源碼編譯2.3 tez的安裝2.3.1 解壓並配置環境2.3.2 配置配置文件2.4 tez、hadoop、hive整合2.

Aidon-东哥博客

2020-07-08 11:21:42

24小時熱門文章

最新文章

最新評論文章