原创 YARN基礎概念

YARN基礎概念 文章目錄YARN基礎概念概述特性基本架構三大組件ResourceManagerNodeManagerApplicationMaster運行流程調度器 SchedulerFIFO SchedulerCapacity

原创 Hive創建自定義UDF函數

Hive創建自定義UDF函數 文章目錄Hive創建自定義UDF函數博客資源:1. 首先打開IDEA,創建一個maven項目2. 導入所需要的依賴3. 創建一個包來存儲相關的類4. 寫一個 java 類,繼承 UDF,並重載 eva

原创 Sqoop的導入和導出

Sqoop的導入和導出 博客資源: MySQL創建測試表和數據,Sqoop相關練習腳本: 鏈接:https://pan.baidu.com/s/1M_Zr3-cJNJMZQHhUA3XZKQ 提取碼:csgw 導入 將MySQL的

原创 Azkanban基本概念

Azkanban基本概念 博客資源: 鏈接:https://pan.baidu.com/s/1XgXXyGdSz4T9qDXK44ypjA 提取碼:n2ay 內包含Azkaban安裝所需的三個tar包。 介紹 Azkaban 是由

原创 Hive MR優化

Hive MR優化 文章目錄Hive MR優化1. map reduce個數選擇2. 調整一批運行的map數3. 動態調整4. 設置合理的reduce啓動時間5. 設置sort時的內存6. 對map的輸出結果進行壓縮,提升從map

原创 Hive編程指南整理部分基礎概念

Hive編程指南整理部分基礎概念 文章目錄Hive編程指南整理部分基礎概念部分筆記Hive服務Hive中的變量和屬性命名空間Hive CLIHive查看操作命令歷史在Hive中使用Hadoop的dfs命令Amazon S3 部分筆

原创 HDFS 安全模式

HDFS 安全模式 文章目錄HDFS 安全模式安全模式概述安全模式配置安全模式命令 安全模式概述 安全模式是 HDFS 所處的一種特殊狀態,在這種狀態下,文件系統只接受讀數據請求,而不接受刪除、修改等變更請求,是一種保護機制,用於

原创 HiveQL視圖

HiveQL視圖 文章目錄HiveQL視圖使用視圖來限制基於條件過濾的數據動態分區中的視圖和map類型視圖其他相關 視圖可以允許保存一個查詢並像對待表一樣對這個查詢進行操作。這是一個邏輯結構,因爲它不像一個表會存儲數據。換句話說,

原创 Hive創建UDAF函數

Hive創建UDAF函數 文章目錄Hive創建UDAF函數1. 在之前的maven工程上重新創建一個java類2. 將寫好的程序打包3. 上傳至Linux系統上4. 連接上Hive5. 使用命令,將jar包添加進Hive中6. 創

原创 Hive 參數配置

Hive 參數配置 1. Hive 命令行 直接輸入 $HIVE_HOME/bin/hive 會進入Hive的shell客戶端交互窗口。 輸入$HIVE_HOME/bin/hive –H或者 –help可以顯示幫助選項: 說明:

原创 kettle連接Hive操作

kettle連接Hive操作 文章目錄kettle連接Hive操作從Hive中下載數據到excel中向Hive中寫入數據通過Hadoopcopyfiles作業組件把數據加載到hive數據庫中執行Hive的SQL語句 從Hive中下

原创 HiveQL索引

HiveQL索引 文章目錄HiveQL索引創建索引重建索引顯示索引刪除索引實現一個定製化的索引處理器索引的其他信息見我的另外一篇博客。 Hive只有有限的索引功能。Hive中沒有普通關係型數據庫中鍵的概念,但是還是可以對一些字段建

原创 使用kettle從HDFS上 下載、上傳文件

使用kettle從HDFS上 下載、上傳文件 文章目錄使用kettle從HDFS上 下載、上傳文件1. 從核心對象中找到Big data,拉出 Hadoop file input 步驟,然後輸入相關信息。2. 將結果輸出到exce

原创 kettle配置Hadoop環境

kettle配置Hadoop環境 文章目錄kettle配置Hadoop環境1. 從Hadoop集羣上下載 core-site.xml 和 hdfs-site.xml 1. 從Hadoop集羣上下載 core-site.xml 和

原创 Hive創建自定義GenericUDF函數

Hive創建自定義GenericUDF函數 文章目錄Hive創建自定義GenericUDF函數本文需要了解的幾個點:1. 在之前的maven工程上重新創建一個java類2. 將寫好的程序打包3. 上傳至Linux系統上4. 連接上