原创 Hive concat函數和concat_ws函數和concat_group函數&row_number over()和sum() over()&列轉行,行轉列

concat函數,concat_ws函數,concat_group函數 hivesql中的concat函數,concat_ws函數,concat_group函數之間的區別 CONCAT()函數 CONCAT()函數用於將多個字符串

原创 MR架構&文件格式優缺點&壓縮格式優缺點&spilt -> map task關係&wordcount&shuffle的理解

MapReduce是什麼 mapreduce分爲map階段和reduce階段 map階段是映射 生產上可以對於此進行調優,比如合併小文件 reduce階段是聚合 生產上默認是生成1個文件 mr2.x架構設計(mr on yarn

原创 Hive的join&HiveServer2和beeline&複雜數據類型&Function函數

join操作 inner join:只返回連接條件匹配上的數據 outer join left:左表爲基準 right:右表爲基準 full:左右兩表數據都會查詢出 select e.empno, e.ename, e

原创 binlog文件分爲三種模式&binlog文件恢復數據

binlog文件分爲三種模式,分別區別是什麼 binlog對於mysql是至關重要的,binlog與undo redo一起保證了數據的完整性,用於數據恢復,崩潰恢復、任一時間點恢復、甚至是任意一條數據的恢復。所有的高可用模式也都是

原创 Hive介紹&部署&配置&簡單使用

Hive官網:https://cwiki.apache.org/confluence/display/Hive Hadoop 狹義 Hadoop是最重要最基礎的一個部分 廣義 Hadoop生態圈,包括Hadoop、Hive、Sq

原创 Hive的排序和分區

Hive中的排序問題 order by 全局排序(慎用) 默認是升序asc,可指定降序desc。 order by是全局排序 只能有一個reduce作業來完成才能保證數據有序,這也是慎用的原因,數據太多容易導致計算 hive默認是

原创 Rundeck3.2.0安裝部署

rundeck3.2.0安裝部署 下載解壓 [root@JD /]# su - hadoop [hadoop@JD ~]$ cd app/ [hadoop@JD app]$ mkdir rundeck [hadoop@JD run

原创 Sqoop安裝&導入導出

Sqoop 概念 數據從傳統數據庫和Hadoop之間進行導入導出,底層就是使用MapReduce來實現的,不過只有Map沒有Reduce,因爲不需要進行聚合操作 使用場景 1)數據數據在RDBMS中,你想使用Hive進行處理 2)

原创 MySQL行轉列&列轉行

行轉列 即將原本同一列下多行的不同內容作爲多個字段,輸出對應內容。 建表語句 DROP TABLE IF EXISTS tb_score; CREATE TABLE tb_score( id INT(11) NOT

原创 Spark2.4.4源碼編譯

Spark2.4.4源碼編譯 環境準備 安裝好軟件,配置好環境變量,並檢查是否生效。 jdk1.8.0_45 maven 3.6.3 scala2.12.10 配置阿里倉庫 maven 3.6.3 : 需要修改maven的安裝