原创 Mapreduce之多目錄輸入+Inner Join

我們完成的innerjoin實例中因爲兩個文件的列數不一致導致我們在map操作中必須要加入業務邏輯判斷才能完成正確數據輸出; 那麼這樣的話有沒有什麼優化手段呢? 有! 可以使用多目錄輸入; package com.hnxy.mr.Mul

原创 Spark-思維導圖

原创 hive——DDL操作

--創建語句 create DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEX --刪除語句 drop DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEX

原创 MapReduce之多目錄輸出

多目錄輸出: 輸出兩個文件一個是最大值,一個最小值。 主要操作reduce階段 1.在reduce階段定義多目錄輸出對象 private MutipleOutPuts<Text,DouWritable> outputs =null; 2.

原创 Mapreduce之sort

正序排序: mapreduce本身自帶排序,在map階段是局部有序,在reduce階段是全局有序的。 現在我們測試單個文件使用map輸出 package com.hnxy.mr.Sort; import java.io.IOExcep

原创 練習vim小遊戲

https://vim-adventures.com/

原创 BlockManager分析

BlockManager分析   BlockManager 是一個嵌入在 spark 中的 key-value型分佈式存儲系統。它分爲master和slave。         Driver 端 是 BlockManager master

原创 hive概述

  目錄 HIVE 介紹與原理分析   hive是Hadoop的數據倉儲工具,用於存儲和處理海量的結構話數據,使用sql解決mapreduce的編碼問題,之前寫了很多mapreduce,wordcout(單詞統計)、排序、二次排序、最大值

原创 MapReduce概述

目錄 MapReduce 簡介 MapReduce 流程分析 MapReduce 階段劃分 MapReduce 工作機制剖析 MapReduce 簡介 MapReduce 是現今一個非常流行的分佈式計算框架,它被設計用於並行計算海量數據。

原创 spark 組成及運行大概 流程

spark 組成及運行大概  流程  Driver:運行應用的的main函數,提交任務,下發計算任務。 ClusterManager:資源管理,在獨立的模式(standalone)模式下是master ,在yarn是ResouceMan

原创 理解GC-GC對spark的影響

什麼是GC    垃圾收集 Garbage Collection 通常被稱爲“GC”,回收沒用的對象以釋放空間。        GC 主要回收的是虛擬機堆內存的空間,因爲new 的對象主要是在堆內存。 垃圾收集的算法 1)標記 -清除算法

原创 Spark RDD理解

RDD設計是整個Spark中最爲核心的設計理念,理解了RDD的設計之後自然而然就可以理解Spark爲什麼要這麼設計,首先呢我們要先從Spark和Hadoop的淵源說起。 Spark&Hadoop Hadoop在之前幾年是非常火的,統領了大

原创 Hbase主要組件

1.1 Hbase的架構組成 HBase採用Master/Slave架構搭建集羣,它隸屬於Hadoop生態系統,由以下類型節點組成: HMaster節點、HRegionServer節點、ZooKeeper集羣,而在底層,它將數據存儲於HD