原创 Hadoop的元數據治理--Apache Atlas

Apache Atlas是Hadoop社區爲解決Hadoop生態系統的元數據治理問題而產生的開源項目,它爲Hadoop集羣提供了包括數據分類、集中策略引擎、數據血緣、安全和生命週期管理在內的元數據治理核心能力。 Apache At

原创 hadoop13--hive導入導出, 基本查詢,分組, 排序

文章目錄hive高級應用數據導入Load 加載數據Insert 插入數據Location 指定加載數據的位置數據導出insert導出使用HDFS命令導出數據文件到本地通過hive 交互命令方式完成基本查詢基礎查詢常用的函數limi

原创 hadoop16--sqoop

大數據協作框架 在hadoop生態領域中, 協作框架主要分爲以下四種: sqoop: 關係型數據庫導入, 導出到HDFS, HIVE, HBASE flume: 日誌收集框架, 主要收集日誌服務器上產生的文件 oozie: 任務

原创 spark01--spark環境搭建,程序執行,spark-shell,Wordcount

文章目錄一 Spark的運行模式二 spark2.2.0 僞分佈式搭建三 spark 程序執行四 sparkShell五 spark2.2shell和spark1.6shell的對比六 Wordcount6.1 集羣模式版本6.2

原创 hadoop11--resourcemanager的HA配置以及hive的基本概念和操作

文章目錄hadoop概述ResourceManager HA一、集羣規劃(3臺)二、修改配置文件=====yarn-site.xml三、分發配置文件四、啓動ResourceManagere五、查看狀態及測試HiveHive是什麼?

原创 hadoop08--自定義inputFormat以及outputFormat

文章目錄自定義inputFormat需求分析實現自定義InputFromat自定義RecordReadermap端reduce端主函數Driver自定義outputFormat需求分析實現自定義outputFormat自定義Rec

原创 spark02--RDD概念,屬性,類型,32個常用算子,創建,reduceByKey和groupByKey的區別

文章目錄一 彈性分佈式數據集(RDD)1.1 高容錯1.2 位置感知性調度1.3 可伸縮性二 RDD的屬性三 RDD類型3.1 Transformation3.2 Action四 創建RDD方式三種方式五 reduceByKey和

原创 hadoop14--hive函數, 壓縮, 調優, 日誌分析

文章目錄函數查看系統自帶的函數自定義函數創建自定義函數的步驟壓縮和存儲格式壓縮開啓map端輸出壓縮配置開啓reduce端的輸出壓縮文件的存儲格式列式存儲和行式存儲安裝snappy壓縮支持調優fetch 抓取本地模式日誌分析 函數

原创 hadoop07--mapreduce工作流程,Combiner, 二次排序

文章目錄MapReduce工作流程Combiner實例: 實現Combiner二次排序自定義序列化實現map實現reduce實現分組實現主函數Driver MapReduce工作流程 Combiner Combiner對於使用,

原创 hadoop06--自定義數據類型,自定義分區,排序

文章目錄自定義數據類型(序列化)自定義數據類型自定義數據類型規則實例1使用hadoop提供的數據類型實現如上格式輸出自定義數據類型 FlowWritable實現map方法實現reduce方法主函數 DriverMap的分片自定義分

原创 hadoop12--hive的概念, 配置,基本操作

文章目錄hivehive的基本概念hive的基本操作數據庫的操作數據表的操作管理表與外部表的區別hive常用交互命令hive常見屬性配置創建自定義配置文件的步驟配置查詢信息的顯示(頭信息)配置hive的日誌信息參數的配置方式hiv

原创 hadoop09--map端及reduce端的join, 數據壓縮

文章目錄map端join算法實現原理闡述實現示例總結適用場景實現方式:代碼實現緩存小表主函數Driverreduce端join實現實現自定義數據類型map端reduce端主函數Driver數據壓縮作用常用的壓縮的方式Snappy

原创 hadoop15--MR調優, 虛擬列, mysql

文章目錄表的優化數據傾斜合理設置map數量可以影響map的數量的因素合理設置reduce數量並行執行嚴格模式JVM重用推測執行map端reduce端執行計劃---查看SQL語句的執行過程虛擬列安裝配置mysqlmysql的安裝步驟

原创 hadoop10--zookeeper安裝和配置,job提交流程及優化

文章目錄job在YARN上的提交流程優化推測執行mapreduce執行的慢的原因zookeeperzookeeper的安裝與下載單機版安裝配置文件的含義節點類型分佈式安裝一. HA集羣規劃(3臺)二 . 環境準備三. 安裝部署 j

原创 spark12--ElasticSearch安裝, 插件, curl操作, Java操作

文章目錄一 ElasticSearch介紹二 ElasticSearch安裝運行2.1 linux 安裝2.2 Windows安裝2.3 Windows安裝可視化插件2.3.1 方案一:聯網的情況下,可以使用plugin命令。2.3.