原创 hive基礎 ?看完就懂

文章目錄什麼是Hive爲什麼使用HiveHive的特點Hive架構HIVE基本組成Hive與Hadoop的關係Hive與傳統數據庫對比 什麼是Hive Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張

原创 HDFS的API詳情

使用文件系統方式訪問數據(掌握) 在 java 中操作 HDFS,主要涉及以下 Class: Configuration:該類的對象封轉了客戶端或者服務器的配置; FileSystem:該類的對象是一個文件系統對象

原创 MapReduce的總流程

MapReduce的總流程 1.InputFormat InputFormat到dfs上讀取數據,把數據傳給split 2.Split split將數據進行邏輯拆分,將數據傳給RR 3.RR RR將傳入的數據轉成一行一行的數據,輸

原创 Split的邏輯切分

文字概述 獲取到讀取到的數據,對數據進行邏輯切分,切分的大小是128M. 這裏的128 與HDFS數據塊的128沒有任何關係 HDFS 128 是存儲層面的數據切分 split128 是計算層面的128,只不過數據恰好相等。 兩個

原创 分佈式並行計算框架MapReduce詳解

文章目錄什麼是計算框架?什麼是並行計算框架?什麼是分佈式計算?理解MapReduce思想MapReduce的步驟 什麼是計算框架? 是指實現某項任務或某項工作從開始到結束的計算過程或流的結構。用於去解決或者處理某個複雜的計算問題

原创 集羣新增節點小知識

文章目錄1新增節點的準備工作2 開始新增節點 1新增節點的準備工作 準備工作 序號 內容 1 準備一個新的節點 修改主機名稱 2 配置ip 和mac地址 3 關閉防火牆,關閉selinux 4 修改ip和

原创 Hive知識點總結(持續更新)

文章目錄hive 基本概念hive的意義hive優缺點hive的架構原理hive和數據庫比較hive的數據類型基本數據類型集合數據類型hive的表內部表外部表內部表外部表的轉換分區表分桶表數據加載hive文件格式 hive 基本概

原创 Spark的RDD

文章目錄什麼是RDDRDD的屬性RDD特點RDD的兩種算子緩存 什麼是RDD RDD叫做彈性分佈式數據集,是Spark中最基本的數據抽象。代碼中是一個抽象類,它代表一個不可變、可分區、裏面的元素可並行計算的集合。 RDD的屬性 1

原创 Spark 三種模式

文章目錄Spark爲什麼快Spark 三種模式local本地模式standalone 模式standalone模式的運行圖Yarn 模式yarn模式的運行圖 Spark爲什麼快 spark是基於內存的大數據分析引擎 sp

原创 關於Scala的理解

文章目錄scala簡介爲什麼用scala使用scala所需要的環境scala基礎聲明格式聲明變量三引號變量類型推斷惰性賦值插值表達式數據類型與操作符數據類型運算符scala類型結構for表達式嵌套循環守衛for推導式breakco

原创 hive的orc和parquet和textfile三種格式的壓縮與存儲

文章目錄數據庫壓縮方式有四種 分別是 orc格式 parquet格式以及默認的textfile格式三種格式壓縮效率查詢文件的效率怎麼樣 數據庫壓縮方式有四種 分別是 orc格式 parquet格式以及默認的textfile格式 三

原创 虛擬機中jdk的安裝

創建mnt/soft jdk的壓縮包放入 創建mnt /install 把jdk解壓到此路徑 解壓後 進入配置文件 /etc/profile.d/java.sh 配置環境變量 export JAVA_HOME=/export

原创 線程池重點解析

文章目錄1 線程池1.1 什麼是線程池1.2爲什麼用線程池1.3線程與線程池的對比1.4 線程池的好處1.5 簡單線程池的設計1.6 線程池的核心參數1.7 線程池的處理流程1.8 線程池可選擇的阻塞隊列1.9 線程池可選擇的飽