台部落李佳琪大数据成长之路

文章目錄什麼是Hive爲什麼使用HiveHive的特點Hive架構HIVE基本組成Hive與Hadoop的關係Hive與傳統數據庫對比什麼是Hive Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張

2020-06-22 23:34:35

使用文件系統方式訪問數據（掌握）在 java 中操作 HDFS，主要涉及以下 Class： Configuration：該類的對象封轉了客戶端或者服務器的配置; FileSystem：該類的對象是一個文件系統對象

2020-06-22 23:34:24

MapReduce的總流程 1.InputFormat InputFormat到dfs上讀取數據，把數據傳給split 2.Split split將數據進行邏輯拆分，將數據傳給RR 3.RR RR將傳入的數據轉成一行一行的數據，輸

2020-06-22 23:34:24

文字概述獲取到讀取到的數據，對數據進行邏輯切分，切分的大小是128M. 這裏的128 與HDFS數據塊的128沒有任何關係 HDFS 128 是存儲層面的數據切分 split128 是計算層面的128，只不過數據恰好相等。兩個

2020-06-22 23:34:24

文章目錄什麼是計算框架？什麼是並行計算框架？什麼是分佈式計算？理解MapReduce思想MapReduce的步驟什麼是計算框架？是指實現某項任務或某項工作從開始到結束的計算過程或流的結構。用於去解決或者處理某個複雜的計算問題

2020-06-22 23:34:24

文章目錄1新增節點的準備工作2 開始新增節點 1新增節點的準備工作準備工作序號內容 1 準備一個新的節點修改主機名稱 2 配置ip 和mac地址 3 關閉防火牆，關閉selinux 4 修改ip和

2020-06-22 23:34:24

文章目錄hive 基本概念hive的意義hive優缺點hive的架構原理hive和數據庫比較hive的數據類型基本數據類型集合數據類型hive的表內部表外部表內部表外部表的轉換分區表分桶表數據加載hive文件格式 hive 基本概

2020-04-21 00:38:40

文章目錄什麼是RDDRDD的屬性RDD特點RDD的兩種算子緩存什麼是RDD RDD叫做彈性分佈式數據集，是Spark中最基本的數據抽象。代碼中是一個抽象類，它代表一個不可變、可分區、裏面的元素可並行計算的集合。 RDD的屬性 1

2020-04-14 08:41:10

文章目錄Spark爲什麼快Spark 三種模式local本地模式standalone 模式standalone模式的運行圖Yarn 模式yarn模式的運行圖 Spark爲什麼快 spark是基於內存的大數據分析引擎 sp

2020-04-14 08:41:10

文章目錄scala簡介爲什麼用scala使用scala所需要的環境scala基礎聲明格式聲明變量三引號變量類型推斷惰性賦值插值表達式數據類型與操作符數據類型運算符scala類型結構for表達式嵌套循環守衛for推導式breakco

2020-03-31 09:47:30

文章目錄數據庫壓縮方式有四種分別是 orc格式 parquet格式以及默認的textfile格式三種格式壓縮效率查詢文件的效率怎麼樣數據庫壓縮方式有四種分別是 orc格式 parquet格式以及默認的textfile格式三

2020-03-08 14:56:35

創建mnt/soft jdk的壓縮包放入創建mnt /install 把jdk解壓到此路徑解壓後進入配置文件 /etc/profile.d/java.sh 配置環境變量 export JAVA_HOME=/export

2020-02-22 21:44:42

文章目錄1 線程池1.1 什麼是線程池1.2爲什麼用線程池1.3線程與線程池的對比1.4 線程池的好處1.5 簡單線程池的設計1.6 線程池的核心參數1.7 線程池的處理流程1.8 線程池可選擇的阻塞隊列1.9 線程池可選擇的飽

2020-02-22 21:44:32