原创 Hadoop生態圈(九):kafka

目錄 1  Kafka概述 1.1 消息隊列 1.2 爲什麼需要消息隊列 1.3 什麼是Kafka 1.4 Kafka架構 2 Kafka集羣部署 2.1 環境準備 2.1.1 集羣規劃 2.1.2 下載 2.2 Kafka集羣部署 2.

原创 Hadoop生態圈(六):Hive(二)

目錄 5 DML操作 5.1 數據導入 5.1.1 向表中加載數據(load) 5.1.2 通過查詢語句向表中插入數據(Insert) 5.1.3  查詢語句中創建表並加載數據(As Select) 5.1.4 創建表時通過locatio

原创 Hadoop生態圈(七):Sqoop組件

目錄 1 Sqoop簡介 2 工作原理 3 Sqoop安裝 3.1 下載解壓 3.2 修改配置文件 3.3 拷貝JDBC驅動 3.4 驗證Sqoop 3.5 驗證sqoop是否能夠連接上數據庫 4 Sqoop案例 4.1 導入數據 4.1

原创 Hadoop生態圈(六):Hive(一)

目錄 1 Hive基本概念 1.1 什麼是hive 1.2 hive的特點 1.2.1 優點 1.2.2 缺點 1.3 Hive架構原理 1.4 Hive和數據庫比較 2 Hive安裝 2.1 hive下載地址 2.2 hive安裝部署

原创 Hadoop生態圈(五):Zookeeper組件

目錄 1 Zookeeper 1.1 概述 1.2 特點 1.3 數據結構 1.4 應用場景, 1.5 下載地址 2 zookeeper安裝部署 2.1 分佈式安裝部署 2.2 配置參數解讀 3 Zookeeper內部原理 3.1 選舉機

原创 Hadoop生態圈(四):Yarn組件

目錄 1 Yarn 1.1 Yarn概述 1.2 Yarn基本結構 1.3 Yarn工作機制 1.4 資源調度器 2 hadoop企業優化 2.1  MapReduce跑的慢的原因 2.2 MapReduce優化方法 2.2.1 數據輸入

原创 Hadoop生態圈(三):MapReduce組件

目錄 1 MapReduce入門 1.1 MapReduce定義 1.2 MapReduce的優缺點 1.3 MapReduce核心思想 1.4 MapReduce進程(MR) 1.5 MapReduce編程規範 1.6 WordCoun

原创 hadoop生態圈:hadoop集羣的搭建(一)

目錄 1 hadoop概述 1.1 hadoop是什麼 1.2 hadoop的組成 1.2.1 hdfs架構概述 1.2.2 YARN概述 1.2.3 MapReduce架構概述 1.3 大數據生態體系 1.4 推薦系統架構圖 2  Ha

原创 Hadoop生態圈:HDFS組件(二)

目錄 1 HDFS的概述 1.1 HDFS的概念 1.2 HDFS優缺點 1.2.1 優點 1.2.2 缺點 1.3 HDFS的架構 1.4 block文件塊的大小 2 HDFS的shell客戶端操作 3 HDFS的java客戶端操作 3

原创 在linux上安裝redis,在window上使用redisManager遠程連接

1. 安裝準備: 安裝包:redis-4.0.14.tar.gz 下載地址:https://redis.io/download reids命令參考:http://doc.redisfans.com 2. 安裝: 上傳,解壓,提取和編譯re

原创 redis僞集羣搭建

Redis集羣規範:https://redis.io/topics/cluster-spec 1. 原理簡述: 此處的集羣指的是Cluster, 通過分區/分片來實現一定程度的分佈式與高可用部署。 2. 集羣配置: 2.1  準備工作:

原创 Spark學習(七):SparkStreaming

目錄 1  什麼是SparkStreaming 1.1 SparkStreaming簡介、 1.2 SparkStreaming與Storm的區別 2  SparkStreaming初始 2.1 官方自帶的WordCount程序 2.2

原创 Spark學習(六):Spark SQL一

目錄 1 Spark SQL 1.1 Spark SQL是什麼 1.2 Spark的優點 1.3 RDD vs DataFrame vs Dataset 1.3.1 RDD 1.3.2 DataFrame 1.3.3 Dataset 1.

原创 Spark學習(六):Spark SQL二

目錄 4.數據的read、write和savemode 4.1 數據的讀取 4.2 數據的寫出 4.3  數據保存的模式 5. Spark SQL數據源 5.1 數據源之json 5.2 數據源之parquet 5.3 數據源之csv 5

原创 spark學習(四)

目錄 1.Spark中的共享變量 1.1 廣播變量 1.2 累計器 2. Spark WEBUI 3. 搭建HistoryServer 4.Master HA 1.Spark中的共享變量 在spark程序中,當一個傳遞給Spark操作(例