原创 五、spark--spark streaming原理和使用

一、spark-streaming概述 1.1 常用的實時計算引擎 實時計算引擎也叫流式計算引擎,常用的目前有3個:1、Apache Storm:真正的流式計算2、Spark Streaming:嚴格上來說,不是真正的流式計算(實時計算)​

原创 四、spark--sparkSQL原理和使用

[TOC] 一、spark SQL概述 1.1 什麼是spark SQL ​ Spark SQL是Spark用來處理結構化數據的一個模塊,它提供了一個編程抽象叫做DataFrame並且作爲分佈式SQL查詢引擎的作用。類似於hive的作用

原创 一、spark--spark基本概述

[TOC] 一、spark概述 1、什麼是spark Spark是一種快速、通用、可擴展的大數據分析引擎,2009年誕生於加州大學伯克利分校AMPLab,2010年開源,2013年6月成爲Apache孵化項目,2014年2月成爲Apache

原创 一、scala基本入門

[TOC] 一、scala概述 1.1 簡介 ​ scala是一種多範式的編程語言,其設計的初衷是要集成面向對象編程和函數式編程的各種特性。Scala運行於Java平臺(Java虛擬機),併兼容現有的Java程序。它也能運行於CLDC配

原创 一、Flume--數據採集器基本原理和使用

一、概述 1、flume是什麼 1) Flume提供一個分佈式的,可靠的,對大數據量的日誌進行高效收集、聚集、移動的服務,Flume只能在Linux環境下運行。2) Flume基於流式架構,容錯性強,也很靈活簡單,架構簡單。3) Flume

原创 三、hbase--調優

這裏主要講hbase調優相關內容 一、Hmaster高可用 在HBase中Hmaster負責監控RegionServer的生命週期,均衡RegionServer的負載,如果Hmaster掛掉了,那麼整個HBase集羣將陷入不健康的狀態,並且

原创 一、sqoop--基本使用

一、sqoop概述 1.1 簡介 ​ sqoop用於在hadoop(hdfs、hive)和關係型數據庫等結構化數據存儲之間相關導數據的場景。Sqoop於2012年3月孵化出來,現在是一個頂級的Apache項目。請注意,1.99.7與1.

原创 二、hbase--集成Phoenix實現類SQL操作hbase

一、Phoenix概述 1、簡介可以把Phoenix理解爲Hbase的查詢引擎,phoenix,由saleforce.com開源的一個項目,後又捐給了Apache。它相當於一個Java中間件,幫助開發者,像使用jdbc訪問關係型數據庫一些,

原创 一、hbase--基本原理和使用

hbase數據熱點問題: 一個region上訪問數據量過多,解決方案是對熱點數據的rowkey進行預處理,添加一些前綴東西,將熱點數據分散到多個region中。 預合併?動態分區?就是一開始初始數據的時候,就要對數據進行分區,存儲到不同的r

原创 三、hive--jdbc的使用

一、jdbc連接mysql代碼示例 public class TestConnector { final static String USER = "root"; final static String PASSWORD =

原创 一、hive基本原理和使用

一、概述 1、什麼是hive ​ 由Facebook開源用於解決海量結構化日誌的數據統計。是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張表,並提供類SQL查詢功能。本質上其實就是將HQL/SQL轉化爲MapRed

原创 一、zookeeper--部署和使用

一、部署zookeeper 1、資源規劃 服務器 bigdata121/192.168.50.121,bigdata122/192.168.50.122,bigdata123/192.168.50.123 zookeeper版

原创 十三、hadoop常用服務端口

一、hdfs服務端口 端口 作用 9000 fs.defaultFS,如:hdfs://172.25.40.171:9000 9001 dfs.namenode.rpc-address,DataNode會連接這個端口

原创 十七、hadoop壓縮相關

一、數據壓縮在hadoop中的意義 1、基本概述 ​ 壓縮技術可以減少底層hdfs的讀寫字節數。並且能夠降低在數據傳輸過程中佔用的網絡帶寬資源,以及降低佔用的磁盤空間。而在MapReduce中,shuffle以及merge過程

原创 十二、hadoop的序列化

一、序列化基本概述 1、何爲序列化 序列化就是將內存中的對象,轉換成字節序列(或者按照其他數據傳輸協議轉換),以便於持久化存儲到磁盤中以及網絡傳輸 2、爲什麼需要序列化 一般情況下,對象只存儲在本地的內存中,只允許本地的進程調用。而隨着分佈