台部落隔壁小白

一、spark-streaming概述 1.1 常用的實時計算引擎實時計算引擎也叫流式計算引擎，常用的目前有3個：1、Apache Storm：真正的流式計算2、Spark Streaming：嚴格上來說，不是真正的流式計算（實時計算）

2019-11-16 13:55:40

[TOC] 一、spark SQL概述 1.1 什麼是spark SQL Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了一個編程抽象叫做DataFrame並且作爲分佈式SQL查詢引擎的作用。類似於hive的作用

2019-11-16 13:55:40

[TOC] 一、spark概述 1、什麼是spark Spark是一種快速、通用、可擴展的大數據分析引擎，2009年誕生於加州大學伯克利分校AMPLab，2010年開源，2013年6月成爲Apache孵化項目，2014年2月成爲Apache

2019-11-16 13:55:40

[TOC] 一、scala概述 1.1 簡介 scala是一種多範式的編程語言，其設計的初衷是要集成面向對象編程和函數式編程的各種特性。Scala運行於Java平臺（Java虛擬機），併兼容現有的Java程序。它也能運行於CLDC配

2019-11-11 13:56:40

一、概述 1、flume是什麼 1) Flume提供一個分佈式的，可靠的，對大數據量的日誌進行高效收集、聚集、移動的服務，Flume只能在Linux環境下運行。2) Flume基於流式架構，容錯性強，也很靈活簡單，架構簡單。3) Flume

2019-11-06 13:56:22

這裏主要講hbase調優相關內容一、Hmaster高可用在HBase中Hmaster負責監控RegionServer的生命週期，均衡RegionServer的負載，如果Hmaster掛掉了，那麼整個HBase集羣將陷入不健康的狀態，並且

2019-11-05 13:52:59

一、sqoop概述 1.1 簡介 sqoop用於在hadoop（hdfs、hive）和關係型數據庫等結構化數據存儲之間相關導數據的場景。Sqoop於2012年3月孵化出來，現在是一個頂級的Apache項目。請注意，1.99.7與1.

2019-11-05 13:52:59

一、Phoenix概述 1、簡介可以把Phoenix理解爲Hbase的查詢引擎，phoenix，由saleforce.com開源的一個項目，後又捐給了Apache。它相當於一個Java中間件，幫助開發者，像使用jdbc訪問關係型數據庫一些，

2019-11-05 13:52:59

hbase數據熱點問題：一個region上訪問數據量過多，解決方案是對熱點數據的rowkey進行預處理，添加一些前綴東西，將熱點數據分散到多個region中。預合併？動態分區？就是一開始初始數據的時候，就要對數據進行分區，存儲到不同的r

2019-11-05 13:52:59

一、jdbc連接mysql代碼示例 public class TestConnector { final static String USER = "root"; final static String PASSWORD =

2019-11-03 13:39:16

一、概述 1、什麼是hive 由Facebook開源用於解決海量結構化日誌的數據統計。是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張表，並提供類SQL查詢功能。本質上其實就是將HQL/SQL轉化爲MapRed

2019-11-03 13:39:16

一、部署zookeeper 1、資源規劃服務器 bigdata121/192.168.50.121，bigdata122/192.168.50.122，bigdata123/192.168.50.123 zookeeper版

2019-11-03 13:39:16

一、hdfs服務端口端口作用 9000 fs.defaultFS，如：hdfs://172.25.40.171:9000 9001 dfs.namenode.rpc-address，DataNode會連接這個端口

2019-10-30 13:37:22

一、數據壓縮在hadoop中的意義 1、基本概述壓縮技術可以減少底層hdfs的讀寫字節數。並且能夠降低在數據傳輸過程中佔用的網絡帶寬資源，以及降低佔用的磁盤空間。而在MapReduce中，shuffle以及merge過程

2019-10-29 14:06:09

一、序列化基本概述 1、何爲序列化序列化就是將內存中的對象，轉換成字節序列（或者按照其他數據傳輸協議轉換），以便於持久化存儲到磁盤中以及網絡傳輸 2、爲什麼需要序列化一般情況下，對象只存儲在本地的內存中，只允許本地的進程調用。而隨着分佈

2019-10-29 14:06:09