企業大數據平臺一：企業需求及相關的基本組件

標籤（空格分隔）：企業大數據平臺

企業大數據平臺一企業需求及相關的基本組件
- 一企業需求
- 二基本組件

一，企業需求：

第一方面：
數據分析：
* MapReduce———Hive:離線分析
* Spark—實時（相對來說）
* 實時分析：Storm(毫秒級別) Spark Streaming(秒級別)
* 深度分析：機器學習，數據挖掘

第二方面：
數據存儲–數據倉庫–數據檢索
*HDFS
*Hive
*Hbase
*搜索–Nutch,Lunece,Solr,ES(ES與Hbase集成)

二，基本組件：

1，zookeeper–分佈式協作框架
應用：
*HDFS HA自動故障轉移
*RM HA 自動故障轉移
*Hbase架構
*Kafka集羣
*Storm集羣
*Solr Clouder 4.x&Solr 5.x
*Dubble

節點個數：2N+1
–小型集羣：3個或者5個
–中型機器：5個或者7個
–大型機器：7個以上（奇數個）

腳本啓動zookeeper集羣：
http://wenku.baidu.com/link?url=B7y1zkxuuPtj__S2UQYT-zUAGgZU_21yqGCE8OL35y8KvKiJXs7Te826sx1EShWHrBcNH1V80rucpfsed6j_fVZQNT4uoncO8wcCgloTTxm

2，集羣大小：
>>測試集羣數量：5--10臺機器
>>機器配置：
-----硬盤：4TB
-----內存：24G/32GB以上（100萬文件--1G內存）
-----CPU和數：6核以上
-----網卡：萬兆以上

>>生產集羣：
--小型集羣：20臺一下
--中型集羣：50臺一下
--大型集羣：50臺以上

2，HDFS
–分佈式文件系統
–NameNode
–DataNode

現在來說，對於企業中，無論是測試還是生產集羣，一概配置HA

3，YARN（include MapReduce）–分佈式集羣資源管理和任務調度

NFS:將hdfs的目錄掛載到本地文件系統

–slider:將已經存在的分佈式應用框架運行在yarn上，並且進行監控管理
–NodeManage:配置每臺機器能夠分配給NM的資源
–隊列:配置，以及資源劃分

http://incubator.apache.org/projects/slider.html

hadoop cluster數據安全性（基於角色）：
http://sentry.apache.org/

4，MapReduce
–分佈式並行計算模型
–思想：分而治之
–執行流程，shuffle,WordCount闡述
–MapReduce 編程模板

企業大數據平臺一：企業需求及相關的基本組件

企業大數據平臺一：企業需求及相關的基本組件

一，企業需求：

二，基本組件：

企業大數據平臺一：企業需求及相關的基本組件

spark性能調優一--常規調優

企業大數據平臺三：企業大數據平臺安裝

spark性能調優二--JVM調優

jvm_outofmemory_JavaVMStackOOM

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結