企業大數據平臺一:企業需求及相關的基本組件
標籤(空格分隔): 企業大數據平臺
一,企業需求:
第一方面:
數據分析:
* MapReduce———Hive:離線分析
* Spark—實時(相對來說)
* 實時分析:Storm(毫秒級別) Spark Streaming(秒級別)
* 深度分析:機器學習,數據挖掘
第二方面:
數據存儲–數據倉庫–數據檢索
*HDFS
*Hive
*Hbase
*搜索–Nutch,Lunece,Solr,ES(ES與Hbase集成)
二,基本組件:
1,zookeeper–分佈式協作框架
應用:
*HDFS HA自動故障轉移
*RM HA 自動故障轉移
*Hbase架構
*Kafka集羣
*Storm集羣
*Solr Clouder 4.x&Solr 5.x
*Dubble
節點個數:2N+1
–小型集羣:3個或者5個
–中型機器:5個或者7個
–大型機器:7個以上(奇數個)
腳本啓動zookeeper集羣:
http://wenku.baidu.com/link?url=B7y1zkxuuPtj__S2UQYT-zUAGgZU_21yqGCE8OL35y8KvKiJXs7Te826sx1EShWHrBcNH1V80rucpfsed6j_fVZQNT4uoncO8wcCgloTTxm
2,集羣大小:
>>測試集羣數量:5--10臺機器
>>機器配置:
-----硬盤:4TB
-----內存:24G/32GB以上(100萬文件--1G內存)
-----CPU和數:6核以上
-----網卡:萬兆以上
>>生產集羣:
--小型集羣:20臺一下
--中型集羣:50臺一下
--大型集羣:50臺以上
2,HDFS
–分佈式文件系統
–NameNode
–DataNode
現在來說,對於企業中,無論是測試還是生產集羣,一概配置HA
3,YARN(include MapReduce)–分佈式集羣資源管理和任務調度
NFS:將hdfs的目錄掛載到本地文件系統
–slider:將已經存在的分佈式應用框架運行在yarn上,並且進行監控管理
–NodeManage:配置每臺機器能夠分配給NM的資源
–隊列:配置,以及資源劃分
http://incubator.apache.org/projects/slider.html
hadoop cluster數據安全性(基於角色):
http://sentry.apache.org/
4,MapReduce
–分佈式並行計算模型
–思想:分而治之
–執行流程,shuffle,WordCount闡述
–MapReduce 編程模板