企業大數據平臺一:企業需求及相關的基本組件

企業大數據平臺一:企業需求及相關的基本組件

標籤(空格分隔): 企業大數據平臺


一,企業需求:

第一方面:
數據分析:
* MapReduce———Hive:離線分析
* Spark—實時(相對來說)
* 實時分析:Storm(毫秒級別) Spark Streaming(秒級別)
* 深度分析:機器學習,數據挖掘

第二方面:
數據存儲–數據倉庫–數據檢索
*HDFS
*Hive
*Hbase
*搜索–Nutch,Lunece,Solr,ES(ES與Hbase集成)

二,基本組件:

1,zookeeper–分佈式協作框架
應用:
*HDFS HA自動故障轉移
*RM HA 自動故障轉移
*Hbase架構
*Kafka集羣
*Storm集羣
*Solr Clouder 4.x&Solr 5.x
*Dubble

節點個數:2N+1
–小型集羣:3個或者5個
–中型機器:5個或者7個
–大型機器:7個以上(奇數個)

腳本啓動zookeeper集羣:
http://wenku.baidu.com/link?url=B7y1zkxuuPtj__S2UQYT-zUAGgZU_21yqGCE8OL35y8KvKiJXs7Te826sx1EShWHrBcNH1V80rucpfsed6j_fVZQNT4uoncO8wcCgloTTxm
2,集羣大小:
>>測試集羣數量:5--10臺機器
>>機器配置:
-----硬盤:4TB
-----內存:24G/32GB以上(100萬文件--1G內存)
-----CPU和數:6核以上
-----網卡:萬兆以上

>>生產集羣:
--小型集羣:20臺一下
--中型集羣:50臺一下
--大型集羣:50臺以上

2,HDFS
–分佈式文件系統
–NameNode
–DataNode

現在來說,對於企業中,無論是測試還是生產集羣,一概配置HA

3,YARN(include MapReduce)–分佈式集羣資源管理和任務調度

NFS:將hdfs的目錄掛載到本地文件系統

–slider:將已經存在的分佈式應用框架運行在yarn上,並且進行監控管理
–NodeManage:配置每臺機器能夠分配給NM的資源
–隊列:配置,以及資源劃分

http://incubator.apache.org/projects/slider.html
hadoop cluster數據安全性(基於角色):
http://sentry.apache.org/

4,MapReduce
–分佈式並行計算模型
–思想:分而治之
–執行流程,shuffle,WordCount闡述
–MapReduce 編程模板

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章