企业大数据平台一:企业需求及相关的基本组件

企业大数据平台一:企业需求及相关的基本组件

标签(空格分隔): 企业大数据平台


一,企业需求:

第一方面:
数据分析:
* MapReduce———Hive:离线分析
* Spark—实时(相对来说)
* 实时分析:Storm(毫秒级别) Spark Streaming(秒级别)
* 深度分析:机器学习,数据挖掘

第二方面:
数据存储–数据仓库–数据检索
*HDFS
*Hive
*Hbase
*搜索–Nutch,Lunece,Solr,ES(ES与Hbase集成)

二,基本组件:

1,zookeeper–分布式协作框架
应用:
*HDFS HA自动故障转移
*RM HA 自动故障转移
*Hbase架构
*Kafka集群
*Storm集群
*Solr Clouder 4.x&Solr 5.x
*Dubble

节点个数:2N+1
–小型集群:3个或者5个
–中型机器:5个或者7个
–大型机器:7个以上(奇数个)

脚本启动zookeeper集群:
http://wenku.baidu.com/link?url=B7y1zkxuuPtj__S2UQYT-zUAGgZU_21yqGCE8OL35y8KvKiJXs7Te826sx1EShWHrBcNH1V80rucpfsed6j_fVZQNT4uoncO8wcCgloTTxm
2,集群大小:
>>测试集群数量:5--10台机器
>>机器配置:
-----硬盘:4TB
-----内存:24G/32GB以上(100万文件--1G内存)
-----CPU和数:6核以上
-----网卡:万兆以上

>>生产集群:
--小型集群:20台一下
--中型集群:50台一下
--大型集群:50台以上

2,HDFS
–分布式文件系统
–NameNode
–DataNode

现在来说,对于企业中,无论是测试还是生产集群,一概配置HA

3,YARN(include MapReduce)–分布式集群资源管理和任务调度

NFS:将hdfs的目录挂载到本地文件系统

–slider:将已经存在的分布式应用框架运行在yarn上,并且进行监控管理
–NodeManage:配置每台机器能够分配给NM的资源
–队列:配置,以及资源划分

http://incubator.apache.org/projects/slider.html
hadoop cluster数据安全性(基于角色):
http://sentry.apache.org/

4,MapReduce
–分布式并行计算模型
–思想:分而治之
–执行流程,shuffle,WordCount阐述
–MapReduce 编程模板

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章