企业大数据平台一：企业需求及相关的基本组件

标签（空格分隔）：企业大数据平台

企业大数据平台一企业需求及相关的基本组件
- 一企业需求
- 二基本组件

一，企业需求：

第一方面：
数据分析：
* MapReduce———Hive:离线分析
* Spark—实时（相对来说）
* 实时分析：Storm(毫秒级别) Spark Streaming(秒级别)
* 深度分析：机器学习，数据挖掘

第二方面：
数据存储–数据仓库–数据检索
*HDFS
*Hive
*Hbase
*搜索–Nutch,Lunece,Solr,ES(ES与Hbase集成)

二，基本组件：

1，zookeeper–分布式协作框架
应用：
*HDFS HA自动故障转移
*RM HA 自动故障转移
*Hbase架构
*Kafka集群
*Storm集群
*Solr Clouder 4.x&Solr 5.x
*Dubble

节点个数：2N+1
–小型集群：3个或者5个
–中型机器：5个或者7个
–大型机器：7个以上（奇数个）

脚本启动zookeeper集群：
http://wenku.baidu.com/link?url=B7y1zkxuuPtj__S2UQYT-zUAGgZU_21yqGCE8OL35y8KvKiJXs7Te826sx1EShWHrBcNH1V80rucpfsed6j_fVZQNT4uoncO8wcCgloTTxm

2，集群大小：
>>测试集群数量：5--10台机器
>>机器配置：
-----硬盘：4TB
-----内存：24G/32GB以上（100万文件--1G内存）
-----CPU和数：6核以上
-----网卡：万兆以上

>>生产集群：
--小型集群：20台一下
--中型集群：50台一下
--大型集群：50台以上

2，HDFS
–分布式文件系统
–NameNode
–DataNode

现在来说，对于企业中，无论是测试还是生产集群，一概配置HA

3，YARN（include MapReduce）–分布式集群资源管理和任务调度

NFS:将hdfs的目录挂载到本地文件系统

–slider:将已经存在的分布式应用框架运行在yarn上，并且进行监控管理
–NodeManage:配置每台机器能够分配给NM的资源
–队列:配置，以及资源划分

http://incubator.apache.org/projects/slider.html

hadoop cluster数据安全性（基于角色）：
http://sentry.apache.org/

4，MapReduce
–分布式并行计算模型
–思想：分而治之
–执行流程，shuffle,WordCount阐述
–MapReduce 编程模板

企业大数据平台一：企业需求及相关的基本组件

企业大数据平台一：企业需求及相关的基本组件

一，企业需求：

二，基本组件：

模拟手机设备：使用 Playwright 实现移动端自动化测试

Mellanox网卡开启SR-IOV

全面系统的AI学习路径，帮助普通人也能玩转AI

uni-app实现上拉加载

vue3编译优化之“静态提升”

又是一个月-20240513

flask 如何保证返回json有序

linux服务器设置ssh免密

HTML 00 Tutorial

apisix~lua插件开发与插件注册

企業大數據平臺一：企業需求及相關的基本組件

spark性能調優一--常規調優

企業大數據平臺三：企業大數據平臺安裝

spark性能調優二--JVM調優

jvm_outofmemory_JavaVMStackOOM

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結