大數據大數據,個個都在喊 但究竟什麼是大數據開發,如何成爲一個大數據開發工程師?加米穀大數據請添加鏈接描述的這篇文章告訴你如何成爲阿里巴巴也需要的大數據工程師。
大數據通用處理平臺
1.Spark
2.Flink
3.Hadoop
分佈式存儲
HDFS
資源調度
Yarn
Mesos
機器學習工具
Mahout
1.Spark Mlib
2.TensorFlow (Google 系)
3.Amazon Machine Learning
4.DMTK (微軟分佈式機器學習工具)
數據分析/數據倉庫(SQL類)
1.Pig
2.Hive
3.kylin
4.Spark SQL,
5.Spark DataFrame
6.Impala
7.Phoenix
8.ELK
8.1 ElasticSearch
8.2Logstash
8.3Kibana
消息隊列
1.Kafka(純日誌類,大吞吐量)
2.RocketMQ
3.ZeroMQ
4.ActiveMQ
5.RabbitMQ
流式計算
-
Storm/JStorm
-
Spark Streaming
- Flink
日誌收集
Scribe
Flume
編程語言
-
Java
-
Python
-
R
-
Ruby
- Scala
數據分析挖掘
MATLAB
SPSS
SAS
數據可視化
-
R
-
D3.js
-
ECharts
-
Excle
- Python
機器學習
機器學習基礎
-
聚類
-
時間序列
-
推薦系統
-
迴歸分析
-
文本挖掘
-
決策樹
-
支持向量機
-
貝葉斯分類
- 神經網絡
機器學習工具
-
Mahout
-
Spark Mlib
-
TensorFlow (Google 系)
-
Amazon Machine Learning
- DMTK (微軟分佈式機器學習工具)
算法
一致性
-
paxos
-
raft
- gossip
數據結構
-
棧,隊列,鏈表
-
散列表
-
二叉樹,紅黑樹,B樹
- 圖
常用算法
1.排序
插入排序
桶排序
堆排序
2.快速排序
3,最大子數組
4.最長公共子序列
5.最小生成樹
希望能夠幫助對大數據開發工程師有意向的同學發現一些可以借鑑的經驗,學習大數據技術並不是需要多高的天賦但一定要努力才行