大數據的計算模型分爲:離線計算和實時計算。
1. 首先學習編程語言
- Java –> Java SE 的內容,Java 基礎
- Scala –> 學習Spark,注意:Scala是基於Java的,需要JVM環境
2. 需要學習Hadoop:
- 數據的存儲:HDFS——Hadoop Distributed File System
- 數據的計算:MapReduce
- 生態圈(組件):HBase、Hive、Flume、Pig、HUE、Sqoop等等
3. NoSQL 數據庫:Redis 內存數據庫
4. 學習Apache Storm 實時計算
5. Spark
- Scala
- Spark Core 內核(處理引擎)
- Spark SQL:類似MySQL數據庫,支持SQL
- Spark Streaming: 類似Apache Storm 實時計算
6. 將來:機器學習、深度計算、人工智能
注意:大數據和關係型數據庫有什麼關係?沒有關係!!!
學習大數據的時候,重點要:
- 掌握原理和體系結構
- 動手實驗
- 寫程序