大數據入門(2)——學習實戰路線

原文發表於我的個人網站:https://www.imhou.com/%e5%a4%a7%e6%95%b0%e6%8d%ae%e5%85%a5%e9%97%a82-%e5%ad%a6%e4%b9%a0%e5%ae%9e%e6%88%98%e8%b7%af%e7%ba%bf/

大數據的計算模型分爲:離線計算和實時計算。

1. 首先學習編程語言

  • Java –> Java SE 的內容,Java 基礎
  • Scala –> 學習Spark,注意:Scala是基於Java的,需要JVM環境

2. 需要學習Hadoop:

  • 數據的存儲:HDFS——Hadoop Distributed File System
  • 數據的計算:MapReduce
  • 生態圈(組件):HBase、Hive、Flume、Pig、HUE、Sqoop等等

3. NoSQL 數據庫:Redis 內存數據庫

4. 學習Apache Storm 實時計算

5. Spark

  • Scala
  • Spark Core 內核(處理引擎)
  • Spark SQL:類似MySQL數據庫,支持SQL
  • Spark Streaming: 類似Apache Storm 實時計算

6. 將來:機器學習、深度計算、人工智能

注意:大數據和關係型數據庫有什麼關係?沒有關係!!!

學習大數據的時候,重點要:

  • 掌握原理和體系結構
  • 動手實驗
  • 寫程序
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章