一位資深程序員大牛給予大數據初學者的學習路線建議 - 編程人生原

大數據學習路線

java(Java se,javaweb)
Linux(shell,高併發架構,lucene,solr)
Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)
機器學習(R,mahout)
Storm(Storm,kafka,redis)
Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)
Python(python,spark python)
雲計算平臺(docker,kvm,openstack)

本人對於大數據學習創建了一個小小的學習圈子，爲各位提供了一個平臺，大家一起來討論學習大數據。歡迎各位到來大數據學習羣：868847735 一起討論視頻分享學習。大數據是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，掌握大數據核心技術，纔是掌握真正的價值所在。

名詞解釋

一、Linux
lucene：全文檢索引擎的架構
solr：基於lucene的全文搜索服務器，實現了可配置、可擴展並對查詢性能進行了優化，並且提供了一個完善的功能管理界面。

二、Hadoop
HDFS：分佈式存儲系統，包含NameNode，DataNode。NameNode：元數據，DataNode。DataNode：存數數據。
yarn：可以理解爲MapReduce的協調機制，本質就是Hadoop的處理分析機制，分爲ResourceManager NodeManager。
MapReduce：軟件框架，編寫程序。
Hive：數據倉庫可以用SQL查詢，可以運行Map/Reduce程序。用來計算趨勢或者網站日誌，不應用於實時查詢，需要很長時間返回結果。
HBase：數據庫。非常適合用來做大數據的實時查詢。Facebook用Hbase存儲消息數據並進行消息實時的分析
ZooKeeper：針對大型分佈式的可靠性協調系統。Hadoop的分佈式同步等靠Zookeeper實現，例如多個NameNode，active standby切換。
Sqoop：數據庫相互轉移，關係型數據庫和HDFS相互轉移
Mahout：可擴展的機器學習和數據挖掘庫。用來做推薦挖掘，聚集，分類，頻繁項集挖掘。
Chukwa：開源收集系統，監視大型分佈式系統，建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。
Ambari：用於配置、管理和監視Hadoop集羣，基於Web，界面友好。

二、Cloudera
Cloudera Manager：管理監控診斷集成
Cloudera CDH：(Cloudera's Distribution，including Apache Hadoop) Cloudera對Hadoop做了相應的改變，發行版本稱爲CDH。
Cloudera Flume：日誌收集系統，支持在日誌系統中定製各類數據發送方，用來收集數據。
Cloudera Impala：對存儲在Apache Hadoop的HDFS，HBase的數據提供直接查詢互動的SQL。
Cloudera hue： web管理器，包括hue ui，hui server，hui db。hue提供所有CDH組件的shell界面的接口，可以在hue編寫mr。

三、機器學習/R
R：用於統計分析、繪圖的語言和操作環境，目前有Hadoop-R
mahout：提供可擴展的機器學習領域經典算法的實現，包括聚類、分類、推薦過濾、頻繁子項挖掘等，且可通過Hadoop擴展到雲中。

四、storm
Storm：分佈式，容錯的實時流式計算系統，可以用作實時分析，在線機器學習，信息流處理，連續性計算，分佈式RPC，實時處理消息並更新數據庫。
Kafka：高吞吐量的分佈式發佈訂閱消息系統，可以處理消費者規模的網站中的所有動作流數據（瀏覽，搜索等）。相對Hadoop的日誌數據和離線分析，可以實現實時處理。目前通過Hadoop的並行加載機制來統一線上和離線的消息處理
Redis：由c語言編寫，支持網絡、可基於內存亦可持久化的日誌型、key-value型數據庫。

五、Spark
Scala：一種類似java的完全面向對象的編程語言。

jblas：一個快速的線性代數庫（JAVA）。基於BLAS與LAPACK，矩陣計算實際的行業標準，並使用先進的基礎設施等所有的計算程序的ATLAS藝術的實現，使其非常快。

Spark： Spark是在Scala語言中實現的類似於Hadoop MapReduce的通用並行框架，除了Hadoop MapReduce所具有的優點，但不同於MapReduce的是job中間輸出結果可以保存在內存中，從而不需要讀寫HDFS，因此Spark能更好的適用於數據挖掘與機器學習等需要迭代的MapReduce算法。可以和Hadoop文件系統並行運作，用過Mesos的第三方集羣框架可以支持此行爲。
Spark SQL： 作爲Apache Spark大數據框架的一部分,可用於結構化數據處理並可以執行類似SQL的Spark數據查詢
Spark Streaming： 一種構建在Spark上的實時計算框架，擴展了Spark處理大數據流式數據的能力。
Spark MLlib： MLlib是Spark是常用的機器學習算法的實現庫，目前(2014.05)支持二元分類，迴歸，聚類以及協同過濾。同時也包括一個底層的梯度下降優化基礎算法。MLlib以來jblas線性代數庫，jblas本身以來遠程的Fortran程序。

Spark GraphX： GraphX是Spark中用於圖和圖並行計算的API，可以在Spark之上提供一站式數據解決方案，可以方便且高效地完成圖計算的一整套流水作業。

Fortran：最早出現的計算機高級程序設計語言，廣泛應用於科學和工程計算領域。

BLAS：基礎線性代數子程序庫，擁有大量已經編寫好的關於線性代數運算的程序。
LAPACK：著名的公開軟件，包含了求解科學與工程計算中最常見的數值線性代數問題，如求解線性方程組、線性最小二乘問題、特徵值問題和奇異值問題等。
ATLAS： BLAS線性算法庫的優化版本。
Spark Python： Spark是由scala語言編寫的，但是爲了推廣和兼容，提供了java和python接口。

六、Python
Python: 一種面向對象的、解釋型計算機程序設計語言。

七、雲計算平臺
Docker：開源的應用容器引擎
kvm： (Keyboard Video Mouse)

openstack：開源的雲計算管理平臺項目

一位資深程序員大牛給予大數據初學者的學習路線建議 - 編程人生原

Nginx R31 doc 官方文檔-01-nginx 如何安裝

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

golang開發環境搭建(win10)

想搞懂大數據就看這篇文章就夠了！

Structured Streaming教程(3) —— 與Kafka的集成

Structured Streaming教程(2) —— 常用輸入與輸出

Structured Streaming教程(1) —— 基本概念與使用

[大數據之Spark]——快速入門

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

一位資深程序員大牛給予大數據初學者的學習路線建議 - 編程人生 原

一位資深程序員大牛給予大數據初學者的學習路線建議 - 編程人生原