插眼 - 大數據學習路線

前言

百度百科:大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

總之,對大數據的概念並沒有一個明確的概念,也沒有說數據要有多大才能算是大數據。通熟易懂地將,大數據就是很大很大的數據,要多大有多大。

大數據的特點 【4個V】

Volume大量:這個特點不用說就知道了吧,不是若不是大量的,怎麼能說是大數據呢?

Variety多樣:大數據有多種多樣性:文字、圖片、視頻、音樂等等

Value價值:我們通過大數據分析,就可以得到大數據中蘊含的信息,這些信息是最珍貴的。比如說你經商上某寶,有一天你搜索了大數據的書,那麼它就會在首頁給你推薦所有關於大數據的書,這就是你的搜索記錄讓大數據分析系統分析出你需要一本關於大數據的數,於是給你智能推薦你需要的書,這個也就是精準營銷。大數據分析出你的搜索記錄搜索行爲這些信息,是很珍貴的,這就是它的價值。

Velocity高速:大數據也是高速的,比如說你出行的時候需要查找最優路徑,於是大數據系統會分析現在各條路上的人流量,給你推薦人最少的的最優路徑,這個是需要實時計算的,也就是高速計算。

大數據工具網站: www.apache.org (絕大多數大數據的工具都是在這個網站中的)


大數據學習路線

  • java               (Java se,javaweb)
  • Linux            (shell,高併發架構,lucene,solr)
  • Hadoop         (Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)
  • 機器學習       (R,mahout)
  • Storm            (Storm,kafka,redis)
  • Spark            (scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)
  • Python          (python,spark python)?
  • 雲計算平臺   (docker,kvm,openstack)

一、Linux

lucene: 全文檢索引擎的架構
solr  : 基於lucene的全文搜索服務器,實現了可配置、可擴展並對查詢性能進行了優化,並且提供了一個完善的功能管理界面。

二、Hadoop

HDFS: 分佈式存儲系統,包含NameNode,DataNode。NameNode:元數據,DataNode。DataNode:存數數據。
yarn   : 可以理解爲MapReduce的協調機制,本質就是Hadoop的處理分析機制,分爲ResourceManager NodeManager。
MapReduce: 軟件框架,編寫程序。
Hive   : 數據倉庫 可以用SQL查詢,可以運行Map/Reduce程序。用來計算趨勢或者網站日誌,不應用於實時查詢,需要很長時間返回結果。
HBase  : 數據庫。非常適合用來做大數據的實時查詢。Facebook用Hbase存儲消息數據並進行消息實時的分析
ZooKeeper: 針對大型分佈式的可靠性協調系統。Hadoop的分佈式同步等靠Zookeeper實現,例如多個NameNode,active standby切換。
Sqoop  : 數據庫相互轉移,關係型數據庫和HDFS相互轉移
Mahout: 可擴展的機器學習和數據挖掘庫。用來做推薦挖掘,聚集,分類,頻繁項集挖掘。
Chukwa: 開源收集系統,監視大型分佈式系統,建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。
Ambari: 用於配置、管理和監視Hadoop集羣,基於Web,界面友好。

三、Cloudera

Cloudera Manager: 管理 監控 診斷 集成
Cloudera CDH:  Cloudera對Hadoop做了相應的改變,發行版本稱爲CDH。
Cloudera Flume: 日誌收集系統,支持在日誌系統中定製各類數據發送方,用來收集數據。
Cloudera Impala: 對存儲在Apache Hadoop的HDFS,HBase的數據提供直接查詢互動的SQL。
Cloudera hue: web管理器,包括hue ui,hui server,hui db。hue提供所有CDH組件的shell界面的接口,可以在hue編寫mr。

四、機器學習/R

R: 用於統計分析、繪圖的語言和操作環境,目前有Hadoop-R
mahout: 提供可擴展的機器學習領域經典算法的實現,包括聚類、分類、推薦過濾、頻繁子項挖掘等,且可通過Hadoop擴展到雲中。

五、storm

Storm: 分佈式,容錯的實時流式計算系統,可以用作實時分析,在線機器學習,信息流處理,連續性計算,分佈式RPC,實時處理消息並更新數據庫。
Kafka: 高吞吐量的分佈式發佈訂閱消息系統,可以處理消費者規模的網站中的所有動作流數據(瀏覽,搜索等)。相對Hadoop的日誌數據和離線分析,可以實現實時處理。目前通過Hadoop的並行加載機制來統一線上和離線的消息處理
Redis: 由c語言編寫,支持網絡、可基於內存亦可持久化的日誌型、key-value型數據庫。

五、Spark

Scala: 一種類似java的完全面向對象的編程語言。
jblas: 一個快速的線性代數庫(JAVA)。基於BLAS與LAPACK,矩陣計算實際的行業標準,並使用先進的基礎設施等所有的計算程序的ATLAS藝術的實現,使其非常快。
Spark: Spark是在Scala語言中實現的類似於Hadoop MapReduce的通用並行框架,除了Hadoop MapReduce所具有的優點,但不同於MapReduce的是job中間輸出結果可以保存在內存中,從而不需要讀寫HDFS,因此Spark能更好的適用於數據挖掘與機器學習等需要迭代的MapReduce算法。可以和Hadoop文件系統並行運作,用過Mesos的第三方集羣框架可以支持此行爲。
Spark SQL: 作爲Apache Spark大數據框架的一部分,可用於結構化數據處理並可以執行類似SQL的Spark數據查詢
Spark Streaming: 一種構建在Spark上的實時計算框架,擴展了Spark處理大數據流式數據的能力。
Spark MLlib: MLlib是Spark是常用的機器學習算法的實現庫,目前(2014.05)支持二元分類,迴歸,聚類以及協同過濾。同時也包括一個底層的梯度下降優化基礎算法。MLlib以來jblas線性代數庫,jblas本身以來遠程的Fortran程序。
Spark GraphX: GraphX是Spark中用於圖和圖並行計算的API,可以在Spark之上提供一站式數據解決方案,可以方便且高效地完成圖計算的一整套流水作業。
Fortran: 最早出現的計算機高級程序設計語言,廣泛應用於科學和工程計算領域。
BLAS: 基礎線性代數子程序庫,擁有大量已經編寫好的關於線性代數運算的程序。
LAPACK: 著名的公開軟件,包含了求解科學與工程計算中最常見的數值線性代數問題,如求解線性方程組、線性最小二乘問題、特徵值問題和奇異值問題等。
ATLAS: BLAS線性算法庫的優化版本。
Spark Python: Spark是由scala語言編寫的,但是爲了推廣和兼容,提供了java和python接口。

六、Python

Python: 一種面向對象的、解釋型計算機程序設計語言。

七、雲計算平臺

Docker: 開源的應用容器引擎
kvm:  (Keyboard Video Mouse)
openstack:開源的雲計算管理平臺項目

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章