大數據學習記錄(day2)-Hadoop概述

學習來源:http://www.aboutyun.com/thread-6179-1-1.html

                  http://blog.csdn.net/yuexianchang/article/details/52468291

                  http://www.cnblogs.com/xing901022/p/6195422.html

說明:由於參考資料大多是2013年以前的,所以有些說法也許並不成立,請讀者選擇性吸收。


       如前所述,Hadoop是一個能夠對大量數據進行分佈式處理的軟件框架,它是一種技術的實現,是雲計算技術中重要的組成部分。
       一、hadoop的用途和使用場景(http://www.aboutyun.com/thread-5726-1-1.html)
        ·大數據量存儲:分佈式存儲
        ·日誌處理: Hadoop擅長這個
        ·海量計算: 並行計算
        ·ETL:數據抽取到oracle、mysql、DB2、mongdb及主流數據庫
        ·使用HBase做數據分析: 用擴展性應對大量的寫操作—Facebook構建了基於HBase的實時數據分析系統
        ·機器學習: 比如Apache Mahout項目
        ·搜索引擎:hadoop + lucene實現
        ·數據挖掘:目前比較流行的廣告推薦
        ·大量地從文件中順序讀。HDFS對順序讀進行了優化,代價是對於隨機的訪問負載較高。
        ·數據支持一次寫入,多次讀取。對於已經形成的數據的更新不支持。
        ·數據不進行本地緩存(文件很大,且順序讀沒有局部性)
        ·任何一臺服務器都有可能失效,需要通過大量的數據複製使得性能不會受到大的影響。
        ·用戶細分特徵建模
        ·個性化廣告推薦
        ·智能儀器推薦
       二、 新手學習路徑
       網絡上的建議是:不要盲目的去搭建hadoop環境,先要熟悉瞭解hadoop基本知識及其所需要的知識例如java基礎、linux環境、linux常用命令,它相關產品及其衍生產品,他們之間是什麼關係如何工作,每個產品它們的特點是什麼。
       1. 瞭解hadoop一些基本知識。
       (1) hadoop HDFS文件系統的特徵
       ·存儲極大數目的信息(terabytes or petabytes),將數據保存到大量的節點當中。支持很大單個文件。
       ·提供數據的高可靠性,單個或者多個節點不工作,對系統不會造成任何影響,數據仍然可用。
       ·提供對這些信息的快速訪問,並提供可擴展的方式。
       ·通過簡單加入更多服務器的方式就能夠服務更多的客戶端。
       ·HDFS是針對MapReduce設計的,使得數據儘可能根據其本地局部性進行訪問與計算。
       (2)MapReduce工作原理
       2.hadoop部署方式爲單機模式、僞分佈式、完全分佈式。對單機模式大家可以不用去關心和學習,在學習中建議搭建僞分佈式,完全分佈式是生產環境中使用,當大家把僞分佈式部署完成後,必須對完全分佈式有所瞭解,知道是如何工作的,也可以試着搭建hadoop的完全分佈式。應該選擇比較穩定的版本學習。
       3.安裝完成後,可針對hadoop shell命令做些基礎的練習。
       4.選擇合適的書進行系統的學習。下面是網上推薦的資料:
       ·Hadoop權威指南(第2版)(http://www.aboutyun.com/thread-6000-1-1.html)
       ·hadoop相關文檔下載(http://www.aboutyun.com/forum.php?mod=viewthread&tid=6160&highlight=hadoop)
       ·about雲資源彙總V1.2(http://www.aboutyun.com/thread-5928-1-1.html)
       提醒:在學習hadoop開發的時候不要使用hadoop eclipse插件,這樣會給你帶來不必要的問題,可以在eclipse使用maven工具下載hadoop資源包,然後把寫好mapreduce代碼打包後傳上自己的服務器,使用命令啓動運行。
       總結:今天對Hadoop有了初步的認識,並瞭解了新手的學習步驟(是否合理,邊學邊看吧)。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章