第一章 初識Hadoop

聲明,此連續文章爲閱讀Hadoop權威指南第4版的讀書筆記,旨在記錄重點內容。

  • 1.1 數據

    數據會越來越大,我們需要有對應的技術來存儲和分析它們。

  • 1.2 數據的存儲和分析

    硬盤容量的發展與讀寫速度已經不匹配,硬盤越來越大,讀寫速度卻並沒有提高多少。
    爲了能快速讀取數據,我們可以將同一份數據存儲在N個硬盤硬盤上,這樣同時讀取N個硬盤,就大大縮短了讀取時間。
    同時需要解決的2個問題是,硬盤故障的容災(HDFS)和數據分散存儲到最後合併的數據管理問題(MapReduce)。

  • 1.3 查詢所有數據

    MapReduce是一個批量查詢處理器

  • 1.4 不僅僅是批處理

    MapReduce更適合離線計算場景。
    “Hadoop”發展至今,已經不僅僅是指HDFS和MapReduce,被指一個更大的、多項目組成的分佈式計算和大規模數據處理生態系統。
    包括HBase、YARN、Hive等

  • 1.5 相對於其他系統的優勢

    這位兄弟寫的很好,可以參考

  • 1.6 Hadoop 發展簡史
    Apache Hadoop 是由Lucene的創始人Doug Cutting 創建的,起源於開源網絡搜索引擎Nutch,Nutch本身也是Lucene的一部分。Hadoop取名來源於其創始人孩子給玩具起的名字,並無這個單詞。
    Nutch開始於2002年,但其並不完善。
    2003年GFS(谷歌分佈式文件系統)的一篇論文發佈,指導了作者對Nutch開始改版。
    2004年NDFS(Nutch 分佈式文件系統)開始開源編寫。
    2004年穀歌再次發佈他們的Mapreduce系統。
    2005年Nutch的開發者在Nutch上實現了自己的MapReduce系統。Nutch開始基於NDFS和MapReduce來運行。
    2006年,開發者將Nutch中的NDFS和MapReduce移出Lucene,形成獨立的子項目,Hadoop誕生。
    同時Hadoop創始人Doug Cutting加入雅虎,雅虎放棄自己原有的框架,Hadoop開始在雅虎內部大量實施。
    2008年,Hadoop成爲Apache的頂級項目。(ps:我08年還在玩泥巴)
    2008年4月,Hadoop打破世界紀錄,成爲最快的TB級數據排序系統。自此以更快的速度對大規模數據進行排序成爲趨勢。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章