第一章初識Hadoop

聲明，此連續文章爲閱讀Hadoop權威指南第4版的讀書筆記，旨在記錄重點內容。

1.1 數據

數據會越來越大，我們需要有對應的技術來存儲和分析它們。
1.2 數據的存儲和分析

硬盤容量的發展與讀寫速度已經不匹配，硬盤越來越大，讀寫速度卻並沒有提高多少。
爲了能快速讀取數據，我們可以將同一份數據存儲在N個硬盤硬盤上，這樣同時讀取N個硬盤，就大大縮短了讀取時間。
同時需要解決的2個問題是，硬盤故障的容災（HDFS）和數據分散存儲到最後合併的數據管理問題（MapReduce）。
1.3 查詢所有數據

MapReduce是一個批量查詢處理器
1.4 不僅僅是批處理

MapReduce更適合離線計算場景。
“Hadoop”發展至今，已經不僅僅是指HDFS和MapReduce，被指一個更大的、多項目組成的分佈式計算和大規模數據處理生態系統。
包括HBase、YARN、Hive等
1.5 相對於其他系統的優勢

這位兄弟寫的很好，可以參考
1.6 Hadoop 發展簡史
Apache Hadoop 是由Lucene的創始人Doug Cutting 創建的，起源於開源網絡搜索引擎Nutch，Nutch本身也是Lucene的一部分。Hadoop取名來源於其創始人孩子給玩具起的名字，並無這個單詞。
Nutch開始於2002年，但其並不完善。
2003年GFS（谷歌分佈式文件系統）的一篇論文發佈，指導了作者對Nutch開始改版。
2004年NDFS（Nutch 分佈式文件系統）開始開源編寫。
2004年穀歌再次發佈他們的Mapreduce系統。
2005年Nutch的開發者在Nutch上實現了自己的MapReduce系統。Nutch開始基於NDFS和MapReduce來運行。
2006年，開發者將Nutch中的NDFS和MapReduce移出Lucene，形成獨立的子項目，Hadoop誕生。
同時Hadoop創始人Doug Cutting加入雅虎，雅虎放棄自己原有的框架，Hadoop開始在雅虎內部大量實施。
2008年，Hadoop成爲Apache的頂級項目。（ps：我08年還在玩泥巴）
2008年4月，Hadoop打破世界紀錄，成爲最快的TB級數據排序系統。自此以更快的速度對大規模數據進行排序成爲趨勢。

第一章初識Hadoop

第五章 Hadoop的I/O操作

信鴿1.2.0 Intent 無法跳轉頁面

第四章關於YARN

RFM

PMF

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

第一章 初識Hadoop

第一章初識Hadoop