聲明,此連續文章爲閱讀Hadoop權威指南第4版的讀書筆記,旨在記錄重點內容。
-
1.1 數據
數據會越來越大,我們需要有對應的技術來存儲和分析它們。
-
1.2 數據的存儲和分析
硬盤容量的發展與讀寫速度已經不匹配,硬盤越來越大,讀寫速度卻並沒有提高多少。
爲了能快速讀取數據,我們可以將同一份數據存儲在N個硬盤硬盤上,這樣同時讀取N個硬盤,就大大縮短了讀取時間。
同時需要解決的2個問題是,硬盤故障的容災(HDFS)和數據分散存儲到最後合併的數據管理問題(MapReduce)。 -
1.3 查詢所有數據
MapReduce是一個批量查詢處理器
-
1.4 不僅僅是批處理
MapReduce更適合離線計算場景。
“Hadoop”發展至今,已經不僅僅是指HDFS和MapReduce,被指一個更大的、多項目組成的分佈式計算和大規模數據處理生態系統。
包括HBase、YARN、Hive等 -
1.5 相對於其他系統的優勢
-
1.6 Hadoop 發展簡史
Apache Hadoop 是由Lucene的創始人Doug Cutting 創建的,起源於開源網絡搜索引擎Nutch,Nutch本身也是Lucene的一部分。Hadoop取名來源於其創始人孩子給玩具起的名字,並無這個單詞。
Nutch開始於2002年,但其並不完善。
2003年GFS(谷歌分佈式文件系統)的一篇論文發佈,指導了作者對Nutch開始改版。
2004年NDFS(Nutch 分佈式文件系統)開始開源編寫。
2004年穀歌再次發佈他們的Mapreduce系統。
2005年Nutch的開發者在Nutch上實現了自己的MapReduce系統。Nutch開始基於NDFS和MapReduce來運行。
2006年,開發者將Nutch中的NDFS和MapReduce移出Lucene,形成獨立的子項目,Hadoop誕生。
同時Hadoop創始人Doug Cutting加入雅虎,雅虎放棄自己原有的框架,Hadoop開始在雅虎內部大量實施。
2008年,Hadoop成爲Apache的頂級項目。(ps:我08年還在玩泥巴)
2008年4月,Hadoop打破世界紀錄,成爲最快的TB級數據排序系統。自此以更快的速度對大規模數據進行排序成爲趨勢。