本章開始進入這本書的正文。
最開始的第一章介紹了分佈式文件系統(DFS)。信息爆炸時代帶來的後果就是,單機處理計算能力已經更不上信息的增長速度了。在這種需求的啓動下,用分佈式系統來處理大規模數據的這種模式開始出現。由於此時,數據時分佈在集羣的不同單機中,文件系統自然要區別於單機。DFS便孕育而生。
DFS所處理的文件有兩個特點。a.存儲單位比傳統OS中的磁盤塊要大很多;b.提供數據冗餘機制來防止數據分佈在上千塊磁盤上是頻繁發生故障.
2.1.1 計算節點的物理結構
並行計算有時候又稱爲集羣計算(Cluster Computing)。
MapReduce簡單來說,只是一個計算框架。編程人員不需要考慮繁雜的數據劃分,同步通訊,