Hadoop之MapReduce—Wordcount擴展

一、查看所給的數據文件

      Case 1:整個文件可以加載到內存中;
      Case 2:文件太大不能加載到內存中,但<word, count>可以存放到內存中;
      Case 3:文件太大無法加載到內存中,且<word, count>也不行;

二、問題規範化

     將問題範化爲:有一批文件(規模爲TB級或者 PB級),如何統計這些文件中所有單詞出現的次數;
     方案:首先,分別統計每個文件中單詞出現次數,然後累加不同文件中同一個單詞出現次數;
     典型的MapReduce過程。

三、MapReduce編程模型—WordCount

    
                                                     


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章