一、查看所給的數據文件
Case 1:整個文件可以加載到內存中;
Case 2:文件太大不能加載到內存中,但<word, count>可以存放到內存中;
Case 3:文件太大無法加載到內存中,且<word, count>也不行;
二、問題規範化
將問題範化爲:有一批文件(規模爲TB級或者 PB級),如何統計這些文件中所有單詞出現的次數;
方案:首先,分別統計每個文件中單詞出現次數,然後累加不同文件中同一個單詞出現次數;
典型的MapReduce過程。
三、MapReduce編程模型—WordCount