原创 [Exception記錄]elephantbird.class.for.MultiInputFormat

java.lang.RuntimeException: elephantbird.class.for.MultiInputFormat is not set at com.twitter.elephantbird.mapreduce

原创 MapReduce程序的測試--MRUnit

  實在沒什麼空,好長時間沒有寫Blog,心虛,沒有去參加校園招聘的人傷不起~   MRUnit是一個開源的MapReduce程序測試框架,使用MRUnit,可以在單元測試的時候不用每次都上集羣跑一遍,提高測試效率。   MRUnit官網

原创 Could not resolve archetype org.apache.maven.archetypes:maven-archetype-quickstart

之前都是命令行創建,今天用eclipse裝m2eclipse的時候裝完後創建項目的時候報錯:   Could not resolve archetype org.apache.maven.archetypes:maven-archetyp

原创 java.lang.NoSuchMethodError: org.apache.thrift.EncodingUtils.setBit(BIZ)B

今天跑job拋了下面這個錯誤,job中一個第三方包用的thrift版本和項目中的thrift版本不一樣,分別是0.6.0 和0.9.0. 2014-04-28 00:49:04,219 FATAL org.apache.hadoop.ma

原创 [Hadoop源碼解讀](二)MapReduce篇之Mapper類

  前面在講InputFormat的時候,講到了Mapper類是如何利用RecordReader來讀取InputSplit中的K-V對的。   這一篇裏,開始對Mapper.class的子類進行解讀。   先回憶一下。Mapper有se

原创 Mahout in action書中源碼導入eclipse

下載源碼:http://www.manning.com/owen/MiA_SourceCode.zip解壓縮后里面有readme安裝好thrift、maven將pom.xml中的:<exec executable="/usr/local/

原创 Pangool:行走在mapreduce之上

  Tuple mapreduce:這篇文章:Tuple MapReduce: beyond classic MapReduce 介紹了Pangool的主體思想,利用tuple,在經典mapreduce上提供更易用的API。   特性:

原创 [Hadoop源碼解讀](四)MapReduce篇之Counter相關類

                        當我們定義一個Counter時,我們首先要定義一枚舉類型: public static enum MY_COUNTER{ CORRUPTED_DATA_COUNTER, NORM

原创 mapreduce編程(一):輸入文件的過濾

     描述:dir/目錄下存儲了系統每一天的出現的cookie,各天的cookie分別存放在各自的dir/time目錄下,如2012-12-21日的cookie存放在dir/2012-12-21目錄下。    dir/2012-12-

原创 fedora下安裝thrift

下載thrift :http://thrift.apache.org/解壓縮:tar -xzvf ***.tar.gz進入目錄: cd thrift-0.9.0 sudo yum install automake libtool flex

原创 [Hadoop源碼解讀](一)MapReduce篇之InputFormat

  平時我們寫MapReduce程序的時候,在設置輸入格式的時候,總會調用形如job.setInputFormatClass(KeyValueTextInputFormat.class);來保證輸入文件按照我們想要的格式被讀取。所有的

原创 [Hadoop源碼解讀](六)MapReduce篇之MapTask類

MapTask類繼承於Task類,它最主要的方法就是run(),用來執行這個Map任務。   run()首先設置一個TaskReporter並啓動,然後調用JobConf的getUseNewAPI()判斷是否使用New API,使用Ne