原创 Hadoop讀取本地文件運算寫再寫入本地

(http://youzitool.com 新博客,歡迎訪問) 前幾天給大家寫了個hadoop文件系統的操作類,今天來實際應用一下:從本地文件系統讀入一個文件,運算後將結果再寫回本地。 閒話少說,直接上代碼: public class m

原创 正則表達式

  轉自:http://hi.baidu.com/nemolfairy/blog/item/989c82155e377c05c93d6d55.html //匹配單個字符c   Pattern   pattern   =   Pattern

原创 自定義OutPutFormat

昨天學習了自定義InputFormat,今天又去看了看TextOutFormat.java的源碼。一樣比較簡單。現在我們來實現自定義的OutPutFormat 先上代碼: public class MyOutputFormat<K, V>

原创 hadoop主節點(NameNode)備份策略以及恢復方法

本文轉帖來自:http://jiajun.javaeye.com/blog/809125   一、dits和fsimage     首先要提到兩個文件edits和fsimage,下面來說說他們是做什麼的。 集羣中的名稱節點(NameNo

原创 Hadoop常見問題及解決辦法(轉)

1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer:程序裏面需要打開多個文件,進行分析,系統一般默認數量是1024,(用ulimit -a可以看

原创 MapReduce流程分析

(http://youzitool.com 新博客,歡迎訪問) MapReduce流程分析 接觸Hadoop已經1年了,一直沒時間好好學習下。這幾天打算好好研究下Hadoop.本來是想打算改寫下TextInputFormat。看了源碼

原创 HDFS添加和刪除節點

From  http://developer.yahoo.com/hadoop/tutorial/module2.html Rebalancing Blocks 如何添加新節點到集羣: New nodes can be added t

原创 hadoop Java接口 文件操作類

(http://youzitool.com 新博客,歡迎訪問) 前幾天看到篇文章,是用java的API操作HDFS的文件系統。那篇文章單獨介紹了每個api的使用,爲了以後方便使用,我寫成了一個類,現分享給大家。 文件操作類: 比較簡單,大

原创 利用JavaAPI訪問HDFS的文件

1、重讀配置文件core-site.xml 要利用Java客戶端來存取HDFS上的文件,不得不說的是配置文件hadoop-0.20.2/conf/core-site.xml了,最初我就是在這裏吃了大虧,所以我死活連不上HDFS,文件無法創

原创 cleanup的使用

今天在論壇上看見一個函數cleanup。查了下API。發現Mapper和Reducer都實現了這個函數。 描述:cleanup protected void cleanup(Mapper.Context context)

原创 自定義InputFormat

(http://youzitool.com 新博客,歡迎訪問) 這幾天準備好好看看MapReduce編程。要編程就肯定要涉及到輸入、輸出的問題。今天就先來談談自定義的InputFormat 我們先來看看系統默認的TextInputForm