原创 hadoop 之 PathFilter -- 輸入文件過濾器

1.指定多個輸入 在單個操作中處理一批文件,這是很常見的需求。比如說處理日誌的MapReduce作業可能需要分析一個月內包含在大量目錄中的日誌文件。在一個表達式中使用通配符在匹配多個文件時比較方便的,無需列舉每個文件和目錄來指定輸

原创 hadoop 之 InputFormat類 --- NLineInputFormat 實例

NLineInputFormat 介紹 文本由任務讀取時,需要一種格式讀入,KeyValueTextInputFormat 是InputFormat 類的一個具體子類,他定義的讀取格式是這樣的: 一行是一條記錄; 讀取後按照(k

原创 Hadoop 之 Writable , WritableComparable 接口

1.Writable 序列化時重要的接口,很多Hadoop中的數據類型都實現來這個接口,常見的有:FloatWritable ,DoubleWritable ,IntWritable ,LongWritable ,MapWrit

原创 hadoop 之 InputFormat類 --- KeyValueTextInputFormat 實例

KeyValueTextInputFormat 介紹 文本由任務讀取時,需要一種格式讀入,KeyValueTextInputFormat 是InputFormat 類的一個具體子類,他定義的讀取格式是這樣的: 一行是一條記錄;

原创 Storm 安裝參考,以及遇到問的問題

安裝 http://www.linuxidc.com/Linux/2012-08/68916.htm 在這篇文章裏找到了解決uuid-dev 沒有安裝的問題 http://www.cnblogs.com/literoad/ar

原创 HBase 常見錯誤-ERROR: Can't get master address from ZooKeeper; znode data == null解決辦法

出現此問題可能是zookeeper不穩定造成的,採用的是虛擬機,經常掛起的狀態,使用hbase的list命令出現下面錯誤,這個可能是hbase的穩定性造成的,解決辦法有兩種。這裏使用第一種辦法就解決了。 解決方法: 重啓hbase

原创 hadoop 之 MultipleInputs--爲多個輸入指定不同的InputFormat和Mapper

MultipleInputs 介紹 默認情況下,MapReduce作業的輸入可以包含多個輸入文件,但是所有的文件都由同一個InputFormat 和 同一個Mapper 來處理,這是的多個文件應該是格式相同,內容可以使用同一個Ma

原创 hadoop 之 將若干小文件打包成順序文件

1.Why 在hadoop的世界裏,處理少量的大文件比處理大量的小文件更加得心應手。 其中一個原因是FileInputFormat生成的分塊是一個文件或該文件的一部分。如果文件很小(“小”意味着比HDFS的塊要小的多),並且文件數

原创 hadooop 之 FileInputFormat 類

1.FileInputFormat 類介紹 FileInputFormat 是所有使用文件作爲數據源的 InputFormat 實現的基類 提供兩個功能: 1.用於支出作業的輸入文件的位置; 2.輸入文件生成分片的實現代碼段

原创 數據結構中Java常用的樹

在學習樹的過程中發現比較和的幾遍文章,收藏至此 2-3樹 http://www.cnblogs.com/yangecnu/p/Introduce-2-3-Search-Tree.html 紅黑樹 http://www.cnblogs.

原创 Hadoop 之 Combiner 與自定義 Combiner

一、Combiner的出現背景 1.1 回顧Map階段五大步湊 在第四篇博文《初識MapReduce》中,我們認識了MapReduce的八大步湊,其中在Map階段總共五個步湊,如下圖所示: 其中,step1.5是一個可選步湊,它就是我

原创 Hadoop 中 YARN和MV2以及ApplicationMaster

ApplicationMaster是什麼? ApplicationMaster 是一個框架特殊的庫,對於 Map-Reduce 計算模型而言有它自己的 ApplicationMaster 實現,對於其他的想要運行在 yarn上的計算模型而

原创 網絡中的各層協議

應用層: (典型設備:應用程序,如FTP,SMTP ,HTTP) DHCP(Dynamic Host Configuration Protocol)動態主機分配協議,使用 UDP 協議工作,主要有兩個用途:給內部網絡或網絡服務供應商自動

原创 Flume 1.7.0 User Guide

以下是自己將 Flume 官網的英文文檔翻譯後的連接,僅作爲自己記錄,勿噴。 http://note.youdao.com/share/?id=05cba23606d8552d05d93487ec7f7906&type=note#/

原创 Elasticsearch 理解重點

1.輸入數據分析: 問題是,傳入文檔中的數據怎樣轉化成倒排索引,查詢文本怎樣變成可被搜索的詞?這個數據轉化的過程被稱爲分析。你可能希望某些字段經語言分析器處理,使得car和cars在索引中被視爲同一個。 分析的工作由分析器完成,它由一個