原创 [Hadoop]使用DistributedCache進行復制聯結

使用DistributedCache有一個前提,就是進行聯結的數據有一個足夠小,可以裝入內存中。注意我們可以從代碼中看出它是如何被裝入內存中的,因此,我們也可以在裝入的過程中進行過濾。但是值得指出的是,如果文件很大,那麼裝入內存中也是很費

原创 Hadoop全分佈安裝配置及常見問題

一、初始說明 系統:Fedora 15機器:7臺,NameNode 1+ SecondaryNameNode 1+ DataNode 5單機配置:1G內存,2 core ,32位,35GB可用硬盤,此配置純屬用於簡單實驗 Hadoop

原创 使用hadoop的datajoin包進行關係型join操作

datajoin包在hadoop的contrib目錄下,我們也可以在src下面看見其源碼,它的源碼很小,我建議大體看看以瞭解其原理。 利用datajoin進行join操作,在《Hadoop in action》裏面已經講的十分清楚,在這裏

原创 用eclipse編寫mapreduce程序

自己的博客好像要過期了,把一些還有用的東西搬過來避難~ 首先,下載插件 這是另一個插件,你可以看看。 然後,放到eclipse/plugin下,我是fedora系統,我放在了/usr/lib/eclipse/plugins下。 然後把插

原创 [MapReduce編程]用MapReduce大刀砍掉海量數據離線處理問題。

今日在CSDN看再次遇見July的這篇博文:教你如何迅速秒殺掉:99%的海量數據處理面試題。 這篇文章我之前是拜讀過的,今天閒來沒事,就想拿來當做MapReduce的練習。 MapReduce這把刀太大,刀大了問題就抵不住這刀鋒了,事實上

原创 SEVERE: org.apache.solr.common.SolrException: undefined field text

nutch 與 solr3.6.* 集成時出現了這個錯誤。找了很久,終於發現這裏 說Deprecate defaultSearchField,你需要修改SOLR_HOME/example/solr/conf/solrconfig.xml,

原创 關係型MapReduce模式:選擇、分組和組內排序

  ”紙上得來終覺淺,絕知此事要躬行“,MapReduce還是要多練習的。   現有一學生成績數據,格式如下:                                                 <學號,姓名,學院,成績>  

原创 [Hadoop源碼解讀](五)MapReduce篇之Writable相關類

  昨天出去玩了,今天繼續。   前面講了InputFormat,就順便講一下Writable的東西吧,本來應當是放在HDFS中的。   當要在進程間傳遞對象或持久化對象的時候,就需要序列化對象成字節流,反之當要將接收到或從磁盤讀取的字節

原创 [Hadoop源碼解讀](三)MapReduce篇之Job類

  下面,我們只涉及MapReduce 1,而不涉及YARN。                                              當我們在寫MapReduce程序的時候,通常,在main函數裏,我們會像下面這

原创 使用MultipleOutputs遇到的問題小記

1、org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to create

原创 使用MultipleInputs出現InstantiationException

Exception in thread "main" java.lang.RuntimeException: java.lang.InstantiationExceptionat org.apache.h

原创 Filesystem closed

java.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java:232) at org.apach

原创 添加新maven 公共repository

最近公司hadoop集羣準備升級到CHD4U6,要進行升級前的job測試。需要依賴一些新的公共jar包,比如: hadoop-annotations-2.0.0-cdh4.6.0.jarhadoop-auth-2.0.0-cdh4.6.

原创 [Practical Cassandra]CH2-數據模型

  當爲開始爲你的keyspace創建數據模型的時候,首要事情就是忘記你知道的關於關係型數據建模的一切。關係型數據模型是被設計爲用來高效存儲,關係型查找,以及聯繫起關注點的。而Cassandra是被設計作爲高性能和存儲海量數據的。

原创 mapreduce作業調優tips

  這幾天一直在優化job,下面是我認爲有用的一些tips。 推測執行在整個集羣上關閉,特定需要的作業單獨開啓,一般可以省下約5%~10%的集羣資源。由mapred.map.task.speculative.execution[defau