原创 [Hadoop]使用DistributedCache進行復制聯結
使用DistributedCache有一個前提,就是進行聯結的數據有一個足夠小,可以裝入內存中。注意我們可以從代碼中看出它是如何被裝入內存中的,因此,我們也可以在裝入的過程中進行過濾。但是值得指出的是,如果文件很大,那麼裝入內存中也是很費
原创 Hadoop全分佈安裝配置及常見問題
一、初始說明 系統:Fedora 15機器:7臺,NameNode 1+ SecondaryNameNode 1+ DataNode 5單機配置:1G內存,2 core ,32位,35GB可用硬盤,此配置純屬用於簡單實驗 Hadoop
原创 使用hadoop的datajoin包進行關係型join操作
datajoin包在hadoop的contrib目錄下,我們也可以在src下面看見其源碼,它的源碼很小,我建議大體看看以瞭解其原理。 利用datajoin進行join操作,在《Hadoop in action》裏面已經講的十分清楚,在這裏
原创 用eclipse編寫mapreduce程序
自己的博客好像要過期了,把一些還有用的東西搬過來避難~ 首先,下載插件 這是另一個插件,你可以看看。 然後,放到eclipse/plugin下,我是fedora系統,我放在了/usr/lib/eclipse/plugins下。 然後把插
原创 [MapReduce編程]用MapReduce大刀砍掉海量數據離線處理問題。
今日在CSDN看再次遇見July的這篇博文:教你如何迅速秒殺掉:99%的海量數據處理面試題。 這篇文章我之前是拜讀過的,今天閒來沒事,就想拿來當做MapReduce的練習。 MapReduce這把刀太大,刀大了問題就抵不住這刀鋒了,事實上
原创 SEVERE: org.apache.solr.common.SolrException: undefined field text
nutch 與 solr3.6.* 集成時出現了這個錯誤。找了很久,終於發現這裏 說Deprecate defaultSearchField,你需要修改SOLR_HOME/example/solr/conf/solrconfig.xml,
原创 關係型MapReduce模式:選擇、分組和組內排序
”紙上得來終覺淺,絕知此事要躬行“,MapReduce還是要多練習的。 現有一學生成績數據,格式如下: <學號,姓名,學院,成績>
原创 [Hadoop源碼解讀](五)MapReduce篇之Writable相關類
昨天出去玩了,今天繼續。 前面講了InputFormat,就順便講一下Writable的東西吧,本來應當是放在HDFS中的。 當要在進程間傳遞對象或持久化對象的時候,就需要序列化對象成字節流,反之當要將接收到或從磁盤讀取的字節
原创 [Hadoop源碼解讀](三)MapReduce篇之Job類
下面,我們只涉及MapReduce 1,而不涉及YARN。 當我們在寫MapReduce程序的時候,通常,在main函數裏,我們會像下面這
原创 使用MultipleOutputs遇到的問題小記
1、org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to create
原创 使用MultipleInputs出現InstantiationException
Exception in thread "main" java.lang.RuntimeException: java.lang.InstantiationExceptionat org.apache.h
原创 Filesystem closed
java.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java:232) at org.apach
原创 添加新maven 公共repository
最近公司hadoop集羣準備升級到CHD4U6,要進行升級前的job測試。需要依賴一些新的公共jar包,比如: hadoop-annotations-2.0.0-cdh4.6.0.jarhadoop-auth-2.0.0-cdh4.6.
原创 [Practical Cassandra]CH2-數據模型
當爲開始爲你的keyspace創建數據模型的時候,首要事情就是忘記你知道的關於關係型數據建模的一切。關係型數據模型是被設計爲用來高效存儲,關係型查找,以及聯繫起關注點的。而Cassandra是被設計作爲高性能和存儲海量數據的。
原创 mapreduce作業調優tips
這幾天一直在優化job,下面是我認爲有用的一些tips。 推測執行在整個集羣上關閉,特定需要的作業單獨開啓,一般可以省下約5%~10%的集羣資源。由mapred.map.task.speculative.execution[defau