原创 shuffle & sort解釋

轉載請標明出處:http://blackwing.iteye.com/blog/1848401MR任務,充分利用了緩存進行讀寫。1)map端每個map

原创 把hadoop的metrics加入ganglia監控

hadoop的metrics加入ganglia其實是很簡單的,但網絡上都是copy,而且文檔新舊不一,居然還折騰了一會,太out了。hadoop版本1

原创 分拆TableSplit 讓多個mapper同時讀取

默認情況下,一個region是一個tableSplit,對應一個mapper進行讀取,但單mapper讀取速度較慢,因此想着把默認一個table sp

原创 GET查詢HBase無結果時 Result的size也不爲空

用Get查詢hbase某個row時,就算該row不存在,但還是返回Result,只是該Result是empty的。List<Get> batch= n

原创 solr升級到3.6後的一點問題

solr升級到3.6後,以前的CommonsHttpSolrServer類以及過期,官方建議使用HttpSolrServer,但替換類後,運行會報錯:

原创 ubuntu 12.04 LTS下安裝zabbix

轉載請標明出處:http://blackwing.iteye.com/blog/2001416主要參考這篇文章:[url]https://www.digitalocean.com/community/art

原创 HBase使用SNAPPY壓縮遇到compression test fail問題解決

轉載請標明出處:http://blackwing.iteye.com/blog/1943575之前爲HBase增加SNAPPY壓縮的一篇文章:http://blackwing.iteye.com/blog/

原创 解決直接讀HFile時因表數據寫入而導致文件目錄變化問題

轉載請標明出處:http://blackwing.iteye.com/admin/blogs/2188077數據量大的情況下,通過直接讀取HFile來獲得hbase表數據性能比通過HTable讀取有優勢,但

原创 日誌收集器fluentd:配置forward從客戶機到收集入庫端

轉載請聲明出處:http://blackwing.iteye.com/blog/2152319試用了fluentd,挺方便易用,支持直接到hdfs,hbase,mangoDB等,可以跟已有業務結合。安裝fl

原创 Hadoop的Text類getBytes字節數據put到HBase後有多餘字符串問題

轉載請標明出處:http://blackwing.iteye.com/blog/1978501org.apache.hadoop.io.Text裏面的getBytes方法有個小坑。先看現場:String s

原创 LoadIncrementalHFiles是copy而不是move的疑惑

轉載請標明出處:http://blackwing.iteye.com/blog/1991901之前在另一篇文章裏實現的自定義job生成HFile並使用LoadIncrementalHFiles 入庫HBa

原创 那些storm的坑坑

轉載請聲明出處:http://blackwing.iteye.com/blog/2147633在使用storm的過程中,感覺它還是不如hadoop那麼成熟。當然,它的流式處理能力挺讓人眼前一亮,以前做的個性

原创 推薦技術簡介

轉載請標明出處:http://blackwing.iteye.com/blog/2231556根據項亮《動態推薦系統關鍵技術研究》的分類方式,可以根據使用數據來把推薦技術分成以下兩類:[size=mediu

原创 新版hadoop MultipleOutputs多文件輸出

轉載請標明出處:http://blackwing.iteye.com/blog/2191454網上雖然有不少關於MultipleOutputs實現多文件輸出的文章,但發現要不還是使用mapred.lib舊接

原创 ClassNotFoundException: org.apache.hadoop.util.PlatformName問題解決

轉載請標明出處:http://blackwing.iteye.com/blog/1980219服務器上hbase用的是hadoop 2.2.0的hdfs,java程序訪問hbase時報如下錯誤:java.l