原创 shuffle & sort解釋
轉載請標明出處:http://blackwing.iteye.com/blog/1848401MR任務,充分利用了緩存進行讀寫。1)map端每個map
原创 把hadoop的metrics加入ganglia監控
hadoop的metrics加入ganglia其實是很簡單的,但網絡上都是copy,而且文檔新舊不一,居然還折騰了一會,太out了。hadoop版本1
原创 分拆TableSplit 讓多個mapper同時讀取
默認情況下,一個region是一個tableSplit,對應一個mapper進行讀取,但單mapper讀取速度較慢,因此想着把默認一個table sp
原创 GET查詢HBase無結果時 Result的size也不爲空
用Get查詢hbase某個row時,就算該row不存在,但還是返回Result,只是該Result是empty的。List<Get> batch= n
原创 solr升級到3.6後的一點問題
solr升級到3.6後,以前的CommonsHttpSolrServer類以及過期,官方建議使用HttpSolrServer,但替換類後,運行會報錯:
原创 ubuntu 12.04 LTS下安裝zabbix
轉載請標明出處:http://blackwing.iteye.com/blog/2001416主要參考這篇文章:[url]https://www.digitalocean.com/community/art
原创 HBase使用SNAPPY壓縮遇到compression test fail問題解決
轉載請標明出處:http://blackwing.iteye.com/blog/1943575之前爲HBase增加SNAPPY壓縮的一篇文章:http://blackwing.iteye.com/blog/
原创 解決直接讀HFile時因表數據寫入而導致文件目錄變化問題
轉載請標明出處:http://blackwing.iteye.com/admin/blogs/2188077數據量大的情況下,通過直接讀取HFile來獲得hbase表數據性能比通過HTable讀取有優勢,但
原创 日誌收集器fluentd:配置forward從客戶機到收集入庫端
轉載請聲明出處:http://blackwing.iteye.com/blog/2152319試用了fluentd,挺方便易用,支持直接到hdfs,hbase,mangoDB等,可以跟已有業務結合。安裝fl
原创 Hadoop的Text類getBytes字節數據put到HBase後有多餘字符串問題
轉載請標明出處:http://blackwing.iteye.com/blog/1978501org.apache.hadoop.io.Text裏面的getBytes方法有個小坑。先看現場:String s
原创 LoadIncrementalHFiles是copy而不是move的疑惑
轉載請標明出處:http://blackwing.iteye.com/blog/1991901之前在另一篇文章裏實現的自定義job生成HFile並使用LoadIncrementalHFiles 入庫HBa
原创 那些storm的坑坑
轉載請聲明出處:http://blackwing.iteye.com/blog/2147633在使用storm的過程中,感覺它還是不如hadoop那麼成熟。當然,它的流式處理能力挺讓人眼前一亮,以前做的個性
原创 推薦技術簡介
轉載請標明出處:http://blackwing.iteye.com/blog/2231556根據項亮《動態推薦系統關鍵技術研究》的分類方式,可以根據使用數據來把推薦技術分成以下兩類:[size=mediu
原创 新版hadoop MultipleOutputs多文件輸出
轉載請標明出處:http://blackwing.iteye.com/blog/2191454網上雖然有不少關於MultipleOutputs實現多文件輸出的文章,但發現要不還是使用mapred.lib舊接
原创 ClassNotFoundException: org.apache.hadoop.util.PlatformName問題解決
轉載請標明出處:http://blackwing.iteye.com/blog/1980219服務器上hbase用的是hadoop 2.2.0的hdfs,java程序訪問hbase時報如下錯誤:java.l