原创 Twitter Storm 實時數據處理框架分析總結

Storm是Twitter開源的一個類似於Hadoop的實時數據處理框架(原來是由BackType開發,後BackType被Twitter收購,將S

原创 HBase MapReduce 使用

項目中需要用MapReduce來讀取或者寫Hbase,這樣可以節省大量開發時間。 Hbase本身的jar包裏就有這樣的API , 以下是我從官網上找的一些資料,和大家分享一下。 原文地址:http://hbase.apache.org/b

原创 awk日常用腳本

1 求 在file1裏 但是不在file2裏 awk 'NR==FNR{u[$0]=1}NR>FNR{if(!($0 in u))print}' f

原创 Hbase源碼研究(一)------put(1)

     近來由於工作需要,閱讀了一下hbase的源碼(0.92.1版),有時間就看一點兒,慢慢完善。有琢磨的不對的地方,還請大家多多指教。 先從入

原创 hadoop中查找輸入分片的文件路徑

     前幾天遇到個問題,需要查找hadoop的map函數裏輸入分片的文件路徑。      不多廢話貼上代碼,供大家參考       FileSplit f = (FileSplit)context.getInputSplit();  

原创 Hbase源碼研究(三)-------get最終轉化爲scan來處理(2)

    上一篇分析到了Scan scan = new Scan(get) 之後就沒再往下寫了, 現在繼續補上。     先來分析一下Scan的創建過程, public Scan(Get get) { this.startRow =

原创 Hbase源碼研究(四)------put(2)

   在前面的文章裏粗略地分析了hbase的put的源碼,但是對提交那塊分析的不夠深入.........現在把提交那塊拿出來再分析一下。    書接上文,前面說了在HconnectionManager 其中有一步是提交請求,調用瞭如下代碼

原创 JAVA內存的一些總結(二) 對象訪問

原博客地址:http://www.solr.cc/blog/?p=242 今天說說 java的對象訪問. 對象訪問會涉及到 棧、堆、方法區這三個內存區域。對象訪問主要有兩種:句柄訪問和指針放訪問。 上圖(源於網絡): 前面我們分析過

原创 JAVA內存的一些總結(一) 內存的劃分

原博客地址 http://www.solr.cc/blog/?p=217 最近面試總是有人 信誓旦旦的問:“對java的內存瞭解多少?”“聊聊java的回收機制?”,”遇沒有遇到過內存的問題” 巴拉巴拉的。 使用java幾年了,但是自我

原创 myeclipse中查看實現類的快捷鍵

有了這個快捷鍵,看代碼方便多了........ 1.在接口類中直接按 ctrl+T 彈出實現類的定義 2.鼠標點擊彈出的實現類定義即可跟蹤到實現類。 點贊 1 收藏 分享 文章舉報

原创 Hbase源碼研究(六)------put(4)

   今天來看一下HRegion類裏面的doMiniBatchPut 方法,又是一個麻煩的類........ @SuppressWarnings("unchecked") private long doMiniBatchPut(

原创 Hadoop動態添加刪除datanode及tasktracker

首先建議datanode和tasktracker分開寫獨立的exclude文件,因爲一個節點即可以同時是datanode和tasktracker,也可以單獨是datanode或tasktracker。   1、刪除datanode 修改n

原创 JAVA內存的一些總結(三) 垃圾回收

原博客地址:http://www.solr.cc/blog/?p=369 垃圾回收,一直是JVM幫我們幹,看過幾篇文章。總結一下,不求能優化回收機制,記錄下來就好。 做點準備工作:GC工作就是回收死對象,騰出空間。 什麼是死對象:沒有任

原创 巧用備份數節省hdfs空間

我們最近遇到一個問題,hdfs硬盤空間不足。各位有沒有遇到類似的問題呢? 仔細分析了一下,發現hdfs下有這樣一類文件,留之無大用,棄之可惜。 比如說最原始的日誌文件........ 本來留下他是用來做保險的,但是不一定能用的上,並且佔據

原创 Hbase中百萬級request不是癡人說夢

    昨天和一個互聯網公司leader聊天,我說我們hbase集羣(幾十臺小集羣)的寫請求達到過百萬級別,那個leader死活不信。說他們PB級別的數據每秒都在入庫也壓不到百萬級別請求。     啥都不說,先上圖吧,有圖有真相。