原创 Hadoop中一些採樣器的實現

Hadoop中採樣是由org.apache.hadoop.mapred.lib.InputSampler類來實現的。 InputSampler類實現了三種採樣方法:SplitSampler、RandomSampler和Interv

原创 mapreduce 新舊API 區別

在hadoop 權威指南中有說明,原文如下: The new Java MapReduce API Release 0.20.0 of Hadoop included a new Java MapReduce API, som

原创 java多線程中unchecked 異常的處理UncaughtExceptionHandler

Thread的run方法是不拋出任何檢查型異常(checked exception)的,但是它自身卻可能因爲一個異常而被終止,導致這個線程的終結。最麻煩的是,在線程中拋出的異常即使在主線程中使用try...catch也無法截獲,因此可能導

原创 關於Decode和Encode

今天程序遇到個decode失敗的問題,後來發現是亂碼導致的。在查問題的過程中重溫了下Unicode、decode、encode等概念,看到兩篇很好的文章,貼在這裏。 http://www.stereoplex.com/blog/pyth

原创 tcp建立連接和斷開連接

開始三次握手: 如果你還不會簡單的tcp socket編程,我建議你先去學學,這就好比你不會C++基本語法,就別去研究vtable 之類。 三次握手開始於客戶端試圖連接服務器端。當你調用諸如connect的函數時,正常情況下就會開始

原创 Understanding the parallelism of a Storm topology

In the past few days I have been test-driving Twitter’s Storm project, which is a distributed real-time data processi

原创 Storm安裝部署步驟

本文轉自量子恆道官方博客:http://blog.linezing.com/2013/01/how-to-install-and-deploy-storm-cluster 本文以Twitter Storm官方Wiki爲基礎,詳細描述如

原创 如何在Java程序中處理Ctrl+C

在Java控制檯程序中,特別是多線程的Java控制檯程序中,中途中斷程序可能產生不可預料的結果,比如文件描述符沒有關閉,造成文件格式的破壞,或者 遠程連接沒有關閉,造成遠程服務器資源的浪費,等等。所以在程序中添加Ctrl+C處理機制很有必

原创 理解inode

inode是一個重要概念,是理解Unix/Linux文件系統和硬盤儲存的基礎。 我覺得,理解inode,不僅有助於提高系統操作水平,還有助於體會Unix設計哲學,即如何把底層的複雜性抽象成一個簡單概念,從而大大簡化用戶接口。

原创 memcached命令行參數說明

1、啓動Memcache 常用參數 -p <num>      設置TCP端口號(默認不設置爲: 11211) -U <num>      UDP監聽端口(默認: 11211, 0 時關閉)  -l <ip_addr>  綁定地址

原创 python 內存泄露的診斷

對於一個用 python 實現的,長期運行的後臺服務進程來說,如果內存持續增長,那麼很可能是有了“內存泄露” 一、內存泄露的原因 對於 python

原创 java的volatile是什麼意思

我們知道,在Java中設置變量值的操作,除了long和double類型的變量外都是原子操作,也就是說,對於變量值的簡單讀寫操作沒有必要進行同步。 這在JVM 1.2之前,Java的內存模型實現總是從主存讀取變量,是不需要進行特別的注意的。

原创 Linux TCP 系統參數配置

Linux TCP 系統參數配置 我們這裏應用的是CentOS5.3,並內核使用的是2.6.18-128.el5PAE #1 SMP 。修改部分TCP ,有的是爲了提高性能與負載,但是存在降低穩定性的風險。有的則是安全方面的配置,則

原创 How to override comparison operators in Python

Python, like many languages, allows the behavior of operators to be customized using a scheme based on the types of ob

原创 hbase通過row key 的前綴查詢記錄

如果你在hbase表中存在一些特徵相同的記錄,實際上就可以通過設置Filter的方式進行檢索過濾。 比如這個特徵是前綴相同。 ROW                                         COLUMN+CE