原创 Java中的Set操作

首先看一個例子: Set operations: union(並集), intersection(交集),asymetric difference(非對稱差集), symmetric difference(對稱差集), is subset

原创 如何在Lucene裏面進行數字範圍搜索 (Numeric Range Query)

首先是建立索引: Document doc = new Document(); doc.add(new NumericField("Count").setDoubleValue(0.1);  然後就是搜索了,只要新建對應的: Query

原创 SQL Server 2005全文索引(full text search)

數據庫提供全文索引已經很普及了,之前使用了PostgreSQL和MySQL的,今天嘗試了SQL Server 2005。 首先新建一個數據庫,在新建一個表格,選擇Properties->Files,啓用索引, 要建立索引,需要有有一個

原创 LINUX Shell 下求兩個文件交集和差集的辦法

假設兩個文件FILE1和FILE2用集合A和B表示,FILE1內容如下: a b c e d a FILE2內容如下: c d a c 基本上有兩個方法,一個是comm命令,一個是grep命令。分別介紹如下:   comm命令 , Com

原创 [算法] 找到最相鄰的3元組

問題如下:  You are given with three sorted arrays ( in ascending order), you are  required to find a triplet ( one element

原创 Perl中的閉包(closure)

什麼是閉包,“This is a notion out of the Lisp world that says if you define an anonymous function in a particular lexical con

原创 Java的內存結構(Memory Structure)和垃圾收集(Garbage Collection)圖解

  JVM 內存包含如下幾個部分: Heap Memory 存放Java對象Non-Heap Memory 存放類加載信息和其它meta-dataOther 存放JVM 自身代碼等在JVM啓動時,就已經保留了固定的內存空間給Hea

原创 如何編寫MapReduce代碼

關於maperduce,可以參考:http://en.wikipedia.org/wiki/MapReduce 這裏假設你具備一定的hadoop編程經驗。 Mapper接受原始輸入,比如網站日誌,分析並輸出中間結果。經歷排序,分組成爲Re

原创 2011-11~17 新聞採集

Microsoft will release Win 8. (Developer Preview) With Bitcasa, The Entire Cloud Is Your Hard Drive For Only $10 Per M

原创 Hadoop套裝軟件包

如果你在使用Hadoop的同時,還想使用HBase,Hive等,一個個的安裝實在是費時費力。一個打包的套裝就解決了這個問題。下面介紹幾個市面上最重量級公司的產品。 建議下載虛擬機版本進行測試或者評估。 Cloudera’s Distrib

原创 實時數據分析Real-time data analysis frameworks (or stream system)

最近的工作中涉及要設計一個系統可以實時的監控系統的狀態,比如hadoop任務的執行情況,服務器的健康等。這個系統需要實時的處理對象產生的信息,併發送給用戶。 這個系統顯然需要具備如下特性: 可靠性大數據處理實時性顯然這將是一個基於Hado

原创 Perl中的grep和map

grep返回一個數字中符合條件的所有元素;map對數字中所有元素實施轉化並返回結果。兩者都遍歷了數組,但一個用來搜索,一個用來轉化。兩者都支持表達式或者代碼塊。#!/usr/bin/perl -w use

原创 如何在Java中選擇Map/List/Set

很實用,分享一下。 簡單版本 複雜版本 參考: http://initbinder.com/articles/cheat-sheet-for-selecting-maplistset-in-java.html http://www.s

原创 關於Hadoop中reducer端combiner的一些思考

什麼是Combiner Functions “Many MapReduce jobs are limited by the bandwidth available on the cluster, so it pays to minimiz

原创 WeakReference,SoftReference 和 PhatomReference 淺析

前幾天發了一篇關於垃圾收集的帖子,自己也不是這方面的專家,所以肯定有很多問題和錯誤,也請大家多多包涵和指教。 今天再進一步談一下這個幾個Reference吧。老實說,這幾個名詞我也是最近才聽說,平時也沒有實際使用過,但是確實在java 1