Luence中文分詞的簡單例子

我用的是NetBeans的編程軟件,首先建立一個java項目Luence.java,項目配置如下圖:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

程序如下:

 

package paodingtest;

import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

/**
 *
 * @author Administrator
 */
public class LuenceTest {

    /**
     * @param args the command line arguments
     */
    public static void main(String[] args) throws IOException {
        // TODO code application logic here
        Analyzer analyzer=new StandardAnalyzer();//標準過濾停用次
       
        //Analyzer analyzer = new SimpleAnalyzer();//簡單地過濾空格和符號
        //Analyzer analyzer = new CJKAnalyzer();//中文進行兩字兩字拆分,英文和StandardAnalyzer功能一樣
        //Analyzer analyzer = new WhitespaceAnalyzer();//過濾空格
        //Analyzer analyzer = new ChineseAnalyzer();//拆分每個字符,過濾符號(即把一句話拆分成一個一個漢字,不顯示符號)
       
        TokenStream tokenStream=analyzer.tokenStream(" ",new StringReader("關於lucene實現中文分詞的簡單例子"));
        Token token=new Token();
        while(null!=tokenStream.next(token))
            System.out.print(token.term()+"|");
        System.out.println();
    }
   
   
}

 

 

運行結果如下:

 

run:
關|於|lucene|實|現|中|文|分|詞|的|簡|單|例|子|
成功生成(總時間:0 秒)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章