IK Analyzer實現中文分詞

原創

梧桐林木

2020-02-23 23:29

IK Analyzer是基於lucene實現的分詞開源框架，下載路徑:http://code.google.com/p/ik-analyzer/downloads/list

需要在項目中引入：

IKAnalyzer.cfg.xml

IKAnalyzer2012.jar

lucene-core-3.6.0.jar

stopword.dic

什麼都不用改

示例代碼如下(使用IK Analyzer):

package com.haha.test;

import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class Test2 {
public static void main(String[] args) throws IOException {
String text="基於java語言開發的輕量級的中文分詞工具包";
//創建分詞對象
Analyzer anal=new IKAnalyzer(true);
StringReader reader=new StringReader(text);
//分詞
TokenStream ts=anal.tokenStream("", reader);
CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
//遍歷分詞數據
while(ts.incrementToken()){
System.out.print(term.toString()+"|");
}
reader.close();
System.out.println();
}

}

另一種：

package com.haha.test;

import java.io.IOException;
import java.io.StringReader;

import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;

public class Test3 {

public static void main(String[] args) throws IOException {
String text="基於java語言開發的輕量級的中文分詞工具包";
StringReader sr=new StringReader(text);
IKSegmenter ik=new IKSegmenter(sr, true);
Lexeme lex=null;
while((lex=ik.next())!=null){
System.out.print(lex.getLexemeText()+"|");
}
}

}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

IK Analyzer實現中文分詞

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

自然語言處理論文發表

國際學術期刊會議大排名

IK Analyzer實現中文分詞

計算機相關專業EI及SCI國際會議及期刊彙總

歌曲背後的故事《可回答音樂相關的問題》

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結