lucence分词器

原創

2020-02-22 02:14

lucence是一个很好的搜索引擎，可以很好的实现文档的关键词搜索，看看如何用他提供的api实现自己的分词器。

废话不说，直接上代码吧

public void solve(Analyzer zz,Strng text){

TokenStream tt=zz..tokenStream(null,new StringReader(text));

TermAttribute term=tt.addAttribute(TermAttribute.class);

PositionIncrementAttribute position=tt.addAttribute(PositionIncrementAttribute.class);

OffsetAttribute offset=tt.addAttribute(OffsetAttribute.class);

TypeAttribute type=tt.addAttribute(TypeAttribute.class);

int position=0;

while(tt.incrementToken()){

int increment=position.getPositionIncrement();

if(increment>0){

position+=increment;

System.out.println(position+":");

}

System.out.println(term.term+" "+offset.startOffset+" "+offset.endOffset()+" "+type.type());

}

}

其中TermAttaibute是词汇对象，PositionIncrementAttribute是词汇的位置增量，默认值是1，还有offsetAttribute是偏移量，代表词汇在文本中的具体位置，还有typeAttribute是单词的类型，默认是word

发布了37 篇原创文章 · 获赞 1 · 访问量 1万+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

lucence全文检索

2020-02-21 00:06:54

solr5.x整合IK中文分词

在solr5.x中加入IK中文分詞，首先要下載適用於solr5.x版本的IK對應的jar文件下載地址：點擊打開鏈接把下載下來的jar包放到solr/WEB-INF/lib下然後我們需要在mynode（具體看搭建環境那塊）中的conf

2020-06-16 03:11:32

solr5.4环境搭建

2020-02-21 00:06:55

lucence入门

2020-02-20 20:49:24

Lucene倒排索引原理(转)

2020-02-20 16:41:47

lucence全文检索

2020-02-21 00:06:54

Lucence学习笔记

《Lucence in Action》學習筆記索引和搜索創建索引public class Indexer { if (args.length != 2) { throw new Exception("Usage: java

2020-07-06 06:34:18

Lucence索引的存储

Lucence存儲索引的文件目錄，包含若干文件，其存儲的內容說明如下： *.frm：保存域的信息 *.fdx,*.fdt：保存域的值，保存存儲選項爲YES的數據 *.frq:出現次數，用來做評分和排序的 *.nrm:存儲評分信息 *.p

2020-06-16 16:54:28

Lucence的Field属性整理

Field屬性 1.存儲選項 Field.Store.YES 表示會把這個域中的內容完全存儲到索引文件中，方便進行域內容的還原 Field.Store.NO 表示這個域的內容不會存儲到索引文件中，但是可以被索引，此時該域的內容無法完全還原

2020-06-16 16:54:28

solr5.x整合IK中文分词

在solr5.x中加入IK中文分詞，首先要下載適用於solr5.x版本的IK對應的jar文件下載地址：點擊打開鏈接把下載下來的jar包放到solr/WEB-INF/lib下然後我們需要在mynode（具體看搭建環境那塊）中的conf

2020-06-16 03:11:32

Lucence(Index,Searcher,Analyzer)技术原理整理

2020-02-25 18:34:15

近实时搜索

2020-02-25 18:34:15

Lucunce-了解下

2020-02-24 18:04:39

solr5.4环境搭建

2020-02-21 00:06:55

lucence入门

2020-02-20 20:49:24

24小時熱門文章

最新文章

最新評論文章