lucence分詞器

原創

2020-02-22 02:14

lucence是一個很好的搜索引擎，可以很好的實現文檔的關鍵詞搜索，看看如何用他提供的api實現自己的分詞器。

廢話不說，直接上代碼吧

public void solve(Analyzer zz,Strng text){

TokenStream tt=zz..tokenStream(null,new StringReader(text));

TermAttribute term=tt.addAttribute(TermAttribute.class);

PositionIncrementAttribute position=tt.addAttribute(PositionIncrementAttribute.class);

OffsetAttribute offset=tt.addAttribute(OffsetAttribute.class);

TypeAttribute type=tt.addAttribute(TypeAttribute.class);

int position=0;

while(tt.incrementToken()){

int increment=position.getPositionIncrement();

if(increment>0){

position+=increment;

System.out.println(position+":");

}

System.out.println(term.term+" "+offset.startOffset+" "+offset.endOffset()+" "+type.type());

}

}

其中TermAttaibute是詞彙對象，PositionIncrementAttribute是詞彙的位置增量，默認值是1，還有offsetAttribute是偏移量，代表詞彙在文本中的具體位置，還有typeAttribute是單詞的類型，默認是word

發佈了37 篇原創文章 · 獲贊 1 · 訪問量 1萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

lucence全文檢索

2020-02-21 00:06:54

solr5.x整合IK中文分詞

在solr5.x中加入IK中文分詞，首先要下載適用於solr5.x版本的IK對應的jar文件下載地址：點擊打開鏈接把下載下來的jar包放到solr/WEB-INF/lib下然後我們需要在mynode（具體看搭建環境那塊）中的conf

2020-06-16 03:11:32

solr5.4環境搭建

2020-02-21 00:06:55

lucence入門

2020-02-20 20:49:24

Lucene倒排索引原理(轉)

2020-02-20 16:41:47

lucence全文檢索

2020-02-21 00:06:54

Lucence學習筆記

《Lucence in Action》學習筆記索引和搜索創建索引public class Indexer { if (args.length != 2) { throw new Exception("Usage: java

2020-07-06 06:34:18

Lucence索引的存儲

Lucence存儲索引的文件目錄，包含若干文件，其存儲的內容說明如下： *.frm：保存域的信息 *.fdx,*.fdt：保存域的值，保存存儲選項爲YES的數據 *.frq:出現次數，用來做評分和排序的 *.nrm:存儲評分信息 *.p

2020-06-16 16:54:28

Lucence的Field屬性整理

Field屬性 1.存儲選項 Field.Store.YES 表示會把這個域中的內容完全存儲到索引文件中，方便進行域內容的還原 Field.Store.NO 表示這個域的內容不會存儲到索引文件中，但是可以被索引，此時該域的內容無法完全還原

2020-06-16 16:54:28

solr5.x整合IK中文分詞

在solr5.x中加入IK中文分詞，首先要下載適用於solr5.x版本的IK對應的jar文件下載地址：點擊打開鏈接把下載下來的jar包放到solr/WEB-INF/lib下然後我們需要在mynode（具體看搭建環境那塊）中的conf

2020-06-16 03:11:32

Lucence(Index,Searcher,Analyzer)技術原理整理

2020-02-25 18:34:15

近實時搜索

2020-02-25 18:34:15

Lucunce-瞭解下

2020-02-24 18:04:39

solr5.4環境搭建

2020-02-21 00:06:55

lucence入門

2020-02-20 20:49:24

24小時熱門文章

最新文章

最新評論文章