DotLucene源碼淺讀筆記(1) : Lucene.Net.Analysis

本系列筆記將以DotLucene的命名空間組織行文，閱讀的DotLucene版本是1.9.RC1,並且以更好的使用而非研究爲目的閱讀。也就是說要避難就易拉。

0）, DotLucene主要命名空間概覽：

命名空間

功能說明

Lucene.Net.Analysis

語言分析器，主要用於切詞，支持中文主要是擴展此類

Lucene.Net.Documents

索引存儲時的文檔結構管理，類似關係型數據庫的表結構

Lucene.Net.Index

索引管理，包括索引建立、刪除等

Lucene.Net.QueryParsers

查詢分析器，實現查詢關鍵詞間的運算，如與、或、非等

Lucene.Net.Search

檢索管理，根據查詢條件，檢索得到結果

Lucene.Net.Store

數據存儲管理，主要包括一些底層的I/O操作

Lucene.Net.Util

一些公用類

1), Lucene.Net.Analysis命名空間分析。

在Lucene.Net.Analysis下，類的關係，可以看成有三個繼承體系:

詞法分析器(Analyzer) ：詞法過濾和分析的類，實際上是對分詞器, 過濾器的綜合包裝類。

分詞器(Tokenizer)：對文本進行分詞，可能是單字，詞，二元切分等等。

過濾器(TokenFilter)：對由分詞器分詞後的Token進行過濾，比如無意詞(a ,是，的等等)或者其他的指定的需要過濾的詞

下面看看每一個繼承體系都有那些相關類：

詞法分析器(Analyzer)的相關類類關係圖：

分詞器(Tokenizer) 的相關類類關係圖：

過濾器(TokenFilter) 的相關類類關係圖：

上面的三個類關係體系裏涉及到的主要類(概念)的簡單說明：

類名

功能說明

Analyzer

分析器基類，詞法過濾和分析的類,即把文本分解成TokenStream,即Token的序列。Analyzer只是做包裝，主要還是Tokenizer在起作用

StopAnalyzer

Analyzer擴展類之一，SimpleAnalyzer功能基礎上加上過濾詞功能

StandardAnalyzer

Analyzer擴展類之一，也是最常用的分析器，支持中文，日文等，單字切分。

SimpleAnalyzer

Analyzer擴展類之一，將除去字符之外的符號全部過濾掉,並且將所有的字符小寫(大寫)化

Token

DotLucene最基本的單位，以單字切分則每個單字爲一個Token,如果以中文分詞來切分則每個詞爲一個Token

TokenStream

Token的序列

Tokenizer

繼承於TokenStream，用於分詞。一般擴展的自定義的分詞都應該繼承這個類

StandardTokenizer

Tokenizer擴展類之一，也是最常用的，支持中文，基於單字切分

TokenFilter

繼承於TokenStream的子類,用於過濾。一般拓展的自定義的過濾類都應該繼承該類

StandardFilter

TokenFilter拓展類之一，過濾英文字符的複數和dot（.）號.

LowerCaseFilter

對所有英文小寫化

StopFilter

過濾掉指定的過濾詞

在所有上面這個類之中，我們經常用的也是所有Analyzer中最複雜的就是StandardAnalyzer(本身不復雜，其調用的分詞器複雜)，下面對這個類做一個簡單的分析:
StandardAnalyzer最核心，最主要的方法：

public override TokenStream TokenStream(System.String fieldName, System.IO.TextReader reader)

{

TokenStream result = new StandardTokenizer(reader);

result = new StandardFilter(result);

result = new LowerCaseFilter(result);

result = new StopFilter(result, stopSet);

return result;

}

就是調用StandardTokenizer分詞器對文本分詞。然後調用三個過濾器(作用表格有寫)，其中的StandardTokenizer類及相關的類比較複雜，目前還沒有完全理解。所以下面的文字是需要用批判眼光來閱讀的。說白了，我是一邊猜，一邊看源碼。以求的最準確的理解。

先做個簡單的測試，通過結果來分析：

string sTemp = "我們是中國人,We are chinese";

Analyzer analyzer = new StandardAnalyzer() ;

StringReader sr = new StringReader(sTemp);

TokenStream ts = analyzer.TokenStream(sr);

Lucene.Net.Analysis.Token token = null;

while ((token = ts.Next()) != null)

{

this.txtResult.Text += token.ToString();

}

txtResult是Winform的TextBox，輸出結果如下：

(我,0,1,type=<CJ>)(們,1,2,type=<CJ>)(是,2,3,type=<CJ>)(中,3,4,type=<CJ>)(國,4,5,type=<CJ>)(人,5,6,type=<CJ>)(we,7,9,type=<ALPHANUM>)(chinese,14,21,type=<ALPHANUM>)

拿(我,0,1,type=<CJ>)來分析，因爲是單字切分，所以分解成了一個一個的字。其中0,1表示”我”這個字在文本中StartOffset，EndOffset，最後的type表示文字的類型是英文,數字,還是是中文等等。在rc1.9中支持的type可以在Lucene.Net.Analysis.Standard下的StandardTokenizerConstants類看到。而CJ代表的是中文和日文的集合。不僅僅代表中文哦。

分析到這裏，我有一個疑問。DotLucene是怎麼區別不同的文字的呢？那就是根據unicode編碼的範圍區別不同的文字。不過這句話，是我猜出來，但我始終沒能在DotLucene源碼中找到能支持我這句話的原代碼。所以猜測始終還是猜測。鑑於本次閱讀DotLucene的目的是爲了更好的使用，而非研究，所以對Lucene.Net.Analysis命名空間的分析只能就此打住。

後記：

據我所知，現在已經有很多種第三方的Analyzer。SourceForce上的有一個ChineseAnalyzer,基於二元分詞算法實現中文分詞。還有基於詞庫實現中文分詞的Analyzer,一般認爲。使用針對中文優化過的Analyzer可以提高搜索準確度，但是對於大多數的搜索應用，StandardAnalyzer 絕對夠用，好用。爲什麼呢？打個比方，拿”國際經濟”四個字來說，如果是StandardAnalyzer的話，無論搜索國際，經濟，還是國際經濟都能搜索到。但是如果用中文分詞，那就難說。那就看你的中文分詞怎麼分 “國際經濟’拉(二元分詞算法的Analyzer不需要考慮這個問題)。我在給CS做的搜索系統，也是用StandardAnalyzer，絕對不用其他的Analyzer。以上純屬個人拙見。

DotLucene源碼淺讀筆記(1) : Lucene.Net.Analysis

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

《最新出爐》系列入門篇-Python+Playwright自動化測試-41-錄製視頻

遞歸轉非遞歸(學習筆記)

類似baidu google分頁頁碼效果的代碼

對象數組與ArrayList互轉的簡單方法[摘錄]

項目總結：如何實現網站內容查重，助力內容審覈，提高網站運營效率？

大型社區設計：提高用戶體驗的１０個細節

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結