ICTClAS

ICTClAS

原創

2020-06-21 10:22

ICTClAS分詞系統是由中科院計算所的張華平、劉羣所開發的一套獲得廣泛好評的分詞系統，難能可貴的是該版的Free版開放了源代碼，爲我們很多初學者提供了寶貴的學習材料。

但有一點不完美的是，該源代碼沒有配套的文檔，閱讀起來可能有一定的障礙，尤其是對C/C++不熟的人來說.本人就一直用Java/VB作爲主要的開發語言,C/C++上大學時倒是學過,不過工作之後一直沒有再使用過,語法什麼的忘的幾乎一乾二淨了.但語言這東西,基本的東西都相通的,況且Java也是在C/C++的基礎上形成的,有一定的相似處.閱讀一遍源代碼,主要的語法都應該不成問題了.

雖然在ICTCLAS的系統中沒有完整的文檔說明,但是我們可以通過查閱張華平和劉羣發表的一些相關論文資料,還是可以窺探出主要的思路.

該分詞系統的主要是思想是先通過CHMM(層疊形馬爾可夫模型)進行分詞,通過分層,既增加了分詞的準確性,又保證了分詞的效率.共分五層,如下圖一所示:

基本思路:先進行原子切分,然後在此基礎上進行N-最短路徑粗切分,找出前N個最符合的切分結果,生成二元分詞表,然後生成分詞結果,接着進行詞性標註並完成主要分詞步驟.

下面是對源代碼的主要內容的研究：

１.首先，ICTCLAS分詞程序首先調用CICTCLAS_WinDlg::OnBtnRun()開始程序的執行.並且可以從看出它的處理方法是把源字符串分段處理。並且在分詞前，完成詞典的加載過程，即生成m_ICTCLAS對象時調用構造函數完成詞典庫的加載。關於詞典結構的分析，請參加分詞系統研究（二）。

void CICTCLAS_WinDlg::OnBtnRun()
{

......

//在此處進行分詞和詞性標記

if(!m_ICTCLAS.ParagraphProcessing((char *)(LPCTSTR)m_sSource,sResult))
        m_sResult.Format("錯誤：程序初始化異常！");
   else
       m_sResult.Format("%s",sResult);//輸出最終分詞結果

......

}

２.在OnBtnRun()方法裏面調用分段分詞處理方法bool CResult::ParagraphProcessing(char *sParagraph,char *sResult)完成分詞的整個處理過程，包括分詞的詞性標註.其中第一個參數爲源字符串，第二個參數爲分詞後的字符串.在這兩個方法中即完成了整個分詞處理過程，下面需要了解的是在此方法中，如何調用其它方法一步步按照上圖所示的分析框架完成分詞過程.爲了簡單起見，我們先不做未登錄詞的分析。

//Paragraph Segment and POS Tagging
bool CResult::ParagraphProcessing(char *sParagraph,char *sResult)
{

........

Processing(sSentence,1); //Processing and output the result of current sentence.
Output(m_pResult[0],sSentenceResult,bFirstIgnore); //Output to the imediate result

.......

}

３.主要的分詞處理是在Processing()方法裏面發生的，下面我們對它進行進一步的分析.

bool CResult::Processing(char *sSentence,unsigned int nCount)
{

......

//進行二叉分詞

m_Seg.BiSegment(sSentence, m_dSmoothingPara,m_dictCore,m_dictBigram,nCount);

......

//在此處進行詞性標註

m_POSTagger.POSTagging(m_Seg.m_pWordSeg[nIndex],m_dictCore,m_dictCore);

......

}

４.現在我們先不管詞性標註，把注意力集中在二叉分詞上，因爲這個是分詞的兩大關鍵步驟的第一步.

參考文章:

1.<<基於層疊隱馬模型的漢語詞法分析>>,劉羣張華平等

2.<<基於N-最短路徑的中文詞語粗分模型>>,張華平劉羣

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

詐騙（殺豬盤）網站進行滲透測試

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

外行也能讀懂的網絡硬件設備功能原理速成

ICTClAS

解惑 spring 嵌套事務【轉】

機器學習評價指標大彙總

Java開發中的23種設計模式詳解

語義分析的一些方法(二)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結