基於隱馬爾科夫模型的中文分詞研究

魏曉寧

(南通大學計算機科學與技術學院，江蘇南通226019)

摘要：一直以來，漢語自動分詞是公認的漢語信息處理瓶頸。反思現有漢語自動分詞技術，發現均有隱舍兩大假設：語言是規律的、詞具有確定邊界這與語言的複雜性、組合性、動態性、模糊性特徵不符。本文采用一種基於隱馬爾科夫模型(HMM)的算法．通過CHMM(層疊形馬爾科夫模型)進行分詞，再做分層，既增加了分詞的；隹確性，又保證了分詞的效率。

關鍵詞：自動分詞；隱馬爾科夫模型(HMM)；N一最短路徑粗切分；統計模型

中圖分類號：TP391 文獻標識碼：A 文章編號：1009—3044(2007)21—40885—02

漢語自動智能分詞是中文信息處理的基礎與關鍵隨着中外文機器翻譯研究的深入和自然語言理解．電子詞典等中文詞語處理技術應用的擴展．對漢語自動分同軟件的要求越來越高近年來我國已經開發了多種現代書面漢語自動分詞軟件．國內衆多研究機構已經在計算機漢語文本自動分詞方面進行了大量的研究並取得了很多成就雖然這方面的研究和應用正在不斷深入．但到目前爲止還沒有評價此類軟件的標準模型和方法

1 中文分詞方法

漢語自動分詞不同於英文中的分詞．漢語文本是大字符集上的連續字串．以字爲單位．句子中所有的字連起來才能捕述一個意思中文句子和段落可以通過明顯的分界符來簡單劃界．而句中詞與詞之間並沒有明顯的界限標誌．因此在分詞時尤爲困難針對於中文語句的這一特性．在處理分詞時就必須要考慮幾個方面的問題詞語切分、未定義詞識別、詞性標註。常用的分詞方法有：1．基於字符串匹配的分詞方法：2．基於統計的分詞方法：3．基於規則和基於統計相結合

2 基於語料庫的統計語言學方法

近年來．基於語料庫分析的自然語言處理方法受到了越來越多的計算語言學家的重視和應用在規則方法即理性主義方法屢受挫折的事實面前．語料庫語言學的發展促使計算語言學家們越來越重視數理統計在語言學中的應用傳統語言學給我們積累了豐富的語言實例．但對於語

言規律的把握．人類至今還沒有找到最好的方法。但是．數理統計方法已經發展的比較成熟．值得信賴。語料庫是經過處理的大量領域文本的集合．通過對語料庫中的文本進行統計分析．可以獲取該類文本的某些整體特徵或規律。如果能夠充分地利用這些統計現象、規律．就可以構造基於語料庫的統計學信息抽取算法統計的分析方法多種多樣．近期研究的熱點主要集中於由隨機過程發展而來的理論和方法其中最重要的是應用隱馬爾科夫模型(HMM)進行自然語言處理的方法。

3.隱馬爾科夫模型(HMM)簡介

3.1馬爾科夫(Markov)過程的定義

一般地，考慮只取有限個(或可數個)值的隨機過程{Xn=1．2 ⋯}：若Xn=i，就說過程在n時刻處於i狀態，假設每當過程處於狀態i，則過程在下一時刻處於狀態j的概率P爲一定值，即Vn≥1有：

這樣的隨機過程稱爲Markov鏈(給定過去的狀態X1 ..，Xn-1 和現在的狀態Xn 將來的狀態Xn+1 的條件分佈獨立於過去的狀態．只依賴於現在的狀態— — 這就是Markov性)。

一個馬爾科夫模型(MM)M就是一個Markov鏈加上一個轉移概率矩陣顯然．它可被視爲一個隨機有限狀態自動機．其每個狀態都代表一個可觀察的事件．之間的轉換都對應一定的概率

3.2 隱馬爾科夫模型fHMM)的概念

對於馬爾科夫模型而言．每個狀態都是決定性地對應於一個可觀察的物理事件．所以其狀態的輸出是有規律的然而．這種模型限制條件過於嚴格．在許多實際問題中無法應用於是人們將這種模型加以推廣．提出了隱馬爾科夫模型(HMM)。隱馬爾科夫過程是一種雙重隨機過程。即：觀察事件是依存於狀態的概率函數．這是在HMM 中的一個基本隨機過程．另一個隨機過程爲狀態轉移隨機過程．但這一過程是隱藏着的．不能直接觀察到．而只有通過生成觀察序列的另外一個概率過程才能間接地觀察到

對於隱馬爾科夫模型的應用．在語音識別領域已經取得了很好的成效．在信息抽取領域的應用也正在不斷的嘗試和推廣中

3.3 隱馬爾科夫模型(HMM)的模型參數

3．4隱馬爾科夫模型的訓練與優化問題

隱馬爾科夫模型可描述爲X(A，B, Pi)，如何確定其中的A、B和百就是所謂的模型參數獲取問題。

到目前爲止．對於隱馬爾科夫模型的參數選擇和優化問題．還沒有什麼分析算法可以得到最優解。目前使用較廣的處理方法是Baum—Welch估計算法(或稱期望值修正法．即 EM法)。該算法是一種迭代算法．初始時刻由用戶給出各參數的經驗估計值．通過不斷迭代．使個參數逐漸趨向更爲合理的較優值。算法可簡單描述如下：

4模塊的主要功能及測試結果

本系統的主要設計思想是：先進行原子切分，然後在此基礎上進行N一最短路徑粗切分．找出前N個最符合的切分結果，生成二元分詞表，再生成分詞結果，接着進行詞性標註並完成主要分詞步驟分詞模塊的主要功能其第一步是原子分詞。所謂原子，是指該短句中不可分割的最小語素單位但在進行原子切分之前，首先要進行斷句處理。所謂斷句．就是根據分隔符、回車換行符等語句的分隔標誌．把源字符串分隔成多個稍微簡單一點的短句，再進行分詞處理．最後把各個分詞結合起來，形成最終的分詞結果。分成短句之後．即可進行原子分詞。例如：索愛K一300型號的手機1元錢，則K一300、1都是一個原子，其它的每個漢字是一個原子。

按照這種方式．通過簡單的漢字分割就形成了原子分詞的結果．並對每個原子單位進行詞性標註 npos=1表示是開始標記．npos=4表示結束標記．npos=0表示未識別詞。經過原子分詞之後，就可進行初次分詞。經過原子分詞後．源字符串成了一個個獨立的最小語素單位下面的初次切分。就是把原子之間所有可能的組合都先找出來算法是用兩個循環來實現．第一層遍歷整個原子單位．第二層是找到一個原子時．不斷把後面相鄰的原子和該原子組合到一起．訪問詞典庫看它能否構成_個有意義的詞組系統在語料庫評測中的測試結果：

文章源地址：http://www.lw23.com/pdf_b0a23142-d192-4439-9df2-86d66ab19131/lunwen.pdf

jackfirst86

發佈了27 篇原創文章 · 獲贊 1 · 訪問量 7萬+

私信關注

基於隱馬爾科夫模型的中文分詞研究

自動分詞算法的分類

ME, HMM, MEMM, CRF

一個基於搜索的中文分詞方法( A Search-based Chinese Word Segmentation Method)

最大熵模型文獻閱讀指南

Mongodb源碼分析--插入記錄及索引B樹構建

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結