簡與美（4）

腦中的數學是抽象的，手中的數學是簡單的。

前面已經討論了中文分詞三個階段的第一個階段：字串粗分。經過字串粗分得到一個候選集合，我們也討論了通過N-最短路徑構造一個詞圖來減少這個候選集合的結果數目。理想情況下，如果這些候選結果包含了正確的分詞結果，那麼後續的處理就可能把正確的結果找出來，但如果經過粗分，把正確結果已經剝離了，那麼後續處理就很難甚至不可能把正確結果找回來了。

實驗結果證明，N-最短路徑已經能夠把準確率(包含正確結果)提高到99.5%以上，所以大可不必對結果太過沮喪。

如果說第一個階段是粗糙的切分過程，那麼後面兩個階段就可以稱作是對分詞結果的精細加工。我們之前也說到過，最準確的分詞是基於上下文的，但是機器不容易理解上下文，我們只能通過一些方法，把問題抽象成數學模型，這樣纔有可能讓機器理解分詞。

我們之前已經討論過在N-最短路徑方法中加入一元統計模型，即引入詞頻的統計信息，詞頻是通過大量編輯好的語料統計出來的並存儲到詞典中，在求解N-最短路徑的過程中，把詞頻作爲邊長運行算法，可以得到更加準確的、結果數量更少的粗分集合，這就是一種最簡單的上下文信息，他認爲每個詞語都是獨立的無關聯的。

分詞的後面兩個階段--未登錄詞識別和詞性標註--是對分詞的進一步精加工，我們的思路是引入對上下文理解的更好的統計模型，並把這個統計模型結合N-最短路徑方法構造的詞圖，完成未登錄詞識別和詞性標註的任務，這三個階段的處理，已經可以得到準確率較高的分詞結果了。

但是，我們要引入的這個統計模型可並不容易構造，而且，他比較依賴於語料庫的質量，如果有千萬級以上詞彙量的高質量語料庫，效果就會非常好，但是製作語料庫的成本是相當高的。好在現在已經有研究機構把這個髒活做的不錯了，市面上就有不少質量很高的語料庫，比如人民日報1998年全年的分詞語料庫。

語料庫一般是已切分好詞語並做了詞性標註的字串，例如：我/r 是/v 啃餅/nr 。/w

“我”是代詞，“是”是動詞，“啃餅”是人名，“。”是標點符號。

未登錄詞識別和詞性標註依賴的統計模型是隱馬爾科夫模型，這是自然語言處理領域非常出名的一個模型。在進行隱馬爾科夫討論之前，我想先論述一下基於統計的語言處理模型的特點和侷限性，在充分的瞭解這個領域的前提下再去理解相關的統計模型，會更加清晰，自私的說，我也會更容易說清楚。

先聽聽一些質疑的聲音：語言學家總結出的各種語言學規則，對於語言信息處理還有用嗎？單純依賴概率統計方法，能夠完成語言信息處理任務嗎？或者更深入一點：能夠從帶標註的語料庫中，通過概率統計方法獲得真正的語言知識嗎？

從語言學的角度看，語言是具有遞歸性的結構特點，語言知識具有依賴於結構的特點，這兩點使得任何統計方法都難以真正挖掘出系統的語言知識。基於統計的語言模型只能在某些非結構化的語言領域湊效。

建立基於統計的語法模型的思想，最早源於信息論。shannon和weaver指出了信息論對於語言學研究可能具有的意義：誠如我們所知道的，這種跟來源相聯繫的信息的概念，會直接促成對語言的統計結構的研究。拿英語來說，信息似乎對於研究語言和交際的每一方面的學者，必定都是重要的。看起來，使用涉及馬爾科夫過程這種強有力的理論的觀念，對於語義學研究尤其有前途，因爲這種理論特別適合於處理意義的最重要但也最困難的方面，即語境的影響。

對於他們的提議，語言學家作出了熱烈的響應。Hockett對信息論作了具體的介紹和評論，並指出信息論在語言學以及其他方面的可能應用，討論了音位化和訊號單位的最大平均熵問題、音位系統的統計結構和總體熵問題、語素--音位的轉換和概率問題，特別討論了怎樣利用語素序列的統計特點來判斷直接成分的界限。Hockett把信息論的成果應用到關於人類語言的馬爾科夫過程模型的構造中，他用狀態和轉移概率組成的矩陣表來說明語句的統計結構，還引入熵來度量每一種狀態的不確定性。他相信，如果統計英語中所有語素和許多語素序列實際出現的相對頻率，並進行適當的計算，那麼，整個語法結構就能用上述概率轉移矩陣的方式刻畫出來。

基於統計的語言模型是相對於基於規則的語言模型而言的，前者是一種概率性的非確定性的語言處理模型，後者是一種確定性的語言處理模型。一般說，確定性的模型運用明確的規則來表述物理世界或者自然語言的已知的特定屬性。在物理學中，如牛頓力學，在自然語言中，如正則語法、上下文無關語法等形式語法。但是，並不是所有的物理世界和自然語言的現象都可以用確定性的規則來刻畫，而且這些規則的使用也具有不確定性。在這種情況下，統計模型被用來描述物理世界和自然語言的統計屬性。建立統計模型的基本假設是：物理世界和自然語言可以用隨機過程來刻畫，而隨機過程中的參數可以精確的估計。比如，物理學上的統計力學，自然語言中的概率語法，都屬於統計模型。

當人們用規則方法不能處理語言時，自然會轉向統計方法，希望用在語料庫中對相關數據統計的方法來爲要解決的語言問題建立統計模型，並且由語料庫中的訓練數據來估計統計模型的有關參數。

對於下面要介紹的馬爾科夫模型，需要基於一個假設：假定N+1個符號出現這個事件的機會只會跟其前面的N個符號的出現相關，但是跟語句中的其他符號的出現與否都無關。這就是概率論的獨立性假設，這已經跟語言的實際情況相對立了，並且，在實際構造和實現統計模型的的時候，爲了避免自由參數太多而造成計算上的指數爆炸，同時爲了克服訓練的數據稀疏問題的困難，這個N的數目不能太大，通常要減少到3以下才能實施。這就使得基於統計的語言處理模型離語言事實越來越遠。

獨立性假設是一把雙刃劍，基於統計的語言處理模型藉助於獨立性假設，使得統計模型得以實施，但是，獨立性假設過度簡化了語言模型，使得統計模型只能處理對結構關係依賴性不強的對象，而那些依賴結構關係的結構化對象，例如代詞的先行詞求解，則比較難用統計模型處理。

時間關係，今天又無法完成隱馬爾科夫模型的介紹。我會在下一篇介紹馬爾科夫模型的同時介紹一種N元模型(語言的馬爾科夫統計模型)。不想倉促寫出來是爲了能夠表達的更加清晰。

待續...

kenbinzhang

發佈了30 篇原創文章 · 獲贊 1 · 訪問量 20萬+

私信關注

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

一文搞懂 Spring 循環依賴

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

抖音面試：說說延遲任務的調度算法？

nginx源碼分析（2）- 概覽

nginx源碼分析（1）- 緣起

簡與美（7）

簡與美（5）

簡與美（1）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結