2010-08-20 13:35:28
FMM/BMM:北京航天航空大學 樑南元教授提出
例如:詞典如下
小瀋陽
瀋陽
演出
分成
成都
都
均
爲
是
9:1
FMM:小瀋陽/演出/收入/分成/均/爲/9:1 (正確)
BMM:小瀋陽/演出/收入/分成/均/爲/9:1 (正確)
BMM:小瀋陽/演出/收入/分成/都/是/9:1 (正確)
FMM:小瀋陽/演出/收入/分/成都/是/9:1 (錯誤)
內塔尼亞胡
胡說
說
的
的確
確實
實在
在理
句子實例:內塔尼亞胡說的確實在理
FMM:內塔尼亞胡/說/的確/實在/理(錯誤)
BMM:內塔尼亞/胡說/的/確實/在理(錯誤)
機械分詞的優點
沒有任何複雜計算,分詞速度快
不能處理歧義
不能識別新詞
分詞精度不能滿足實際的需要(規範文本 80%,互聯網文本在70%左右)
原理
首先建立學習樣本的生成模型,再利用模型對預測結果進行間接推理
馬爾可夫假設
當前狀態出現的概率僅同過去有限的歷史狀態有關,而與其他狀態無關。具體到分詞任務,就是文本中第i個詞出現的概率僅僅依賴於它前面的i-1個詞,而與其他詞無關。
當前狀態的輸出僅僅取決於當前狀態本身,而與其他狀態無關。
學習過程(利用MLE估計)
P(wt|wt-1)=(Count(wt,wt-1))/Count(wt-1)
P(W|O)=maxP(W|O)=maxP(w1w2...wn|o1,o2...om)=maxP(wt|wt-1,ot)
W:分詞結果
O:待分詞文本
第一步:全切分
第二步:Viterbi動態規劃,找到貫穿句子的路徑並計算每條路徑的概率
第三步:選擇概率最大的路徑 爲切分結果
能夠處理大多數常用詞帶來的歧義問題
不能處理新詞以及新詞帶來的歧義問題
在統一的框架下進行分詞與新詞識別
將詞分爲若干類
詞典詞:教師(詞典處理)
仿詞:2000年(規則處理)
新詞:劉德華(基於類的新詞識別)
形態詞:高高興興(規則處理)
不同類型的詞用不同處理方法,最後利用Ngram框架尋找全局最優切分結果
給定字符串S=s1s2…sn , 找最優的類序列C=c1c2…cm 使得P(C|S) 最大
下載中文分詞一席談.ppt看完整的數學推導
在訓練語料規模足夠大和覆蓋領域足夠多的情況下,可以獲得較高的切分正確率(>=95%)
不足
需要很大的訓練語料
新詞識別能力弱
解碼速度相對較慢
原理
在有限樣本條件下建立對於預測結果的判別函數,直接對預測結果進行判別,建模無需任何假設。
由字構詞的分詞理念,將分詞問題轉化爲判別式分類問題
Maxent SVM CRF Perceptron
能充分利用各種來源的知識
需要較少的訓練語料
解碼速度更快
新詞識別性能好
詞首B(日本 佔領 了 東三省)
詞中M(游泳 比賽 菲爾普斯 獨佔鰲頭)
詞尾E(中國隊 搶佔 了 風頭)
特徵選擇
設H是預定義條件的集合,T是一組可選標註集,條件隨機場的特徵函數定義爲f(h,t)=1(在h和t滿足觀察條前提下)
字的上下文知識
形態詞知識:處理重疊詞、離合詞、前後綴
仿詞知識:2000年
成語/慣用語知識
普通詞詞典知識
歧義知識
新詞知識/用戶詞典
新詞的全局化知識
理論基礎紮實
解碼速度快
分詞精度高
新詞識別能力強
所需學習素材少
訓練速度慢
需要高配置的機器訓練
具體方法的描述可以搜索:中文分詞一席談.ppt來了解詳情。
本文出自 “專注自然語言技術” 博客,請務必保留此出處http://langiner.blog.51cto.com/1989264/380563