【中文分詞系列】 5. 基於語言模型的無監督分詞

轉載：https://spaces.ac.cn/archives/3956/

迄今爲止，前四篇文章已經介紹了分詞的若干思路，其中有基於最大概率的查詞典方法、基於HMM或LSTM的字標註方法等。這些都是已有的研究方法了，筆者所做的就只是總結工作而已。查詞典方法和字標註各有各的好處，我一直在想，能不能給出一種只需要大規模語料來訓練的無監督分詞模型呢？也就是說，怎麼切分，應該是由語料來決定的，跟語言本身沒關係。說白了，只要足夠多語料，就可以告訴我們怎麼分詞。

看上去很完美，可是怎麼做到呢？《2.基於切分的新詞發現》中提供了一種思路，但是不夠徹底。那裏居於切分的新詞發現方法確實可以看成一種無監督分詞思路，它就是用一個簡單的凝固度來判斷某處該不該切分。但從分詞的角度來看，這樣的分詞系統未免太過粗糙了。因此，我一直想着怎麼提高這個精度，前期得到了一些有意義的結果，但都沒有得到一個完整的理論。而最近正好把這個思路補全了。因爲沒有查找到類似的工作，所以這算是筆者在分詞方面的一點原創工作了。

語言模型

首先簡單談一下語言模型。

很多數據挖掘的讀者都已經聽說過Word2Vec，知道它是一個能夠生成詞向量的工具，很多人也知道將詞向量作爲模型的特徵來進行輸入。但相信不少讀者不知道爲什麼會有詞向量，爲什麼Word2Vec能生成詞向量。Word2Vec本身的光芒（Google出品、速度快、效果也不錯、在Python中有很好實現等）已經把同類產品以及背後的原理都給掩蓋下去了。事實上，詞向量的初衷，是爲了更好地生成語言模型，最經典的文章應該是深度學習的鼻祖之一——Bengio——的《A Neural Probabilistic Language Model》。這一段的重點是談語言模型，不是詞向量。關於詞向量，有興趣的讀者可以參考下面的文章：

Deep Learning in NLP （一）詞向量和語言模型：
http://licstar.net/archives/328

火光搖曳的《我們是這樣理解語言的》系列：
http://www.flickering.cn/?s=我們是這樣理解語言的

語言模型是計算條件概率

的模型，其中

w1,w2,…,wn−1是句子中的前

n−1個詞（或字），

wn是第

n個詞（或字）。語言模型在很多方面都有應用，比如說分詞、語音識別、機器翻譯等。爲了得到語言模型，有很多方法，比如說最簡單的是“統計+平滑”的方法，還有最大熵語言模型、CRF語言模型等，而當前深度學習框架下研究得很多的是“神經網絡語言模型”，它的大概思路是：

p(wn|w1,w2,…,wn−1)是關於

w1,w2,…,wn的一個函數，這個函數的具體形式我不知道，所以利用神經網絡去擬合它，爲了更好地擬合，並且減少模型參數，還把詞語“嵌入”到實數空間中，用短向量來表示詞語，跟語言模型一起訓練。從這個角度看，詞向量只是語言模型的副產品。

語言模型生成的詞向量能夠較好地表示語義，這是很有趣的，卻也是在情理之中。什麼是語義？對人類來說，語義是一種推理和理解的過程，而我們的語言模型，就是從前個字推測下一個字，這也是一個推理的過程。既然包含了推理成分在裏邊，就有可能捕捉到語義了。

無監督分詞

說語言模型似乎說得有點多了，不過，本文要介紹的分詞方法，就是以“基於字的語言模型”爲基礎的。

我們從最大概率法出發，如果一個長度爲的字符串，最優分詞結果爲，那麼它應該是所有切分中，概率乘積

最大的一個。

假如沒有詞表，自然也就不存在這些詞了。但是，我們可以用貝葉斯公式，將詞的概率轉化爲字的組合概率：

其中

w是一個

k字詞，

c1,c2,…,ck分別是

w的第

1,2,…,k個字。可以發現，

p(ck|c1c2…ck−1)就是我們前面提到過的字的語言模型。

當然，對於很大的，還是不容易估算的，不過幸好按照我們的經驗，詞的平均長度不會很大，因此，我們只需要用n-gram語言模型就夠了，其中爲4時效果就挺不錯了。

那分詞具體又是怎麼操作呢？假如字符串，如果不進行切分，那麼它的路徑概率應該是

如果

s1,s2應該合併爲一個詞，那麼它的路徑概率是

如果

s2,s3應該合併爲一個詞，那麼它的路徑概率是

如果

s1,s2,s3應該合併爲一個詞，那麼它的路徑概率是

看到特點了嗎？每一種切分方式，事實上都對應着

l個條件概率的相乘，我們就是從這些條件概率的相乘模式中，找出結果最大的那個。而同樣的，如果我們知道了最優的相乘模式，就可以對應地寫出分詞結果來。

更系統地看，其實就是將分詞轉化爲了標註問題，如果字語言模型取到4-gram，那麼它相當於做了如下的字標註：

b：單字詞或者多字詞的首字
c：多字詞的第二字
d：多字詞的第三字
e：多字詞的其餘部分

對於句子中的一個字來說，就有

這就是將分詞問題變成了一種字標註問題，而每個標籤的概率由語言模型給出。而且，顯然b後面只能接b或者c，類似地，就得到非零的轉移概率只有：

這些轉移概率的值，決定了劃分出來的是長詞還是短詞。最後找最優路徑，依舊由viterbi算法完成。

到這裏，問題就變成了語言模型的訓練了，這是無監督的。我們只需要花心思優化語言模型，而這方面不論是理論還是實戰都已經很成熟了，有不少現成的工具可以用。簡單地可以只用傳統的“統計+平滑”模型，如果要從語義來做，那麼就可以用最新的神經語言模型。總而言之，分詞的效果，取決於語言模型的質量。

實踐：訓練

首先來訓練語言模型。這裏文本數據是50萬微信公衆號的文章，約2GB大小，訓練語言模型用的是傳統的“統計+平滑”的方法，使用kenlm這個工具來訓練。

kenlm是一個C++編寫的語言模型工具，具有速度快、佔用內存小的特點，也提供了Python接口。首先下載編譯它：

wget -O - http://kheafield.com/code/kenlm.tar.gz |tar xz 
cd kenlm
./bjam -j4
python setup.py install

接着訓練語言模型。kenlm的輸入很靈活，不用預先生成語料文本，而可以通過管道的方式傳遞。比如先編寫一個p.py

import pymongo
db = pymongo.MongoClient().weixin.text_articles
 
for text in db.find(no_cursor_timeout=True).limit(500000):
    print ' '.join(text['text']).encode('utf-8')

我的文章放在MongoDB中，所以是上面的格式，如果你的數據放在其他地方，請做相應修改，其實很簡單，就是把你要訓練的文本分好詞（用空格隔開），然後逐一print出來。

然後就可以訓練語言模型了，這裏訓練一個4-gram的語言模型：

1 2	python p.py\|./kenlm/bin/lmplz -o 4 > weixin.arpa ./kenlm/bin/build_binary weixin.arpa weixin.klm

arpa是通用的語言模型格式，klm是kenlm定義的二進制格式，klm格式佔用空間更少。最後我們就可以在Python中載入了

import kenlm
model = kenlm.Model('weixin.klm')
model.score('微 信', bos=False, eos=False)
'''
score函數輸出的是對數概率，即log10(p('微 信'))，其中字符串可以是gbk，也可以是utf-8
bos=False, eos=False意思是不自動添加句首和句末標記符
'''

實踐：分詞

有了上述基礎，就可以來做一個分詞系統了。

import kenlm
model = kenlm.Model('weixin.klm')
 
from math import log10
 
#這裏的轉移概率是人工總結的，總的來說，就是要降低長詞的可能性。
trans = {'bb':1, 'bc':0.15, 'cb':1, 'cd':0.01, 'db':1, 'de':0.01, 'eb':1, 'ee':0.001}
trans = {i:log10(j) for i,j in trans.iteritems()}
 
def viterbi(nodes):
    paths = nodes[0]
    for l in range(1, len(nodes)):
        paths_ = paths
        paths = {}
        for i in nodes[l]:
            nows = {}
            for j in paths_:
                if j[-1]+i in trans:
                    nows[j+i]= paths_[j]+nodes[l][i]+trans[j[-1]+i]
            k = nows.values().index(max(nows.values()))
            paths[nows.keys()[k]] = nows.values()[k]
    return paths.keys()[paths.values().index(max(paths.values()))]
 
def cp(s):
    return (model.score(' '.join(s), bos=False, eos=False) - model.score(' '.join(s[:-1]), bos=False, eos=False)) or -100.0
 
def mycut(s):
    nodes = [{'b':cp(s[i]), 'c':cp(s[i-1:i+1]), 'd':cp(s[i-2:i+1]), 'e':cp(s[i-3:i+1])} for i in range(len(s))]
    tags = viterbi(nodes)
    words = [s[0]]
    for i in range(1, len(s)):
        if tags[i] == 'b':
            words.append(s[i])
        else:
            words[-1] += s[i]
    return words

實踐：效果

語言模型的大小有近3G，因此就不放出來了，有需要的讀者可以聯繫我。下面看一下一些例子。

水是生命的源泉，是人類賴以生存且無可替代的營養物質。爲使隊員們更加瞭解水對生命的至關重要性，提高隊員們對水更科學的認識與理解，倡導節水愛水的環保意識，青少年環境知識科普課堂走進大金小學，爲五、六年級近 300 餘名隊員開展了一場《水與生命》爲主題的科普知識講座。此次活動共分爲三場進行，宣講人祝老師結合 PPT ，圖文並茂、生動地從水的特性、水與生命、水與生活以及節水技巧四個方面與隊員們進行了交流。祝老師告訴隊員們水對人體的重要性，詳細說明了水的營養組成，同時提醒隊員們要學會健康科學的飲水方法，並分享了節水小竅門，希望隊員們都能以自己爲榜樣，努力承擔 “ 小小節水宣傳員 ”的職責，積極帶動身邊的人一起參與節約用水。 PH 試紙檢測水的酸鹼度，隊員們都表現了濃厚的興趣，紛紛取了試紙回家測試水質。講座結束後，隊員們都領到了 “ 小小節水宣傳員 ” 培訓課程的結業證書。從隊員們興奮的表情中能夠感受到隊員們節水愛水的決心。保護水環境，珍惜水資源，從點滴做起，從自己做起，只要每個人都做到了保護生態、愛護環境，那麼碧水藍天就會離我們越來越近！打賞小編的最好方式就是 —— 點贊 ↓↓ 長按二維碼，關注我們吧！ ↓↓

可以看到，效果還是不錯的，對長詞的識別效果都挺好。但是，有些情況可能不符合我們的習慣認識，比如“隊員們”作爲一個詞了，還有“且無可替代”錯誤地分爲了“且無可替代”，因爲“且無”太頻繁了。

區志願者協會在前幾日得知蘆林街道三官殿居有一居民家庭特別困難的情況， 12月 12 日下午，招募了 7 名志願者來到蘆林三官殿周全祿老人家，送去了一袋大米和一牀棉被。此次助養慰問品是由廣豐區志願者協會公益基金提供， “ 暖冬行動 ” 作爲志願者協會幫困項目的其中重要一項，由參與暖冬行動的志願者們負責執行發放到走訪覈實的困境家庭手中。志願者現場和周全祿老人交談，從他本人和周邊羣衆瞭解到他的基本家庭狀況，他本人今年 62 歲，娶了一個患有精神疾病的妻子，生了 2個兒子，小孩大的 14 歲，小的 12 歲，妻子在十年前也離家出走，至今未回，留下他和 2個兒子共同生活，由於兒子遺傳了母親的精神疾病，大兒子的種種不正常表現，不能在學校正常上學，只能整天跟着小兒子兩個人無所事事，遊手好閒，什麼事也做不了。周老本身就是一個老實巴交的農民，今年不慎幹農活時摔了一跤，醫藥費 2萬多元，都是村裏和親戚鄰居幫忙籌集的。他住的房子也是親戚籌集蓋的一層瓦房。凌亂的客廳，衣服基本上就是沒有什麼換洗，溼了就隨意搭着晾乾，然後接着穿我們在他家看到做的飯菜，這就是一家人賴以生存的廚房。這就是臥室，牀鋪被褥都是破舊不堪，我們帶去的一牀新棉被他的外甥女偶爾幫他整理下衛生，做些家務贈人玫瑰，手有餘香；扶困助弱，千古美德；能力不分大小，善舉不分先後，真情重在付出。衆人拾柴火焰高，我們將把所有愛心力量彙集在一起，傳遞社會大家庭的溫暖，傳遞社會正能量，放飛困境兒童的未來夢想！伸出您的雙手，奉獻您的愛心，讓我們行動起來，共同關愛困境家庭，讓所他們同在藍天下健康快樂成長！如果您或您身邊的人有 12 - 15 歲男孩子的衣物，棉被等暖冬物質可以捐贈，請伸出您充滿愛心的雙手，給這個特殊家庭一個暖暖的冬日！！！暖冬物質接收地址：廣豐區志願者協會暖冬物質接收聯繫人： 18 6 07 03 48 18 （段先生） 13 8 70 32 70 03 （陳女士）供稿：段建波圖片：段建波編輯：周小飛

可以看到，即使對“拾柴火焰高”這樣的長詞也有不錯的識別效果。當然，錯誤的例子也不少，比如“把所有”、“讓我們”、“請伸出您”成爲了一個詞。

根據業務發展需要，現將我公司 20 16 年招聘應屆高校畢業生公告如下 : 一、招聘崗位 20 16 年我公司擬招聘應屆高校畢業生 20 名。招聘崗位和學歷、專業要求見下表。二、報名條件 1. 列入國家招生計劃、具備派遣資格、處於畢業學年的全日制普通高等院校在校生，以及經教育部留學服務中心認證並具備派遣資格的歸國留學生 ; 2. 遵守國家法律法規和學校規章制度，具有良好的思想品質和道德素質，無刑事犯罪和嚴重違反校紀校規記錄 ; 3. 專業對口，符合工作崗位要求，熱愛鐵路集裝箱事業 ; 4. 學習成績優良，取得相應的大學本科及以上學歷和學位證書 ; 應聘在京單位崗位畢業生需取得國家大學外語四級考試合格證書 ( 主修其他語種除外 ); 5. 身心健康，近期醫院健康體檢合格，能夠適應應聘崗位工作要求。三、報名方法應聘者需登錄 " 中國鐵路人才招聘網 — 個人中心 " 欄目按照流程進行報名應聘 ( 首次登錄須進行網上註冊 )。報名截止日期爲 20 16 年 1月 10 日。每人限報一個崗位。四、招聘流程 1. 資格確認。根據資格審查和初步篩選情況，於201 6年 2月 28 日前，擇優以郵件、短信或電話方式通知畢業生參加招聘考試。 2. 招聘考試。參加招聘考試的畢業生應攜帶在中國鐵路人才招聘網打印的畢業生應聘登記表，本人身份證、學生證、所在學校蓋章的就業推薦表、成績單、外語證書等材料的原件及複印件。招聘考試在 20 16 年 4月 15 日前完成，具體時間、地點另行通知。 3. 人員公示。擬錄用人選將統一在中國鐵路人才招聘網和公司官網進行公示。招聘過程中，對未進入下一環節的畢業生不再另行通知。五、其他事項 1. 公司不委託第三方招聘，也不在招聘過程中向應聘者收任何費用。 2. 應聘者的報名材料概不退回，在招聘過程中公司對應聘者的相關信息予以保密。畢業生應對招聘各環節所提供的材料的真實性負責，凡弄虛作假的，一經發現，取消聘用資格。 3. 單位地址：北京市西城區鴨子橋路 24 號中鐵商務大廈郵政編碼： 10 00 55 聯繫電話：0 10 - 51 89 27 23

總的來說

總的來說，這種無監督的分詞方式，事實上是對我們的用字習慣做了總結，把我們常見的用字模式提取了出來。因此，它對於不少長詞，尤其是固定搭配的成語，有着很好的識別效果。同時，我們也有一些頻繁的用字組合，比如前面說的“讓我們”之類的，也被視爲單個詞語了。可能我們會覺得這是一個不合理的情況，但反過來想想，既然我們經常說“讓我們”，那麼爲什麼不把“讓我們”就作爲一個“詞”呢？

換句話說，我們做分詞，事實上就是事先提取出固定的用語模式罷了，這個固定的用語模式，不一定是我們認識中的“詞”，也有可能是習慣用語等。當然，這裏邊有個相互矛盾的地方，就是分詞的粒度太細，則詞表的詞數不會過多，但單個句子的長度則會變長；分詞的粒度太粗，則詞表的詞數可能暴增，但好處是單個句子的長度會減少。而本文所提供的分詞方式，可以通過轉移概率的調整，來實現對分詞粒度的調整，以適應不同的任務。

同時，前面已經說了，分詞的效果取決於語言模型的質量，這使得我們只需要優化語言模型，而且語言模型可以無監督地訓練，這是一個明顯的好處。比如，如果我們希望能夠實現具有語義理解能力的分詞模型，那麼用神經網絡之類的方法訓練語言模型即可，如果我們考慮速度，那麼傳統的統計方法就不錯了（用kenlm從50萬文本中得到語言模型，只用了10分鐘不到）。總而言之，提供了最大的自由度。

【中文分詞系列】 5. 基於語言模型的無監督分詞

語言模型

無監督分詞

實踐：訓練

實踐：分詞

實踐：效果

總的來說

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

利用hadoop streaming對tensorflow模型進行分佈式預測

如何查看TFRecod數據詳情

利用小trick加速tensorflow的訓練

利用tensorflow estimator API實現雙塔推薦算法

機器學習（六）：疊加樹模型

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結