筆記-1999-消解中文三字長交集型分詞歧義的算法

消解中文三字長交集型分詞歧義的算法
出處:清華大學學報(自然科學版)1999年第5期
單位:清華大學
作者:孫茂松
三字,交搭歧義,詞性,詞概率,組合概率,分類詞表概率主要內容:

根據對一個1億字漢語語料庫的觀察, 三字長交集型分詞歧義就靜態個數而言佔全部交集型分詞歧義的33.29%, 動態覆蓋率更佔全部交集型分詞歧義的49.76%。
1 詞概率+ 詞性Bigram法,
 對S3z=ABC, 其切分取作
AB/ C, 如果f ( AB, C) - f ( A, BC) > t0;
A/ BC, 如果f ( AB, C) - f ( A, BC) < - t0;
未定, 如果ûf ( AB, C) - f ( A, BC) û≤t0.
2設定六個字表
對S3z= ABC, 根據分詞語料庫對{S03z}的人工切分結果, 可蒐集到6個關於首字A、中字B、尾字C的字表: 
字表L1 爲切分爲單字詞頻率很高的首字A 的集合, 
字表L2 爲切分爲單字詞頻率很低的首字A 的集合, 
字表L3 爲與首字A 結合成詞頻率很高的中字B的集合, 
字表L4 爲與尾字C結合成詞頻率很高的中字B的集合, 
字表L5 爲切分爲單字詞頻率很高的尾字C的集合, 
字表L6 爲切分爲單字詞頻率很低的尾字C的集合
設L是上述任一漢字表, Z是任意漢字, 令
RL ( Z) = 0,  Z∈/ L;或 1,  Z∈L.
k1 = RL1( A) + RL4( B) + RL6( C) ,
k2 = RL2( A) + RL3( B) + RL5( C) .
則常用字分合法可描述爲對S3z= ABC, 其切分取作
A/ BC, 如果k1 > k2;
AB/ C, 如果k1 < k2;
未定, 其它


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章