出處:清華大學學報(自然科學版)1999年第5期
作者:孫茂松
1 詞概率+ 詞性Bigram法,
對S3z=ABC, 其切分取作
AB/ C, 如果f ( AB, C) - f ( A, BC) > t0;
A/ BC, 如果f ( AB, C) - f ( A, BC) < - t0;
未定, 如果ûf ( AB, C) - f ( A, BC) û≤t0.
2設定六個字表
對S3z= ABC, 根據分詞語料庫對{S03z}的人工切分結果, 可蒐集到6個關於首字A、中字B、尾字C的字表:
字表L1 爲切分爲單字詞頻率很高的首字A 的集合,
字表L2 爲切分爲單字詞頻率很低的首字A 的集合,
字表L3 爲與首字A 結合成詞頻率很高的中字B的集合,
字表L4 爲與尾字C結合成詞頻率很高的中字B的集合,
字表L5 爲切分爲單字詞頻率很高的尾字C的集合,
字表L6 爲切分爲單字詞頻率很低的尾字C的集合
設L是上述任一漢字表, Z是任意漢字, 令
RL ( Z) = 0, Z∈/ L;或 1, Z∈L.
k1 = RL1( A) + RL4( B) + RL6( C) ,
k2 = RL2( A) + RL3( B) + RL5( C) .
則常用字分合法可描述爲對S3z= ABC, 其切分取作
A/ BC, 如果k1 > k2;
AB/ C, 如果k1 < k2;
未定, 其它