中文自動分詞歧義類型

      漢語自動分詞是中文信息處理領域的一項基礎性課題,也是智能化中文信息處理的關鍵所在,因爲在中文信息處理中,凡是涉及句法、語義等的研究(如機器翻譯、自然語言處理等)都要以詞爲單位。漢語不同於西文,在一個漢語句子中,詞與詞之間沒有明顯的分隔符(如空格)。漢語的詞法約束很不規範,而且千變萬化,就給漢語分詞帶來了很大的麻煩。正是由於漢語分詞的困難及其中文信息處理中的重要地位,自20世紀70年代末以來,許多人投入到了漢語自動分詞的研究工作中來,也出現了好多具有應用前景的分詞方法。

     漢語分詞是漢語分析以及計算機處理漢語的一大難點,導致漢語分詞精度不高的原因一般有:詞語(抑或說漢語分析基本單元)的界定、詞典範圍、分詞中因爲算法問題產生的歧義。

     分詞過程中歧義產生的根源可歸納爲以下三類:

     · 由自然語言的二義性所引起的歧義,稱爲第一類歧義。如:“兵乓球拍賣完了”可切分爲“乒乓球/拍賣/完了”又可以切分爲“乒乓球拍/賣/完了”。這兩種切分形式無論在語法上還是與以上都是正確的,就是人工分詞也會產生歧義,只有結合上下文才能給出正確的切分。

     · 由機器自動分詞產生的特有歧義,稱爲第二類歧義。如:“在這種環境下工作是太可怕了”用機器切分,可以切分爲“在/這種/環境/下工/是/太/可怕/了”,也可以切分爲“在/這種/環境/下/工作/是/太/可怕/了”。對本句來說,只有第二種切分是正確的。用人工分詞是不可能產生歧義的,歧義是由於機器機械切分產生的。

      · 由於分詞詞典的大小引起的歧義,稱爲第三類歧義。如:“王小二是一個農民”用機器切分被分爲“王/小/二/是/一個/農民”,這裏“王小二”是一個人名,在漢語中應是一個詞,所以這個切分是錯誤的。由於機器自動分詞是根據分詞詞典進行的。故詞典中沒有的詞,就不可能被正確切分,分詞詞典不可能也沒有必要包括所有的詞(如人名、地名),同時,詞典中所包括的詞越多,就會產生新的歧義。例如:“發展社會主義的新鄉村”新鄉是一個地名,若詞典中有該詞,則“新鄉村”是一個歧義字段。因此,不論詞典的大與小都可能產生歧義。

       統計表明第一類歧義字段只佔歧義字段總數的5%左右,剩下來的就都是第二類歧義字段和第三類歧義字段。故自動分詞階段對歧義的研究主要集中在對第二類、第三類歧義字段的研究。而對於第二類歧義,又主要有兩種:組合型歧義與交集型歧義。組合型歧義就是對於字串AB,可以切分爲AB,又可以切分爲A/B;交集型歧義就是ABC,可以切分爲AB/C,又可以切分爲A/BC。這其中交集型歧義有佔了絕大多數,據統計達94%,因此處理好交集型歧義在漢語分詞中有着非常重要的地位。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章