自然語言處理中的中文詞性、標記規範及其應用

分詞和詞性標註是自然語言處理領域的重要組成部分,尤其對於中文而言,作爲整條自然語言處理pipeline的源頭,分詞和詞性標註更是起到了關鍵的作用。我整理這篇文章,主要來源於這幾個問題:
一、理解中文詞性是否有意義?
問題:前幾天跟幾個剛認識的朋友談自然語言處理的相關問題時,遇到一問題讓我覺得很有意思,這位朋友說,中文沒有詞性可言,因爲中文的詞性兼類太過於嚴重,動副兼類,名動兼類等等,理解中文詞性沒有任何意義。當然,這位朋友知識從一個漢語本身的特點來說出的這個結論,但說理解中文詞性沒有任何意義,這個不太贊同。中文的詞性與中文的語言構成和語言使用具有嚴格上的對應關係,而且詞性作爲概念的抽象,對於語言的泛化具有重要意義。

二、搞自然語言處理的是否要懂詞性標記體系?
作爲課題組的自然語言處理面試官,我出了一道開放性的問題,很簡單,面試題爲:介紹一下開源中文自然語言處理工具包的常見詞性、依存關係標記及其對應的含義。但至今爲止,沒有人答上來過,這讓我感到有點失望。做自然語言處理,在深度學習大行其道之時,都不注意語言本身的基礎知識,這很有可能會導致“不懂你研究的對象還偏要去研究它”的悖論。理解中文的詞性和語義依存關係是自然語言處理的一項基本功,大家一定要引起注意。

因此,本文將總結中文詞性和依存關係,結合其具體含義以及相關的開源標記展開論述。

一、中文的詞性
詞是語義完整的最小語言單位,中文的詞語包括有實詞和虛詞兩個大類,實詞指能夠獨立充當語法成分並且有實際意義的詞,包括名詞、動詞、形容詞、數詞、量詞、代詞共6個小類。虛詞指的是不能獨立充當語法成分的詞,主要有副詞、介詞、連詞、助詞、語氣詞、擬聲詞、感嘆詞6類,兩者相加,一共組成12類詞性。下圖主要列舉了中文實詞和虛詞的分類、意義、對應的NLP任務以及完成的任務幾個信息。

圖1-實詞分類及信息
在這裏插入圖片描述

圖2-虛詞分類及信息
在這裏插入圖片描述
二、開源工具中的詞性標註體系
不同的開源工具會採用不同的詞性標註體系,但就詞性標註的類比而言,差異不大。Jieba分詞是目前自然語言處理詞性標註的主流詞性標註工具,下面主要列舉了該工具的詞性標註規範。
在這裏插入圖片描述
三、詞性標記在自然語言處理中的應用
標記最大的好處在於對詞語成分進行了標記,這種標記信息起到了一個分類和指引的作用,由於我們整個人類社會都是基於標籤體系在運作的,所以基於詞性標籤進行信息的篩選和過濾往往能夠帶來不錯的效果。筆者在實際的工作和學習過程中總結到了詞性標註主要有以下幾種應用。
1、停用詞的選擇
去除停用詞是目前自然語言處理中的常用手段,在進行特徵提取、無關信息過濾上,去除無用詞扮演着重要作用。從方法上來說,去除停用詞包括基於詞表的停用詞去除和基於詞性的停用詞去除兩種方法,其中基於詞表的停用詞去除往往需要人工定義出大量的停用詞,如“是”、“這”之類的詞語。後者則可以根據詞性本身的特性進行去除,例如連詞、助詞、介詞等詞性,也可以將無用詞進行移除。當然,兩種方法都各有利弊,前者往往需要人工去構造停用詞表,而且不同領域的文本其實用到的停用詞是不同的,這在進行跨領域文本處理的時候,往往需要花費大量人力,但這種人力是值得的,可以做到不同領域文本的適配。後者的優勢在於簡單和快速,無需窮舉,缺點就是無法做大領域自適應。因此,爲了互補,往往會選擇兩種方式結合的去停用詞方式,即停用詞表與停用詞性的停用詞去除方法。
2、關鍵信息提取過濾
通常關鍵詞或高頻詞提取是我們在進行文本信息提取是的常用方法,這種方法本質上是從詞的角度對文本中的代表性信息進行形式化。從技術角度上來說,可以基於統計概率的方法極性提取,如常用TF求高頻詞,常用的TFID方法獲取關鍵詞,常用的LDA方法獲取主題詞等。但這種基於概率的方法對於詞性本身而言是不敏感的,爲了使得結果漂亮一些,往往需要再加上一層詞性過濾,如通常提取名詞性成分和動詞性成分,如名詞性成分中的人名、地名、機構名等,動詞性成分中的動詞、習語等。

四、總結
詞性標註是自然語言處理中的重要內容,本質上分成詞性和標註兩個部分,詞性部分是對中文語言的抽象分類,標註完成的是人對詞語的認知過程。作爲自然語言處理的研究或開發人員,應該對自己所處理的對象有個認識,知彼知己,才能百戰百勝,一味地投入深度學習網絡參數模型之中,有種捨本逐末的感覺。中文的詞性標註足夠有趣,足夠有用,且足夠具有挑戰性。本文提出了目前大家對中文詞性的忽視和誤解,從實詞和虛詞兩個角度出發,分析了中文詞性體系,詞性的對應任務和意義,並在最後就詞性在中文自然語言處理中的應用進行了簡單的介紹。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章