中文詞性標註《Chinese part-of-speech tagging One-at-a-time or all-at-once word-based or Character-Based?》

原創

2020-06-16 08:35

Motivation：

大多數基於語料的語言處理都集中於英文這種語言，很少有針對中文提出的詞性標註系統，本文想把對英文處理方面的技術應用到中文上來，實現對中文的詞性標註。由於中文句子之間沒有空格，因此在進行詞性標註之前必須對中文進行分詞，而分詞的質量又直接影響到詞性標註的結果。因此本文搭建一個和分詞結合的中文詞性標註系統。

核心思想：

本文用最大熵算法https://blog.csdn.net/ccblogger/article/details/81843304從中文分詞的處理結構和特徵表示方面尋找一個最優的分詞方法。

處理結構：在進行詞性標註任務時，①分詞之後再詞性標註；②分詞和詞性標註同時進行。
特徵表示：在詞性標註時，是以單詞爲單位進行標註還是以字符爲單位進行標註。在以字符爲單位時，一個單詞中的字符具有相同詞性。

實驗結果：

在分詞完成之後，用Beam search選擇每個單詞或字符可能的詞性，這裏N=3，即對於每個單詞選擇三個最有可能的標註，然後用最大熵算法計算最有可能的一組詞性。

從上面的表中可以看出，One-at-a-Time Word-Based模型在詞性標註問題上效果最差。All-At-Once Char-Based模型能夠取得最好的效果，但是會花費較大的開銷。而Once-at-a-Time Char-Based模型的效果接近All-At-Once Char-Based，但是開銷較少。因此All-At-Once Char-Based算法也是折中的選擇。

啓發：

和英文標註不同，中文詞性標註以字符爲單位的效果更好；
分詞和標註同時進行的效果比分開進行標註效果好，但會增加開銷；
添加更多的匹配特徵和後處理可以提高模型的準確率，但是匹配特徵的增加可能會帶來過擬合問題。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

中文詞性標註《Chinese part-of-speech tagging One-at-a-time or all-at-once word-based or Character-Based?》

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

舉例理解viterbi算法

Linux 查看文件內容命令（cat、more、grep）

中文分詞《Long Short-Term Memory Neural Networks for Chinese Word Segmentation》

python比較任意多個數組的對應參數是否相等

情感分類《Thumbs up？Sentiment Classification using Machine Learning Techniques》

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結