中文命名實體識別之學習筆記一(詞性標註)

   接觸命名實體識別這個領域有不少時間了,中文命名實體識別的主要任務是識別出文本中的人名,地名,組織機構名等專有名稱和有意義的時間,日期等數量短語並加以歸類。命名實體識別技術是信息抽取,信息檢索,機器翻譯,問答系統等多種自然語言處理技術必不可少的組成部分。對於這個技術,自己也看了不少相關的論文,但是,具體的細節總是不能甚爲的深入,今天決定,從最基礎的開始。因爲命名實體識別,一般是在詞性標註,即分詞之後進行,所以對於深入命名實體識別技術必須先把詞性標註搞的很明白。下面介紹一下,詞類標記集:

 詞類標記集

  本規範的詞類標記集採用《信息處理用現代漢語詞類標記規範》的大類,只增加了部分細類。

本規範的詞類標記集規定,每個分詞單位的標記由英文字母串構成。標記的第一位代碼,表示信息處理用現代漢語詞類的基本詞類,共20類,標記的第二、三位代碼,表示信息處理用現代漢語基本詞類下的細類。

詞類分別爲:

(1)  名詞n

普通名詞(n)   

時間名詞(nt)

方位名詞(nd)

處所名詞(nl)          

人名(nh) 

漢族或類漢族人名(人名 nhh:姓nhf, nhg

   音譯名或類音譯名(nhy)

日本人名(nhr

其他(nhw:如綽號,筆名,尊稱等 。

地名(ns) 

族名(nn) 

團體機構名(ni) 

其他專有名詞(nz)

(2)  動詞v

普通動詞(v)  

能願動詞(vu)  

趨向動詞(vd)

系動詞(vl)

(3) 形容詞:

性質形容詞(aq)

狀態形容詞(as)

4)區別詞f 

5)數詞m 

6)量詞q 

7)副詞d  

8)代詞r

9)介詞p

10)連詞c

11)助詞u

12)嘆詞e

13)擬聲詞o

14)習用語i

名詞性習用語(in) 

動詞性習用語(iv)  

形容詞性習用語 (ia)

連詞性習用語(ic)

15)簡稱和略語j

名詞性簡稱和略語 jn  

動詞性簡稱和略語 jv 

形容詞性簡稱和略語 ja  

16)前接成分h         

17)後接成分k

18)語素字g  

19)非語素字x  

20)其它w

標點符號 (wp)  

非漢字字符串(ws)  

其他未知的符號(wu)

這些詞類集合,我覺得應該時刻記在心裏。

 參考文獻:973當代漢語文本語料庫分詞、詞性標註加工規範。山西大學

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章