接觸命名實體識別這個領域有不少時間了,中文命名實體識別的主要任務是識別出文本中的人名,地名,組織機構名等專有名稱和有意義的時間,日期等數量短語並加以歸類。命名實體識別技術是信息抽取,信息檢索,機器翻譯,問答系統等多種自然語言處理技術必不可少的組成部分。對於這個技術,自己也看了不少相關的論文,但是,具體的細節總是不能甚爲的深入,今天決定,從最基礎的開始。因爲命名實體識別,一般是在詞性標註,即分詞之後進行,所以對於深入命名實體識別技術必須先把詞性標註搞的很明白。下面介紹一下,詞類標記集:
詞類標記集
本規範的詞類標記集採用《信息處理用現代漢語詞類標記規範》的大類,只增加了部分細類。
本規範的詞類標記集規定,每個分詞單位的標記由英文字母串構成。標記的第一位代碼,表示信息處理用現代漢語詞類的基本詞類,共20類,標記的第二、三位代碼,表示信息處理用現代漢語基本詞類下的細類。
詞類分別爲:
(1) 名詞n:
普通名詞(n)
時間名詞(nt)
方位名詞(nd)
處所名詞(nl)
人名(nh)
漢族或類漢族人名(人名 nhh:姓nhf, 名nhg)
音譯名或類音譯名(nhy)
日本人名(nhr)
其他(nhw):如綽號,筆名,尊稱等 。
地名(ns)
族名(nn)
團體機構名(ni)
其他專有名詞(nz)
(2) 動詞v:
普通動詞(v)
能願動詞(vu)
趨向動詞(vd)
系動詞(vl)
(3) 形容詞:
性質形容詞(aq)
狀態形容詞(as)
(4)區別詞f
(5)數詞m
(6)量詞q
(7)副詞d
(8)代詞r
(9)介詞p
(10)連詞c
(11)助詞u
(12)嘆詞e
(13)擬聲詞o
(14)習用語i
名詞性習用語(in)
動詞性習用語(iv)
形容詞性習用語 (ia)
連詞性習用語(ic)
(15)簡稱和略語j
名詞性簡稱和略語 jn
動詞性簡稱和略語 jv
形容詞性簡稱和略語 ja
(16)前接成分h
(17)後接成分k
(18)語素字g
(19)非語素字x
(20)其它w:
標點符號 (wp)
非漢字字符串(ws)
其他未知的符號(wu)
這些詞類集合,我覺得應該時刻記在心裏。
參考文獻:973當代漢語文本語料庫分詞、詞性標註加工規範。山西大學