基於Python的Stanford CoreNLP自然語言分析快速入門教程

最近小組彙報正好用到了corenlp,所以想把相關內容整理成博客(彙報ppt和演示代碼附在最後了,有需要的話可以自取)。主要參考了corenlp官網教程和網上一些別的入門教程,由於代碼比較簡短,所以側重理論描述一點。通過這篇博客 ,你可以:

  1. 對corenlp框架有初步的瞭解
  2. 對corenlp中的詞性標註、命名實體、成分句法、依存句法等概念有初步的瞭解,
  3. 在python中使用corenlp進行簡單的自然語言分析
  4. 大致讀懂相關的輸出結果

一、Stanford CoreNLP簡介

CoreNLP是斯坦福提供的一套自然語言分析工具。它可以給出單詞的基本形式、詞類、是否是公司、人的名字等,規範日期、時間和數字量,根據短語和句法依存關係標記句子結構,指出哪些名詞短語引用相同的實體,表示情感,提取實體引用之間的特定或開放類關係,獲取人們所說的引號等。
它最初是爲英語開發的,但現在也爲(現代標準)阿拉伯語,(大陸)中文,法語,德語和西班牙語提供不同級別的支持。
如果你有這些需要的話,請選擇Stanford CoreNLP:

  • 集成的NLP工具包,具有廣泛的語法分析工具
  • 快速,強大的任意文本註釋器,廣泛用於生產中
  • 定期更新的現代軟件包,具有總體上最高質量的文本分析
  • 支持多種主要(人類)語言
  • 適用於大多數主要現代編程語言的API
  • 能夠作爲簡單的Web服務運行

斯坦福大學CoreNLP的目標是使將多種語言分析工具輕鬆應用於一段文本變得非常容易。只需兩行代碼,就可以在一段純文本上運行工具管道。 CoreNLP的設計具有高度的靈活性和可擴展性。使用一個選項,就可以更改應啓用和禁用的工具。
Stanford CoreNLP集成了Stanford的許多NLP工具,包括詞性(POS)標記器,命名實體識別器(NER),解析器,共指解析系統,情感分析,自舉模式學習和開放信息提取工具等。此外,註釋程序管道可以包括其他自定義或第三方註釋程序。 CoreNLP的分析爲高級和特定領域的文本理解應用程序提供了基礎構建塊。

二、理論基礎

2.1 Part of Speech 詞性標註

詞性標註的主要任務是消除詞性兼類歧義。在任何一種自然語言中,詞性兼類問題都普遍存在,尤其在漢語中常用詞兼類現象更加嚴重,所以需要詞性標註來消除詞性兼類歧義。
coreNLP使用的詞性標註集是UPenn Treebank詞性標註集,一共包含33類詞,如NN 名詞、NR 專業名詞、NT 時間名詞、VA可做謂語的形容詞、VC“是”、VE“有”作爲主要動詞、VV 其他動詞、AD副詞、M量詞等。

POS舉例:
在這裏插入圖片描述

2.1.1 名詞

專有名詞:NR
一個專有名詞可以是一個特定的人名,政治或地理上定義的地方(城市、國家、河流、山脈等),或者是一種組織(企業、政府或其他組織實體)

時間名詞:NT
時間名詞可以是介詞的賓語,譬如在、從、到、等到。它們可以被問及,如“這個時候”,也可以被用以提問“什麼時候”。還可以直接修飾動詞短語或者主語。像其他名詞一樣,時間名詞可以是某些動詞的論元。
例子:一月、漢朝、當今、何時、今後

其他名詞:NN
其他名詞包括所有其他名詞。其他名詞NN,除了地方名詞,一般不能修飾動詞短語

2.1.2 動詞、形容詞

謂詞性形容詞:VA
相當於英語中的形容詞和中文語法中的靜態動詞。包括兩類:
第一類:沒有賓語且能被“很”修飾的謂語。
第二類:源自第一類的、通過重疊(如紅彤彤)或者通過名詞加形容詞模式如“像N一樣A”(如雪白) 的謂語。

系動詞:VC
“是”和“爲”被標記爲VC,如果“非”的意思是“不是”並且句子裏沒有其他動詞時,“非”也被標註爲VC。
“是”有幾種用法:
·連接兩個名詞短語或者主語:他 是/VC 學生。
·在分裂句中:他 是/VC 昨天 來 的/SP。
·爲了強調:他 是/VC 喜歡 看 書。現在,在所有這些情況中,“是”被標註爲VC。

“有”作爲主要動詞:VE
只有當“有,沒{有}”和“無”作爲主要動詞時(包括佔有的“有”和表存在的“有”等等),被標註爲VE。

其他動詞:VV
VV包括其他動詞,諸如情態動詞,提升謂詞(如“可能”),控制動詞(如“要”、“想”),行爲動詞(如“走”),心理動詞(如“喜歡”、“瞭解”、“怨恨”),等等。
形容詞:JJ、JJR、JJS
-JJ形容詞或序數詞
-JJR形容詞比較級
-JJS形容詞最高級

2.1.3 度量詞、副詞、介詞

度量詞:M
度量詞跟在數字後形成Det+M結構修飾名詞或動詞,包括類詞(如“個”),表示一羣的度量詞,如“羣”,以及公里、升等度量詞。

副詞:AD
副詞包括情態副詞、頻率副詞、程度副詞、連接副詞等,大部分副詞的功能是修飾動詞短語或主語。
如:仍然、很、最、大大、又、約

介詞:P
介詞可以把名詞短語或從句作爲論元。
注:把和被不標註爲P
如:從、對

2.1.4 助詞

“的”作爲補語標記/名詞化標記:DEC
如:喫的DEC
模式是:S/VP DEC{NP}

補語短語 得:DER
在V-得-R和V-得結構中,“得”標記爲DER。
注:有些以“得”結尾的搭配不是V-得結構,如記得,獲得是動詞

“的”作爲關聯標記或所有格標記:DEG
模式:NP/PP/JJ/DT DEG{NP}

方式“地”:DEV
當“地”出現在“XP地VP”,XP修飾VP。在一些古典文學中,“的”也用於這種情景,此時“的”也標註爲DEV

動態助詞:AS
動態助詞僅包括“着,了,過,的”

句末助詞:SP
SP經常出現在句末,如:他好吧[SP]?
有時,句末助詞用於錶停頓,如:他吧[SP],人很好。
如:了,呢,吧,啊,呀,嗎

ETC
ETC用於標註等,等等

其他助詞:MSP
“所,以,來,而”,當它們出現在VP前時,標註爲MSP。
所:他所[MSP]需要的/DEC
以或來:用……以/MSP(或來)維持
而:爲……而[MSP]奮鬥

2.1.5 限定詞、數詞

限定詞:DT
限定詞包括指示詞(如這、那、該)和諸如“每、各、前、後”等詞。限定詞不包括基數詞和序列詞。

基數詞:CD
CD包括基數詞並隨意與一些概數詞連用,如“來、多、好幾”和諸如“好些、若干、半、許多、很多(如很多 學生)”等詞。
例子:1245,一百。

序列詞:OD
序列詞被標註爲OD。我們把第+CD看做一個詞,並標註它爲OD。
例子:第一百。

2.1.6 代詞、方位詞、連詞

方位詞:LC
方位詞的一個功能是連接前述的名詞短語或者主語,從而使整個短語可以作爲這些介詞的論元或者來修飾動詞短語或主語。
一些方位詞可以獨立使用作爲介詞或動詞的論元。一些方位詞可以被“最”修飾。方位詞不能被Det+M所修飾。
如:前,後,裏,外,內,北,東
如:爲止、以來、以內

並列連接詞:CC
CC的主要模式是:XP{,},CC XP。
如:與、和、或、或者、還是(or)

代詞:PN
代詞的功能是作爲名詞短語的替代物或者表示事先詳細說明的或者從上下文可知曉的被叫的人或事。它們一般不受Det+M或者形容詞性短語修飾。
如:你、我、這、那、自己

從屬連詞:CS
從屬連詞連接兩個句子,一個句子從屬於另一個,這樣的連詞標記爲CS。CS模式是:CS S1,S2和S2 CS,S1。
如:如果/CS,……就/AD……

2.1.7 感嘆詞、擬聲詞、被、把、其他名稱修飾語

感嘆詞:IJ
出現在句首位置的感嘆詞,如:啊

擬聲詞:ON

  • 修飾“ON地V”中的VP:雨嘩嘩[ON]地[DEV]下了[AS]一夜
  • 修飾“ON中的N”中的NP:砰[ON]的/DEG一聲!
  • 自行成句:砰砰[ON]!
  • 一般不能被副詞修飾,如:嘩啦啦,咯吱。

長“被”結構:LB
僅包括“被,叫,給,爲(口語中)”,當它們出現在被字結構NP0+LB+NP1+VP中
如:他被/LB 我訓了/AS 一頓/M .
注:當叫作爲兼語動詞時,“叫”標註爲VV,如:他叫/VV你去。

短“被”結構:SB
NP0+SB+VP,他被/SB 訓了/AS一頓/M。
注:“給”有其他標記:LB,VV和P。
如:你給/P他寫封/M信。

把字結構:BA
僅包括“把,將”,當它們出現在把字結構中(NP0+BA+NP1+VP)。
如:他把/BA你騙了/AS。
注:“將”有其他標記:AD和VV,如:他將/VV了[AS]我的[DEG]軍。

其他名詞修飾語:JJ

  • 區別詞 只修飾模式JJ+的+{N}或JJ+N中的名詞,且一定要有“的”,它們不能被程度副詞修飾。如:共同/JJ的/DEG目標/NN,她是[VC]女/JJ的/DEG。
  • 帶有連字符的複合詞通常爲雙音節詞 JJ+N 如留美/JJ學者/NN
  • 形容詞:新/JJ消息/NN模式:JJ+N注:當“的/DEC”在形容詞和名詞中間時,形容詞標記爲VA

外來詞:FW
FW僅被用於:當詞性標註標記在上下文中不是很清楚時。外來詞不包括外來詞的翻譯,不包括混合中文的詞(如卡拉OK/NN,A型/NN),不包括詞義和詞性在文中都是清楚的詞

標點:PU
當標點是詞的一部分時,不用標註爲PU,如123,456/CD

2.2 Named Entities 命名實體

命名實體識別是識別一個句子中有特定意義的實體並將其區分爲人名,機構名,日期,地名,時間等類別的工作。
命名實體識別本質上是一個模式識別任務, 即給定一個句子, 識別句子中實體的邊界和實體的類型,是自然語言處理任務中一項重要且基礎性的工作。
在這裏插入圖片描述

2.3 Constituency Parsing 成分句法

成分句法分析是識別出句子中的短語結構以及短語之間的層次句法關係,如ROOT要處理文本的語句、IP簡單從句、NP名詞短語、VP動詞短語、LCP方位詞短語、PP介詞短語、CP由‘的’構成的表示修飾性關係的短語、DNP由‘的’構成的表示所屬關係的短語、ADVP副詞短語、ADJP形容詞短語、DP限定詞短語、QP量詞短語、CC並列關係等。
在這裏插入圖片描述

2.4 Dependency Parsing 依存句法

依存句法分析是識別句子中詞彙與詞彙之間的相互依存關係,如nsubj名詞性主語、obj 賓語、dobj直接賓語、iobj間接賓語、nmod 複合名詞修飾、amod形容詞修飾、advmod狀語、appos同位詞、cc並列關係、conj 連接兩個並列的詞、csubj 從主關係、csubjpass主從被動關係等
在這裏插入圖片描述

三、CoreNLP實踐

3.1 庫包準備

  1. 下載stanford-corenlp-4.0.0壓縮包和中文jar包(如果需要處理中文的話),並將壓縮包解壓,注意記住自己解壓的路徑
  2. 把中文jar包命名爲stanford-chinese-corenlp-yyyy-MM-dd-models.jar格式並放置於解壓的文件夾中,yyyy-mm-dd是時間,可以隨便填
    在這裏插入圖片描述
    在這裏插入圖片描述

3.2 在python中安裝stanfordcorenlp

在python中鏡像安裝,輸入如下命令

pip install stanfordcorenlp -i http://pypi.mirrors.ustc.edu.cn/simple/ --trusted-host pypi.mirrors.ustc.edu.cn

在這裏插入圖片描述

3.3 調用stanfordcorenlp

stanfordcorenlp是CoreNLP的一個python接口,主要功能包括分詞、詞性標註、命名實體識別、句法結構分析和依存句法分析等。

from stanfordcorenlp import StanfordCoreNLP
nlp = StanfordCoreNLP(r'F:\coder\jars\stanford-corenlp-4.0.0',lang='zh')  # 本地jar包所在目錄路徑,中文分析:lang='zh'
# nlp = StanfordCoreNLP('http://localhost', port=9000)  #通過服務器訪問
sentence = '金角大王,是在電視劇《西遊記》中登場的虛擬人物。與兄弟銀角大王是平頂山蓮花洞的兩個妖怪。原是太上老君門下看守金爐的童子。'
print('Tokenize:', nlp.word_tokenize(sentence))    # 令牌化
print('Part of Speech:', nlp.pos_tag(sentence))    # 詞性標註
print('Named Entities:', nlp.ner(sentence))        # 命名實體
print('Constituency Parsing:', nlp.parse(sentence))  # 語法樹,成分句法把句子組織成短語的形式
print('Dependency Parsing:', nlp.dependency_parse(sentence))  # 依存句法 揭示句子中詞的依賴關係
nlp.close()

nlp = StanfordCoreNLP(r'F:\coder\jars\stanford-corenlp-4.0.0',lang='zh') # 本地jar包所在目錄路徑,第一個參數是存放jar包的corenlp路徑,如果處理中文的話需要附上lang=‘zh’

輸出:在這裏插入圖片描述

3.3.1 令牌化

將句子劃分爲單詞,如示例句子被劃分爲金角大王、是、在、電視劇等,如:

Tokenize: [‘金角大王’, ‘,’, ‘是’, ‘在’, ‘電視劇’, ‘《’, ‘西遊記’, ‘》’, ‘中’, ‘登場’, ‘的’, ‘虛擬’, ‘人物’, ‘。’, ‘與’, ‘兄弟’, ‘銀角’, ‘大王’, ‘是’, ‘平頂山’, ‘蓮花洞’, ‘的’, ‘兩’, ‘個’, ‘妖怪’, ‘。’, ‘原是’, ‘太上老君’, ‘門下’, ‘看守’, ‘金爐’, ‘的’, ‘童子’, ‘。’]

3.3.2 詞性標註

標註單詞的詞性以避免歧義,如:

Part of Speech: [(‘金角大王’, ‘NR’), (’,’, ‘PU’), (‘是’, ‘VC’), (‘在’, ‘P’), (‘電視劇’, ‘NN’), (’《’, ‘PU’), (‘西遊記’, ‘NN’), (’》’, ‘PU’), (‘中’, ‘LC’), (‘登場’, ‘VV’), (‘的’, ‘DEC’), (‘虛擬’, ‘JJ’), (‘人物’, ‘NN’), (’。’, ‘PU’), (‘與’, ‘P’), (‘兄弟’, ‘NN’), (‘銀角’, ‘NN’), (‘大王’, ‘NN’), (‘是’, ‘VC’), (‘平頂山’, ‘NR’), (‘蓮花洞’, ‘NN’), (‘的’, ‘DEG’), (‘兩’, ‘CD’), (‘個’, ‘M’), (‘妖怪’, ‘VA’), (’。’, ‘PU’), (‘原是’, ‘AD’), (‘太上老君’, ‘NR’), (‘門下’, ‘VV’), (‘看守’, ‘VV’), (‘金爐’, ‘NN’), (‘的’, ‘DEC’), (‘童子’, ‘NN’), (’。’, ‘PU’)]

在這裏插入圖片描述

  • “金角大王”在這裏是人名,’平頂山’是地名,等詞標記爲NR,即專業名詞;
    “,”、“《”、“》”、標記爲PU,即標點;
  • '是’標記爲VC,即系動詞
  • “在”、“與”被標記爲P,即介詞;
  • “電視劇”、“西遊記”、“兄弟”等被標記爲NN,即其他名詞
  • ‘中’,被標記爲LC,即方位詞
  • ‘登場’,‘看守’等被標記爲VV,即其他動詞
  • “的”,被標記爲DEC,即補語標記

(其實我感覺標記的還是不夠準確,比如銀角大王作爲名字也應該跟金角大王一樣合在一起標記爲專有名詞NR,蓮花洞作爲地名也應該被標記爲NR吧)

3.3.3 命名實體

識別句子中具有特定意義的實體,如人名、機構名、日期、地名、時間、數量等,如:

Named Entities: [(‘金角大王’, ‘PERSON’), (’,’, ‘O’), (‘是’, ‘O’), (‘在’, ‘O’), (‘電視劇’, ‘O’), (’《’, ‘O’), (‘西遊記’, ‘MISC’), (’》’, ‘O’), (‘中’, ‘O’), (‘登場’, ‘O’), (‘的’, ‘O’), (‘虛擬’, ‘O’), (‘人物’, ‘O’), (’。’, ‘O’), (‘與’, ‘O’), (‘兄弟’, ‘O’), (‘銀角’, ‘O’), (‘大王’, ‘O’), (‘是’, ‘O’), (‘平頂山’, ‘CITY’), (‘蓮花洞’, ‘LOCATION’), (‘的’, ‘O’), (‘兩’, ‘NUMBER’), (‘個’, ‘O’), (‘妖怪’, ‘O’), (’。’, ‘O’), (‘原是’, ‘O’), (‘太上老君’, ‘O’), (‘門下’, ‘O’), (‘看守’, ‘O’), (‘金爐’, ‘O’), (‘的’, ‘O’), (‘童子’, ‘O’), (’。’, ‘O’)]

在這裏插入圖片描述- ‘金角大王’, ‘PERSON’,人

  • ‘平頂山’, ‘CITY’,城市
  • ‘蓮花洞’, ‘LOCATION’,位置
  • ‘兩’, ‘NUMBER’,數

3.3.4 成分句法

也就是語法樹,用來識別句子中的短語結構和短語間的層次關係,如:

Constituency Parsing: (ROOT
  (IP
    (NP (NR 金角大王))
    (PU ,)
    (VP (VC 是)
      (NP
        (CP
          (IP
            (VP
              (PP (P 在)
                (LCP
                  (NP
                    (NP (NN 電視劇))
                    (NP (PU 《) (NN 西遊記) (PU 》)))
                  (LC 中)))
              (VP (VV 登場))))
          (DEC 的))
        (ADJP (JJ 虛擬))
        (NP (NN 人物))))
    (PU 。)))

在這裏插入圖片描述

  • (NP (NP (NN 電視劇)) (NP (PU 《) (NN 西遊記) (PU 》))) 表示“電視劇《西遊記》”被劃分爲名詞短語,共同表示名詞成分
  • (LCP (NP (NP (NN 電視劇)) (NP (PU 《) (NN 西遊記) (PU 》))) (LC 中))) 表示“電視劇《西遊記》中”被劃分爲方位詞短語,共同表示定位
  • (PP (P 在) (LCP (NP (NP (NN 電視劇)) (NP (PU 《) (NN 西遊記) (PU 》))) (LC 中))) 表示“在電視劇《西遊記》中”被劃分爲介詞短語

3.3.5 依存句法

識別句子中詞彙與詞彙之間的依存關係,如主謂賓定狀補等

Dependency Parsing: [(‘ROOT’, 0, 13), (‘dep’, 13, 1), (‘punct’, 13, 2), (‘cop’, 13, 3), (‘case’, 7, 4), (‘compound:nn’, 7, 5), (‘punct’, 7, 6), (‘nmod:prep’, 10, 7), (‘punct’, 7, 8), (‘case’, 7, 9), (‘acl’, 13, 10), (‘mark’, 10, 11), (‘amod’, 13, 12), (‘punct’, 13, 14), (‘ROOT’, 0, 11), (‘case’, 4, 1), (‘compound:nn’, 3, 2), (‘compound:nn’, 4, 3), (‘nmod:prep’, 11, 4), (‘cop’, 11, 5), (‘nmod:assmod’, 7, 6), (‘nmod:assmod’, 11, 7), (‘case’, 7, 8), (‘nummod’, 11, 9), (‘mark:clf’, 9, 10), (‘punct’, 11, 12), (‘ROOT’, 0, 3), (‘advmod’, 3, 1), (‘nsubj’, 3, 2), (‘acl’, 7, 4), (‘dobj’, 4, 5), (‘mark’, 4, 6), (‘dobj’, 3, 7), (‘punct’, 3, 8)]

在這裏插入圖片描述


3.4 啓動CoreNLP服務器命令來調用stanfordcorenlp

在windows中,cmd進入到Stanford CoreNLP目錄中再執行命令java -mx4g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 15000

f:   # 先進入放cornlp目錄的盤
cd F:\coder\jars\stanford-corenlp-4.0.0   #這裏是自己的cornlp解壓的目錄
java -mx4g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 15000

在這裏插入圖片描述
然後nlp = StanfordCoreNLP('http://localhost', port=9000)  #通過服務器訪問
在這裏插入圖片描述
或者直接在瀏覽器中輸入localhost:9000/訪問,這樣可以得到更加直觀的圖像反映
在這裏插入圖片描述


術語速查:

ROOT:要處理文本的語句
IP:簡單從句
NP:名詞短語
VP:動詞短語
PU:斷句符,通常是句號、問號、感嘆號等標點符號
LCP:方位詞短語
PP:介詞短語
CP:由‘的’構成的表示修飾性關係的短語
DNP:由‘的’構成的表示所屬關係的短語
ADVP:副詞短語
ADJP:形容詞短語
DP:限定詞短語
QP:量詞短語
NN:常用名詞
NR:固有名詞
NT:時間名詞
PN:代詞
VV:動詞
VC:是
CC:表示連詞
VE:有
VA:表語形容詞
AS:內容標記(如:了)
VRD:動補複合詞
CD: 表示基數詞
DT: determiner 表示限定詞
EX: existential there 存在句
FW: foreign word 外來詞
IN: preposition or conjunction, subordinating 介詞或從屬連詞
JJ: adjective or numeral, ordinal 形容詞或序數詞
JJR: adjective, comparative 形容詞比較級
JJS: adjective, superlative 形容詞最高級
LS: list item marker 列表標識
MD: modal auxiliary 情態助動詞
PDT: pre-determiner 前位限定詞
POS: genitive marker 所有格標記
PRP: pronoun, personal 人稱代詞
RB: adverb 副詞
RBR: adverb, comparative 副詞比較級
RBS: adverb, superlative 副詞最高級
RP: particle 小品詞
SYM: symbol 符號
TO:”to” as preposition or infinitive marker 作爲介詞或不定式標記
WDT: WH-determiner WH限定詞
WP: WH-pronoun WH代詞
WP$: WH-pronoun, possessive WH所有格代詞
WRB:Wh-adverb WH副詞
關係表示
abbrev: abbreviation modifier,縮寫
acomp: adjectival complement,形容詞的補充;
advcl : adverbial clause modifier,狀語從句修飾詞
advmod: adverbial modifier狀語
agent: agent,代理,一般有by的時候會出現這個
amod: adjectival modifier形容詞
appos: appositional modifier,同位詞
attr: attributive,屬性
aux: auxiliary,非主要動詞和助詞,如BE,HAVE SHOULD/COULD等到
auxpass: passive auxiliary 被動詞
cc: coordination,並列關係,一般取第一個詞
ccomp: clausal complement從句補充
complm: complementizer,引導從句的詞好重聚中的主要動詞
conj : conjunct,連接兩個並列的詞。
cop: copula。系動詞(如be,seem,appear等),(命題主詞與謂詞間的)連繫
csubj : clausal subject,從主關係
csubjpass: clausal passive subject 主從被動關係
dep: dependent依賴關係
det: determiner決定詞,如冠詞等
dobj : direct object直接賓語
expl: expletive,主要是抓取there
infmod: infinitival modifier,動詞不定式
iobj : indirect object,非直接賓語,也就是所以的間接賓語;
mark: marker,主要出現在有“that” or “whether”“because”, “when”,
mwe: multi-word expression,多個詞的表示
neg: negation modifier否定詞
nn: noun compound modifier名詞組合形式
npadvmod: noun phrase as adverbial modifier名詞作狀語
nsubj : nominal subject,名詞主語
nsubjpass: passive nominal subject,被動的名詞主語
num: numeric modifier,數值修飾
number: element of compound number,組合數字
parataxis: parataxis: parataxis,並列關係
partmod: participial modifier動詞形式的修飾
pcomp: prepositional complement,介詞補充
pobj : object of a preposition,介詞的賓語
poss: possession modifier,所有形式,所有格,所屬
possessive: possessive modifier,這個表示所有者和那個’S的關係
preconj : preconjunct,常常是出現在 “either”, “both”, “neither”的情況下
predet: predeterminer,前綴決定,常常是表示所有
prep: prepositional modifier
prepc: prepositional clausal modifier
prt: phrasal verb particle,動詞短語
punct: punctuation,這個很少見,但是保留下來了,結果當中不會出現這個
purpcl : purpose clause modifier,目的從句
quantmod: quantifier phrase modifier,數量短語
rcmod: relative clause modifier相關關係
ref : referent,指示物,指代
rel : relative
root: root,最重要的詞,從它開始,根節點
tmod: temporal modifier
xcomp: open clausal complement
xsubj : controlling subject 掌控者
中心語爲謂詞
subj — 主語
nsubj — 名詞性主語(nominal subject) (同步,建設)
top — 主題(topic) (是,建築)
npsubj — 被動型主語(nominal passive subject),專指由“被”引導的被動句中的主語,一般是謂詞語義上的受事 (稱作,鎳)
csubj — 從句主語(clausal subject),中文不存在
xsubj — x主語,一般是一個主語下面含多個從句 (完善,有些)
中心語爲謂詞或介詞
obj — 賓語
dobj — 直接賓語 (頒佈,文件)
iobj — 間接賓語(indirect object),基本不存在
range — 間接賓語爲數量詞,又稱爲與格 (成交,元)
pobj — 介詞賓語 (根據,要求)
lobj — 時間介詞 (來,近年)
中心語爲謂詞
comp — 補語
ccomp — 從句補語,一般由兩個動詞構成,中心語引導後一個動詞所在的從句(IP) (出現,納入)
xcomp — x從句補語(xclausal complement),不存在
acomp — 形容詞補語(adjectival complement)
tcomp — 時間補語(temporal complement) (遇到,以前)
lccomp — 位置補語(localizer complement) (佔,以上)
— 結果補語(resultative complement)
中心語爲名詞
mod — 修飾語(modifier)
pass — 被動修飾(passive)
tmod — 時間修飾(temporal modifier)
rcmod — 關係從句修飾(relative clause modifier) (問題,遇到)
numod — 數量修飾(numeric modifier) (規定,若干)
ornmod — 序數修飾(numeric modifier)
clf — 類別修飾(classifier modifier) (文件,件)
nmod — 複合名詞修飾(noun compound modifier) (浦東,上海)
amod — 形容詞修飾(adjetive modifier) (情況,新)
advmod — 副詞修飾(adverbial modifier) (做到,基本)
vmod — 動詞修飾(verb modifier,participle modifier)
prnmod — 插入詞修飾(parenthetical modifier)
neg — 不定修飾(negative modifier) (遇到,不)
det — 限定詞修飾(determiner modifier) (活動,這些)
possm — 所屬標記(possessive marker),NP
poss — 所屬修飾(possessive modifier),NP
dvpm — DVP標記(dvp marker),DVP (簡單,的)
dvpmod — DVP修飾(dvp modifier),DVP (採取,簡單)
assm — 關聯標記(associative marker),DNP (開發,的)
assmod — 關聯修飾(associative modifier),NP|QP (教訓,特區)
prep — 介詞修飾(prepositional modifier) NP|VP|IP(採取,對)
clmod — 從句修飾(clause modifier) (因爲,開始)
plmod — 介詞性地點修飾(prepositional localizer modifier) (在,上)
asp — 時態標詞(aspect marker) (做到,了)
partmod– 分詞修飾(participial modifier) 不存在
etc — 等關係(etc) (辦法,等)
中心語爲實詞
conj — 聯合(conjunct)
cop — 系動(copula) 雙指助動詞????
cc — 連接(coordination),指中心詞與連詞 (開發,與)
其它
attr — 屬性關係 (是,工程)
cordmod– 並列聯合動詞(coordinated verb compound) (頒佈,實行)
mmod — 情態動詞(modal verb) (得到,能)
ba — 把字關係
tclaus — 時間從句 (以後,積累)
— semantic dependent
cpm — 補語化成分(complementizer),一般指“的”引導的CP (振興,的)

縮寫:
鏈接: https://pan.baidu.com/s/1eRJlbBg5-om923n4DDDH2A 提取碼: qcw3

彙報ppt:
鏈接: https://pan.baidu.com/s/1IhQbDsrXm96iNOCh2wbc2A 提取碼: cw2j


參考資料:

CoreNLP官網教程

Stanford CoreNLP在python3中的安裝使用+詞性學習

斯坦福大學Stanford coreNLP 賓州樹庫依存句法標註體系

賓州中文樹庫詞性標註指南 The Part-Of-Speech Tagging Guidelines for the Penn Chinese Treebank
鏈接:https://pan.baidu.com/s/1167iB6S4XsZYR-ZFwyHWrw
提取碼:5zoj


最後,碼字不易,吐血整理的乾貨長文,如果有幫助的話可以點個贊呀,給你小心心~
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章