知識圖譜——中文分詞(CoreNLP)

一、準備

安裝 pip install stanfordcorenlp

下載Standard的CoreNLP包,解壓至python的Tools目錄下,處理中文還需要下載中文的模型jar文件,然後放到stanford-corenlp-full-2018-02-27根目錄下即可(注意一定要下載這個文件,否則它默認是按英文來處理的)。

二、使用

代碼:

from stanfordcorenlp import StanfordCoreNLP
nlp = StanfordCoreNLP(r'D:\Python\Python37\Tools\stanford_NLP', lang='zh')
sente='配置好數據庫之後,可以根據django來生成默認的數據表。'
nlp.word_tokenize(sente)

效果演示:

三、NLP功能

1.中文分詞:nlp.word_tokenize(sente)

2.詞性標記:nlp.pos_tag(sente)

3.語法解析:nlp.parse(sente)

4.語法關係解析:nlp.dependency_parse(sente)


 

四、詞性學習

標記 含義 示例
VA 謂詞性形容詞  
VC 系動詞 是、爲等
VE “有”作爲主要動詞 只有當“有,沒{有}”和“無”作爲主要動詞時(包括佔有的“有”和表存在的“有”等等),被標註爲VE
VV 其他動詞 ('生成', 'VV'), ('默認', 'VV'),如情態動詞,提升謂詞(如“可能”),控制動詞(如“要”、“想”),行爲動詞(如“走”),心理動詞(如“喜歡”、“瞭解”、“怨恨”),等等
NR 專有名詞 專有名詞是名詞的子集。一個專有名詞可以是一個特定的人名,政治或地理上定義的地方(城市、國家、河流、山脈等),或者是一種組織(企業、政府或其他組織實體)。一個專有名詞通常是獨一無二,並且不能被Det+M所修飾的。
NT 時間名詞 時間名詞可以是介詞的賓語,譬如在、從、到、等到。它們可以被問及,如“這個時候”,也可以被用以提問“什麼時候”。它們也可以直接修飾VP(動詞短語)或者S(主語)。像其他名詞一樣,時間名詞可以是某些動詞的論元。例子:一月、漢朝、當今、何時、今後
NN 其他名詞 ('頭髮', 'NN')、('數據庫', 'NN')
LC 方位詞 ·這類方位詞表示方向、位置等。它們來自名詞。一些可以單獨使用作爲介詞或動詞的論元。一些可以被“最”修飾。它們不能被Det+M所修飾。 ('爲止', 'LC')
PN 代詞

代詞包括人稱代詞(如我、你),當作爲名詞短語單獨使用時爲指示代詞(如這、那),所有格代名詞(如其)以及反身代詞(如我自己、自己)。

DT 限定詞 限定詞包括指示詞(如這、那、該)和諸如“每、各、前、後”等詞。限定詞不包括基數詞和序列詞。
CD 基數詞 包括基數詞並隨意與一些概數詞連用,如“來、多、好幾”和諸如“好些、若干、半、許多、很多(如很多 學生)”等詞
OD 序列詞

序列詞被標註爲OD。我們把第+CD看做一個詞,並標註它爲OD。

例子:第一百。

M 度量詞 度量詞跟在數字後形成Det+M結構修飾名詞或動詞,包括類詞(如“個”),表示一羣的度量詞,如“羣”,以及公里、升等度量詞。
AD  副詞

副詞包括情態副詞、頻率副詞、程度副詞、連接副詞等,大部分副詞的功能是修飾動詞短語或主語。

如:仍然、很、最、大大、又、約

P 介詞 介詞可以把名詞短語或從句作爲論元。
CC,CS 並列連接詞、從屬連詞

與、和、或、或者、還是(or)

從屬連詞連接兩個句子,一個句子從屬於另一個,這樣的連詞標記爲CS。CS模式是:CS S1,S2和S2 CS,S1。

如:如果/CS,……就/AD……

IJ 感嘆詞 出現在句首位置的感嘆詞,如:啊
ON 擬聲詞

① 修飾“ON地V”中的VP:雨嘩嘩[ON]地[DEV]下了[AS]一夜

② 修飾“ON中的N”中的NP:砰[ON]的/DEG一聲!

③ 自行成句:砰砰[ON]!

④ 一般不能被副詞修飾,如:嘩啦啦,咯吱。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章