知識圖譜——中文分詞(CoreNLP)

一、準備

安裝 pip install stanfordcorenlp

下載Standard的CoreNLP包，解壓至python的Tools目錄下，處理中文還需要下載中文的模型jar文件，然後放到stanford-corenlp-full-2018-02-27根目錄下即可（注意一定要下載這個文件，否則它默認是按英文來處理的）。

二、使用

代碼：

from stanfordcorenlp import StanfordCoreNLP
nlp = StanfordCoreNLP(r'D:\Python\Python37\Tools\stanford_NLP', lang='zh')
sente='配置好數據庫之後，可以根據django來生成默認的數據表。'
nlp.word_tokenize(sente)

效果演示：

三、NLP功能

1.中文分詞：nlp.word_tokenize(sente)

2.詞性標記：nlp.pos_tag(sente)

3.語法解析：nlp.parse(sente)

4.語法關係解析：nlp.dependency_parse(sente)

四、詞性學習

標記	含義	示例
VA	謂詞性形容詞
VC	系動詞	是、爲等
VE	“有”作爲主要動詞	只有當“有，沒{有}”和“無”作爲主要動詞時（包括佔有的“有”和表存在的“有”等等），被標註爲VE
VV	其他動詞	('生成', 'VV'), ('默認', 'VV'),如情態動詞，提升謂詞（如“可能”），控制動詞（如“要”、“想”），行爲動詞（如“走”），心理動詞（如“喜歡”、“瞭解”、“怨恨”），等等
NR	專有名詞	專有名詞是名詞的子集。一個專有名詞可以是一個特定的人名，政治或地理上定義的地方（城市、國家、河流、山脈等），或者是一種組織（企業、政府或其他組織實體）。一個專有名詞通常是獨一無二，並且不能被Det+M所修飾的。
NT	時間名詞	時間名詞可以是介詞的賓語，譬如在、從、到、等到。它們可以被問及，如“這個時候”，也可以被用以提問“什麼時候”。它們也可以直接修飾VP（動詞短語）或者S（主語）。像其他名詞一樣，時間名詞可以是某些動詞的論元。例子：一月、漢朝、當今、何時、今後
NN	其他名詞	('頭髮', 'NN')、('數據庫', 'NN')
LC	方位詞	·這類方位詞表示方向、位置等。它們來自名詞。一些可以單獨使用作爲介詞或動詞的論元。一些可以被“最”修飾。它們不能被Det+M所修飾。 ('爲止', 'LC')
PN	代詞	代詞包括人稱代詞（如我、你），當作爲名詞短語單獨使用時爲指示代詞（如這、那），所有格代名詞（如其）以及反身代詞（如我自己、自己）。
DT	限定詞	限定詞包括指示詞（如這、那、該）和諸如“每、各、前、後”等詞。限定詞不包括基數詞和序列詞。
CD	基數詞	包括基數詞並隨意與一些概數詞連用，如“來、多、好幾”和諸如“好些、若干、半、許多、很多（如很多學生）”等詞
OD	序列詞	序列詞被標註爲OD。我們把第+CD看做一個詞，並標註它爲OD。例子：第一百。
M	度量詞	度量詞跟在數字後形成Det+M結構修飾名詞或動詞，包括類詞（如“個”），表示一羣的度量詞，如“羣”，以及公里、升等度量詞。
AD	副詞	副詞包括情態副詞、頻率副詞、程度副詞、連接副詞等，大部分副詞的功能是修飾動詞短語或主語。如：仍然、很、最、大大、又、約
P	介詞	介詞可以把名詞短語或從句作爲論元。
CC，CS	並列連接詞、從屬連詞	與、和、或、或者、還是（or）從屬連詞連接兩個句子，一個句子從屬於另一個，這樣的連詞標記爲CS。CS模式是：CS S1，S2和S2 CS，S1。如：如果/CS，……就/AD……
IJ	感嘆詞	出現在句首位置的感嘆詞，如：啊
ON	擬聲詞	① 修飾“ON地V”中的VP：雨嘩嘩[ON]地[DEV]下了[AS]一夜 ② 修飾“ON中的N”中的NP：砰[ON]的/DEG一聲！ ③ 自行成句：砰砰[ON]！ ④ 一般不能被副詞修飾，如：嘩啦啦，咯吱。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

知識圖譜——中文分詞(CoreNLP)

一、準備

二、使用

三、NLP功能

四、詞性學習

機器學習——決策樹（一）

Typora語法詳細教程

網絡爬蟲——正則表達式用法及實例

python基礎之元組和列表

知識圖譜——中文分詞(CoreNLP)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結