一、准备
安装 pip install stanfordcorenlp
下载Standard的CoreNLP包,解压至python的Tools目录下,处理中文还需要下载中文的模型jar文件,然后放到stanford-corenlp-full-2018-02-27根目录下即可(注意一定要下载这个文件,否则它默认是按英文来处理的)。
二、使用
代码:
from stanfordcorenlp import StanfordCoreNLP
nlp = StanfordCoreNLP(r'D:\Python\Python37\Tools\stanford_NLP', lang='zh')
sente='配置好数据库之后,可以根据django来生成默认的数据表。'
nlp.word_tokenize(sente)
效果演示:
三、NLP功能
1.中文分词:nlp.word_tokenize(sente)
2.词性标记:nlp.pos_tag(sente)
3.语法解析:nlp.parse(sente)
4.语法关系解析:nlp.dependency_parse(sente)
四、词性学习
标记 | 含义 | 示例 |
VA | 谓词性形容词 | |
VC | 系动词 | 是、为等 |
VE | “有”作为主要动词 | 只有当“有,没{有}”和“无”作为主要动词时(包括占有的“有”和表存在的“有”等等),被标注为VE |
VV | 其他动词 | ('生成', 'VV'), ('默认', 'VV'),如情态动词,提升谓词(如“可能”),控制动词(如“要”、“想”),行为动词(如“走”),心理动词(如“喜欢”、“了解”、“怨恨”),等等 |
NR | 专有名词 | 专有名词是名词的子集。一个专有名词可以是一个特定的人名,政治或地理上定义的地方(城市、国家、河流、山脉等),或者是一种组织(企业、政府或其他组织实体)。一个专有名词通常是独一无二,并且不能被Det+M所修饰的。 |
NT | 时间名词 | 时间名词可以是介词的宾语,譬如在、从、到、等到。它们可以被问及,如“这个时候”,也可以被用以提问“什么时候”。它们也可以直接修饰VP(动词短语)或者S(主语)。像其他名词一样,时间名词可以是某些动词的论元。例子:一月、汉朝、当今、何时、今后 |
NN | 其他名词 | ('头发', 'NN')、('数据库', 'NN') |
LC | 方位词 | ·这类方位词表示方向、位置等。它们来自名词。一些可以单独使用作为介词或动词的论元。一些可以被“最”修饰。它们不能被Det+M所修饰。 ('为止', 'LC') |
PN | 代词 |
代词包括人称代词(如我、你),当作为名词短语单独使用时为指示代词(如这、那),所有格代名词(如其)以及反身代词(如我自己、自己)。 |
DT | 限定词 | 限定词包括指示词(如这、那、该)和诸如“每、各、前、后”等词。限定词不包括基数词和序列词。 |
CD | 基数词 | 包括基数词并随意与一些概数词连用,如“来、多、好几”和诸如“好些、若干、半、许多、很多(如很多 学生)”等词 |
OD | 序列词 |
序列词被标注为OD。我们把第+CD看做一个词,并标注它为OD。 例子:第一百。 |
M | 度量词 | 度量词跟在数字后形成Det+M结构修饰名词或动词,包括类词(如“个”),表示一群的度量词,如“群”,以及公里、升等度量词。 |
AD | 副词 |
副词包括情态副词、频率副词、程度副词、连接副词等,大部分副词的功能是修饰动词短语或主语。 如:仍然、很、最、大大、又、约 |
P | 介词 | 介词可以把名词短语或从句作为论元。 |
CC,CS | 并列连接词、从属连词 |
与、和、或、或者、还是(or) 从属连词连接两个句子,一个句子从属于另一个,这样的连词标记为CS。CS模式是:CS S1,S2和S2 CS,S1。 如:如果/CS,……就/AD…… |
IJ | 感叹词 | 出现在句首位置的感叹词,如:啊 |
ON | 拟声词 |
① 修饰“ON地V”中的VP:雨哗哗[ON]地[DEV]下了[AS]一夜 ② 修饰“ON中的N”中的NP:砰[ON]的/DEG一声! ③ 自行成句:砰砰[ON]! ④ 一般不能被副词修饰,如:哗啦啦,咯吱。 |