[NLP]1.StanfordNLP的安装和初探

原文:http://blog.csdn.net/android_ruben/article/details/54600716

简介

Stanford CoreNLP提供了一系列自然语言分析工具。它能够给出基本的词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词,并且能够标记句子的结构,语法形式和字词依赖,指明那些名字指向同样的实体,指明情绪,提取发言中的开放关系等。
如果需要进行如下任务,Standfrod CoreNLP正合适:

  • 1.一个集成的语言分析工具集;
  • 2.进行快速,可靠的任意文本分析;
  • 3.整体的高质量的文本分析;
  • 4.支持多种主流语言;
  • 5.多种编程语言的易用接口;
  • 6.方便的简单的部署web服务。
    Stanford CoreNLP是一个集成的框架。框架的目标是使得应用一大堆语言分析工具分析大量的文本变得简单。COreNLP工具可以仅仅通过两行命令执行大量的文本分析工作。框架设计的初衷就是高度灵活的可扩展性的。通过一个单独的名利ing就可以选择某个工具的开启和关闭。Stanford CoreNLP集成了许多斯坦福的NLP工具,包括:词性标记(POS),命名实体识别(NER),语法参数分析系统情绪分析自举模式学习,和开放信息提取工具。这个框架的分析为高等级和指定领域的文本理解应用程序提供了基本的构件。
    pic

下载

Standford CoreNLP下载包中包含:

  • (1)核心jar
  • (2)模型jar
  • (3)CoreNLP运行需要的库
  • (4)文档和源码

各语言对应的模型库如下:

LANGUAGE MODEL JAR VERSION
Arabic download 3.7.0 (beta)
Chinese download 3.7.0 (beta)
English download 3.7.0 (beta)
French download 3.7.0 (beta)
German download 3.7.0 (beta)
Spanish download 3.7.0 (beta)

源码

依次执行下面的语句就可以得到coreNLP源码:

cd stanford-corenlp-full-2016-10-31
mkdir src
cd src
jar -xf ../stanford-corenlp-3.7.0-sources.jar 
cd ..
ant
cd classes
jar -cfm ../stanford-corenlp-<version>.jar ../META-INF/MANIFEST.MF edu
cd ..
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

github

Github地址

Maven

需要在pom.xml中添加:

<dependencies>
<dependency>
    <groupId>edu.stanford.nlp</groupId>
    <artifactId>stanford-corenlp</artifactId>
    <version>3.7.0</version>
</dependency>
<dependency>
    <groupId>edu.stanford.nlp</groupId>
    <artifactId>stanford-corenlp</artifactId>
    <version>3.7.0</version>
    <classifier>models</classifier>
</dependency>
</dependencies>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

如果需要添加英语之外的支持,需要在pom.xml中添加:

<dependency>
    <groupId>edu.stanford.nlp</groupId>
    <artifactId>stanford-corenlp</artifactId>
    <version>3.7.0</version>
    <classifier>models-chinese</classifier>
</dependency>
//“models-chinese”,“models-english”, “models-english-kbp”, “models-arabic”, “models-french”, “models-german” ,“models-spanish”;
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

语言支持

StandfordCoreNLP支持的最佳语言是英语,但是也支持阿拉伯、中文、法语、德语和西班牙语。

编程语言和操作系统支持

Standford CoreNLP的开发语言为Java,版本为Java 1.8以上。支持的操作系统为LINUX,OS X,Windows。

论文参考

The Stanford CoreNLP Natural Language Processing Toolkit

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章