[NLP]1.StanfordNLP的安裝和初探

原文:http://blog.csdn.net/android_ruben/article/details/54600716

簡介

Stanford CoreNLP提供了一系列自然語言分析工具。它能夠給出基本的詞形,詞性,不管是公司名還是人名等,格式化的日期,時間,量詞,並且能夠標記句子的結構,語法形式和字詞依賴,指明那些名字指向同樣的實體,指明情緒,提取發言中的開放關係等。
如果需要進行如下任務,Standfrod CoreNLP正合適:

  • 1.一個集成的語言分析工具集;
  • 2.進行快速,可靠的任意文本分析;
  • 3.整體的高質量的文本分析;
  • 4.支持多種主流語言;
  • 5.多種編程語言的易用接口;
  • 6.方便的簡單的部署web服務。
    Stanford CoreNLP是一個集成的框架。框架的目標是使得應用一大堆語言分析工具分析大量的文本變得簡單。COreNLP工具可以僅僅通過兩行命令執行大量的文本分析工作。框架設計的初衷就是高度靈活的可擴展性的。通過一個單獨的名利ing就可以選擇某個工具的開啓和關閉。Stanford CoreNLP集成了許多斯坦福的NLP工具,包括:詞性標記(POS),命名實體識別(NER),語法參數分析系統情緒分析自舉模式學習,和開放信息提取工具。這個框架的分析爲高等級和指定領域的文本理解應用程序提供了基本的構件。
    pic

下載

Standford CoreNLP下載包中包含:

  • (1)核心jar
  • (2)模型jar
  • (3)CoreNLP運行需要的庫
  • (4)文檔和源碼

各語言對應的模型庫如下:

LANGUAGE MODEL JAR VERSION
Arabic download 3.7.0 (beta)
Chinese download 3.7.0 (beta)
English download 3.7.0 (beta)
French download 3.7.0 (beta)
German download 3.7.0 (beta)
Spanish download 3.7.0 (beta)

源碼

依次執行下面的語句就可以得到coreNLP源碼:

cd stanford-corenlp-full-2016-10-31
mkdir src
cd src
jar -xf ../stanford-corenlp-3.7.0-sources.jar 
cd ..
ant
cd classes
jar -cfm ../stanford-corenlp-<version>.jar ../META-INF/MANIFEST.MF edu
cd ..
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

github

Github地址

Maven

需要在pom.xml中添加:

<dependencies>
<dependency>
    <groupId>edu.stanford.nlp</groupId>
    <artifactId>stanford-corenlp</artifactId>
    <version>3.7.0</version>
</dependency>
<dependency>
    <groupId>edu.stanford.nlp</groupId>
    <artifactId>stanford-corenlp</artifactId>
    <version>3.7.0</version>
    <classifier>models</classifier>
</dependency>
</dependencies>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

如果需要添加英語之外的支持,需要在pom.xml中添加:

<dependency>
    <groupId>edu.stanford.nlp</groupId>
    <artifactId>stanford-corenlp</artifactId>
    <version>3.7.0</version>
    <classifier>models-chinese</classifier>
</dependency>
//“models-chinese”,“models-english”, “models-english-kbp”, “models-arabic”, “models-french”, “models-german” ,“models-spanish”;
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

語言支持

StandfordCoreNLP支持的最佳語言是英語,但是也支持阿拉伯、中文、法語、德語和西班牙語。

編程語言和操作系統支持

Standford CoreNLP的開發語言爲Java,版本爲Java 1.8以上。支持的操作系統爲LINUX,OS X,Windows。

論文參考

The Stanford CoreNLP Natural Language Processing Toolkit

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章