python 哈工大NTP分詞 安裝pyltp 及配置模型(python3.5 3.6)

哈工大語言云 NTP python使用

系統配置(方法windows通用):
windows10 python3.5
使用文檔地址:https://pyltp.readthedocs.io/zh_CN/latest/api.html#id13

第一步 :安裝pyltp##

######三個無果嘗試
(無果的) cmd pip install pyltp 失敗
(無果的)[pip 指定 安裝源方法安裝] ,此方法很長時間,也不一定有結果,不建議再嘗試啦(https://blog.csdn.net/shuihupo/article/details/81416381):

pip install pyltp -i https://pypi.douban.com/simple

(無果的)(下載安裝包安裝,滿滿的期待滿滿的失望),安裝包地址: https://pypi.org/search/?q=pyltp
[[Python第三方庫安裝方法](https://blog.csdn.net/shuihupo/article/details/79992615)](包括不同格式壓縮文件的安裝,和存放地址說明)(https://blog.csdn.net/shuihupo/article/details/79992615)
最後一步報錯:
“d:\local\anaconda3\tools\scripts\pyltp-0.2.1\ltp\src\srl\include\extractor\Converter.h(32): error C3861: ‘convert’: identifier not found
error: command ‘C:\Program Files (x86)\Microsoft Visual Studio 14.0\VC\BIN\x86_amd64\cl.exe’ failed with exit status 2”
又開始滿滿搜索
######有果的成功安裝
下載wheels
這是一個大神在自己的電腦(win10)上編譯的,64bit的windows應該都可以,親測成功。csdn下載地址
pyltp-0.2.1-cp35-cp35m-win_amd64.whl
pyltp-0.2.1-cp36-cp36m-win_amd64.whl
注意: 這兩個文件的區別是python版本號
安裝方法參考我的另一個博客:(包括不同格式壓縮文件的安裝,和存放地址說明)(https://blog.csdn.net/shuihupo/article/details/79992615)
也可以在這裏下載這裏寫鏈接內容

第二步 :模型下載##

######下載地址
官網,http://ltp.ai/download.html
這裏寫圖片描述
######注意
######1.版本的匹配目前最新的配置:

  • pyltp 版本:0.2.0
  • LTP 版本:3.4.0
  • 模型版本:3.4.0 (解壓前600多兆)

######2.存放地址
(1)新建一個項目文件夾,比如:D:\myLTP;
(2)將模型文件解壓,將帶版本號的模型文件改名字爲ltp_data。文件夾放入項目文件夾;這將是我們以後加載模型的路徑。 D:\myLTP\ltp_data.
下面說明所包含的模型內容:

1.  官方的下載模型文件,ltp_data並解壓到任意位置(注意點:模型的路徑最好不要有中文,不然模型加載不出),
2. 解壓後得到一個大於1G的文件夾,確保此文件夾名稱爲ltp_data,位置任意,但在Python程序中一定要指明這個路徑。
3. LTP提供的模型包括:(在ltp_data文件夾裏面)
cws.model         分句模型,單文件
pos.model         詞性標註模型,單文件
ner.model         命名實體識別模型,單文件
parser.model    依存句法分析模型,單文件
srl_data/ 語義角色標註模型,多文件(文件夾srl)(注意:按照官網提示注:3.4.0 版本 SRL模型 pisrl.model 如在windows系統下不可用,可以到官網“此鏈接” 下載支持windows的語義角色標註模型。)
2017/06/15  16:42       182,672,934 cws.model
2017/07/07  15:47               260 md5.txt
2017/06/15  15:19        22,091,814 ner.model
2017/06/15  16:26       367,819,616 parser.model
2017/06/15  16:00       196,372,381 pisrl.model
2017/06/15  16:43       433,443,857 pos.model
2017/07/07  15:47                 6 version
               7 個文件  1,202,400,868 字節
               2 個目錄 108,015,374,336 可用字節
  • 文檔說明地址:https://github.com/HIT-SCIR/ltp
  • Python文檔說明地址:https://github.com/HIT-SCIR/pyltp
  • http://pyltp.readthedocs.io/zh_CN/latest/api.html#id2

##第三步 測試
文檔地址:https://pyltp.readthedocs.io/zh_CN/latest/api.html#id13
在使用時,使用類似的方式的加載模型,注意替換自己的模型地址
使用 pyltp 進行分句示例如下,注意將官網示例由python2的語法,轉換python3,主要是print加括號。

# -*- coding: utf-8 -*-
from pyltp import SentenceSplitter
sents = SentenceSplitter.split('元芳你怎麼看?我就趴窗口上看唄!')  # 分句
print '\n'.join(sents)
結果如下

元芳你怎麼看?
我就趴窗口上看唄!

分詞測試:

# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = 'E:\MyLTP\ltp_data'  # ltp模型目錄的路徑
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分詞模型路徑,模型名稱爲`cws.model`

from pyltp import Segmentor
segmentor = Segmentor()  # 初始化實例
segmentor.load(cws_model_path)  # 加載模型
words = segmentor.segment('元芳你怎麼看')  # 分詞
print('\t'.join(words))
segmentor.release()  # 釋放模型
元芳	你	怎麼	看

Process finished with exit code 0
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章