hanlp簡介:
HanLP是由一系列模型與算法組成的Java工具包,目標是普及自然
語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構
清晰、語料時新、可自定義的特點。
功能:中文分詞 詞性標註 命名實體識別 依存句法分析 關鍵詞提取
新詞發現 短語提取 自動摘要 文本分類 拼音簡繁
hanlp環境安裝(mac)
hanlp是java寫的開源庫,在python環境中調用hanlp需要java環境的支持和python調用java的工具
- 安裝java
- 安裝Jpype
JPype是一個能夠讓 python 代碼方便地調用 Java 代碼的工具,從而克服了 python 在某些領域(如服務器端編程)中的不足。
pip install jpype1
import jpype
print(jpype.__version__)
0.7.0
執行如下代碼測試:
import jpype
print(jpype.__version__)
if __name__=="__main__":
# 獲取系統的jvm路徑
jvm_path = jpype.getDefaultJVMPath()
print(jvm_path)
# 設置jvm路徑,以啓動java虛擬機
jpype.startJVM(jvm_path,convertStrings=False)
# 執行java代碼
jpype.java.lang.System.out.println('hello world')
# 關閉jvm虛擬機,當使用完 JVM 後,可以通過 jpype.shutdownJVM() 來關閉 JVM,該函數沒有輸入參數。當 python 程序退出時,JVM 會自動關閉。
jpype.shutdownJVM()
/Library/Java/JavaVirtualMachines/jdk1.8.0_211.jdk/Contents/Home/jre/lib/jli/libjli.dylib
hello world
接下來配置hanlp 安裝
1、下載hanlp.jar包: https://github.com/hankcs/HanLP
2、下載data.zip:https://github.com/hankcs/HanLP/releases中http://hanlp.linrunsoft.com/release/data-for-1.7.0.zip後解壓數據包。
3、配置文件 示例配置文件:hanlp.properties配置文件的作用是告訴HanLP數據包的位置,只需修改第一行:root=usr/home/HanLP/ 比如data目錄是/Users/hankcs/Documents/data,那麼root=/Users/hankcs/Documents/
也可以從我的百度網盤下載。
配置的路徑參考:https://objc.com/article/17
window 下使用參考:https://blog.csdn.net/HHTNAN/article/details/81908451
參考鏈接:
可參考的官網鏈接
https://github.com/hankcs/HanLP
http://hanlp.com