nlp之HanLP

HanLP是一系列模型與算法組成的NLP工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。

安裝hanlp
step1:下載jpype1.whl,
https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype
然後Terminal或者cmd裏面pip install 路徑/JPype1-0.7.0-cp37-cp37m-win_amd64.whl
step2:pip install pyhanlp
step3:在python console裏面 ,第一次調用:
import pyhanlp,自動下載jar包,data文件(1個G)等

HanLP提供下列功能:
中文分詞

import jpype

jvm_path=jpype.getDefaultJVMPath()
hanlp_classpath="I:\soft\Anaconda3\Lib\site-packages\pyhanlp\static\hanlp-1.7.4.jar;I:\soft\Anaconda3\Lib\site-packages\pyhanlp"
jvm_arg='-Djava.class.path='+hanlp_classpath

#判斷是否jvm進程開啓
if not jpype.isJVMStarted():#如果沒有開啓進程,則需要進行開啓
    jpype.startJVM(jvm_path,jvm_arg)    #開啓jvm,調用java_class

HanLP=jpype.JClass('com.hankcs.hanlp.HanLP')

text = "大家好,這是第一個關於HanLP測試! "
print("模式1:標準分詞",HanLP.segment(text))

HanLPTokenizer=jpype.JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')
print("模式2:NLP分詞",HanLPTokenizer.segment(text))

# 2 可以支持自定義詞典
text = "攻城獅逆襲單身狗,迎娶白富美,走向人生巔峯"
print("模式2:NLP分詞(未定義新詞)",HanLPTokenizer.segment(text))
CustomDictionary=jpype.JClass('com.hankcs.hanlp.dictionary.CustomDictionary')
CustomDictionary.add("攻城獅")
CustomDictionary.add("單身狗")
print("模式2:NLP分詞(定義新詞)",HanLPTokenizer.segment(text))

#3 特徵詞提取
paragraphs="過去幾十年裏,國內外的互聯網巨頭基本都誕生於搜索、社交、電商、衣食住行等生活和消費領域,那時的互聯網也被稱作消費級互聯網. "

HanLP = jpype.JClass("com.hankcs.hanlp.HanLP")
print("#3 特徵詞提取",HanLP.extractKeyword(paragraphs,5))
print("#4 摘要提取",HanLP.extractSummary(paragraphs,4))
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章