NLTK(Python自然語言工具包)用於諸如標記化、詞形還原、詞幹化、解析、POS標註等任務。該庫具有幾乎所有NLP任務的工具。
1.安裝nltk
pip install nltk
(不要像一開始我一樣傻傻的以爲pip完就結束啦)
2.進入python 執行(也可以跳過直接看3):
import nltk
nltk.download()
然後會出現一下界面,不出意外所以的內容都不是綠色的,然後可以在此界面下載nltk_data。
一般來說,下載會非常非常慢,經常會卡在某個地方,而且下載好了也未必會奏效,我嘗試各種方法下載了三天仍然沒有下好。
測試下載成功的方法:
from nltk.book import*
如果有以下內容說明安裝成功,否則就是安裝失敗:
3.出現最多的報錯是 LookupError
解決辦法,各種方法就不說了,說我認爲最簡單最省事的方法:
進入github:https://github.com/nltk/nltk_data
下載後,將packages改名爲nltk_data放入報錯提示的路徑中即可
下載成功後執行nltk.download()可見:
另外,在使用分詞函數(nltk.word_tokenize)的過程中,也會報錯LookupError,此時執行以下代碼即可(這個在錯誤提示中也有說明):
import nltk
nltk.download('punkt')