參考書籍《Python自然語言處理》,學習python文本分析
書籍中的版本是Python2和NLTK2,我使用的版本是python3.6和nltk3.3
NLTK的安裝
首先,cmd窗口下輸入
pip install nltk
python下輸入以下命令,導入NLTK的數據模塊
>>> import nltk
>>> nltk.download()
打開下載界面,選擇導入book,設置下載目錄 C:\nltk_data
下載完成之後,測試安裝
>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
下載完成之後,輸入以下命令,查看“從NLTK的book模塊中加載所有的條目”
from nltk.book import *
無論什麼時候想要找到這些文本,只需要再Python提示符後輸入它們的名字即可。如上圖輸入text1,就可以輸入它的內容
現在就可以使用book裏的數據了
現在就可以使用book裏的數據了
其它架包安裝
1)numpy安裝
科學計算庫,支持多維數組和線性代數,在某些計算概率、標記、聚類和分類任務中用到。
cmd窗口
pip install numpy
python導入
import numpy
2)matplotlib安裝
數據可視化的2D繪圖庫,在產生線圖和條形圖的程序例子中用到
pip install matplotlib
python導入
import matplotlib
3)networkx安裝
用於存儲和操作由節點和邊組成的網絡結構的函數庫。可視化語義網絡還需要安裝Graphviz 庫。
cmd窗口
pip install networkx
python導入
import networkx
4)Prover9安裝
這是一個使用一階等式邏輯定理的自動證明器,用於支持語言處理中的推理。
暫未安裝
5) 安裝beautifulsoup4
html標籤處理
cmd安裝
pip install beautifulsoup4
python導入
from bs4 import BeautifulSoup
6)feedparser
cmd窗口
pip install feedparser
python窗口
python shell窗口導入,cmd安裝時,如果該窗口是打開狀態,直接導入,報錯,關閉窗口再打開,導入成功
import feedparser
其它命令-cmd窗口下
查看python版本
python - version
升級pip
python -m pip install --upgrade pip
查看安裝庫list
pip list