零基礎 實現基於python2.7 的中文詞頻統計和詞雲繪製(一)

近期因爲工作需要,想利用python實現中分詞頻統計,然後生成圖雲,最終得到一個可獨立運行的小程序。此前完全沒有接觸過這一塊,零基礎起步開始各種百度、下載、掉坑、排雷,終於磕磕絆絆的實現最初的需求,這裏做個小結,希望能給其他小夥伴一點參考。

一、環境搭建

主要是安裝python2.7的32位版+中文分詞包“jieba”+生成詞雲包“wordcloud”+打包工具“pyInstaller”。

需要說明一下,安裝python的環境最好是在能連互聯網的電腦上安裝,用python內部的pip命令非常好裝。如果實在不能聯網的話,最好是在能聯網的機器上搭好環境,然後把python目錄下的lib目錄和script目錄拷過來,效果相當於在本地安裝好了需要的包。想通過下載離線安裝包然後在本機上安裝的辦法容易出問題,本人實驗了好幾次各種問題各種出現,很頭疼!!!總體感覺出問題的原因應該是每個安裝都有它依賴的包,新手對這些不太敏感、不太注意或者壓根就不知道,安裝時候很容易出現由於缺乏依賴包而安裝失敗的情況,出現的報錯提示還讓人摸不着頭腦。

1.安裝python2.7。

安裝方法:到python的官網上https://www.python.org/downloads/下載適用於win7的python2.7-x86msi的安裝包,在本地安裝即可。我的操作系統是win7旗艦版。

遇到問題:沒問題。

其他說明:關於Python的版本經過百度發現,64位機器上安裝32位或64位都可以,考慮以後的兼容性問題,建議裝32位,後續再安裝其他三方包的時候對應版本就選32位的,不要選64位的。我在最初安裝jieba包的時候就遇到了這個問題,我安裝的Python是32位的,而我的電腦是64位的,下載包時根據提示我總是選擇64位的包,已安裝就提示版本不對。

2.設置python環境變量

我的電腦->右鍵屬性->高級系統設置->環境變量->雙擊變量path,在變量值的最後面加個分號,然後把python的安裝目錄粘在後面,例如我的Python安裝目錄是d:\python27,然後點擊確定,環境變量就設置好了。

測試:打開cmd,輸入python,出現如下圖所示信息代表環境變量設置成功。

3.安裝結巴

先安裝pip工具,然後用pip工具安裝jieba,也可以直接安裝jieba的本地安裝包,我建議第一種,省心。

安裝方法:打開cmd->cd d:\python27\script\ ->easy_install pip,python安裝成功後,在script目錄下有easy_install.exe,這個工具就可以安裝pip,如果python目錄下沒有script這個目錄,果斷換個安裝程序卸了重裝。人生苦短,時間緊任務重,沒工夫在這深究~~

pip安裝成功後,在script目錄下輸入pip命令後會出現如下界面:

安裝完pip後,就可以安裝jieba了。

保持當前script目錄下執行命令:pip install jieba  ,保持聯網的情況下基本沒失敗過(本人前後安裝過無數次,滿滿的都是眼淚……)。

其他說明:pip命令會到指定的網址下載所需要的安裝包和她的依賴包,通過看安裝日誌發現pip的默認下載地址是:https://files.pythonhosted.org/packages/63/95/6e03....87a/kiwisolver-1.0.1-cp2u-none-win32.whl(44kb)

4.安裝wordcloud

pip install wordcloud --失敗

下載wordcloud安裝包,本地安裝。下載地址https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud,選擇32位的python2.7對應的包。下載完成後還是用pip命令安裝,安裝時指定安裝包

pip install e:\實際路徑\wordcloud.whl --成功

使用詞雲包還需要安裝matplotlib ,用pip直接安裝就行

pip install matplotlib

5.安裝pyinstaller

pip install pyinstaller  ,可能會提示升級pip

pip -m pip install --upgrade pip, pip升級後在安裝pyinstaller就行了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章