python爬蟲相關庫安裝
python爬蟲涉及的庫:
請求庫,解析庫,存儲庫,工具庫
requests安裝
pip3 install requests
selenium安裝(驅動瀏覽器進行網站訪問行爲)
pip3 install selenium
安裝chromedriver
網址:https://npm.taobao.org/
把下載完成後的壓縮包解壓,把exe放到D:\Python3.6.0\Scripts
這個路徑只要在PATH變量中就可以
回車後彈出chrome瀏覽器界面
安裝其他瀏覽器
無界面瀏覽器phantomjs
下載網址:http://phantomjs.org/
下載完成後解壓,把整個目錄放到D:\Python3.6.0\Scripts\,把bin目錄的路徑添加到PATH變量
phantomjs
console.log(‘phantomjs’)
解析庫
lxml (XPATH)
pip3 install lxml
或者從https://pypi.python.org下載,例如,lxml-4.1.1-cp36-cp36m-win_amd64.whl (md5) ,先下載whl文件
pip3 install 文件名.whl
beautifulsoup
打開CMD,需要先安裝好lxml
pip3 install beautifulsoup4
pyquery(類似jquery語法)
pip3 install pyquery
存儲庫
pymysql(操作MySQL,關係型數據庫)
安裝:
pip3 install pymysql
pymongo(操作MongoDB,key-value)
安裝
pip3 install pymongo
redis(分佈式爬蟲,維護爬取隊列)
安裝:
pip3 install redis
工具庫
flask(WEB庫)
pip3 install flask
Django(分佈式爬蟲維護系統)
pip3 install django