linux python 爬蟲 服務器部署 crontab定時執行

由於python版本比較多,python2與python3兼容又不好,導致很多擴展庫版本也很多,安裝擴展庫就容易碰到問題,有些直接yum就可以安裝,有些需要用pip安裝,有些需要直接下載安裝,我這裏就列舉幾個我碰到的吧。
可以用virtualenv這個虛擬環境
也可以用conda這個工具,我這裏就是手動安裝沒有藉助這種擴展庫管理工具。
先把本地python項目上傳到服務器,可以用rz工具,也可以用svn,我是先運行,再根據報錯信息添加擴展庫,這裏安裝python34。

1.安裝yum資源擴展倉庫:
yum install https://centos7.iuscommunity.org/ius-release.rpm -y
如果還沒安裝python3則安裝python34:
yum install python34 -y

2.先安裝pip3: yum search pip
可以看到:
這裏寫圖片描述
安裝pip3: yum install python34-pip -y
然後看版本信息:pip3 –version 能看到版本信息則安裝成功。

3.運行spider.py:python3 spider.py
首先看一下爬蟲引用了那些擴展:
這裏寫圖片描述
看到報錯(如果報錯跟re相關,則直接安裝正則擴展即可:pip3 install regex):
這裏寫圖片描述
可以看到缺少mysql.connector擴展
安裝:yum search mysql-connector
這裏寫圖片描述
可以看到版本不正確,只支持py2,不必安裝了
pip安裝:pip3 search mysql-connector
這裏寫圖片描述
找到了,安裝:pip3 install mysql-connector
但是:
這裏寫圖片描述
報錯了!
換種方式安裝,下載下來自己手動安裝:
wget https://dev.mysql.com/get/Downloads/Connector-Python/mysql-connector-python-2.1.5.tar.gz –no-check-certificate
如果沒有安裝wget工具先安裝wget:yum install wget -y
下載下來後解壓安裝:
python3 setup.py install
安裝成功,然後在運行爬蟲:python3 spider.py
這裏寫圖片描述
庫文件問題已經變了
當然用pymysql更簡單一些,用pip3可以直接安裝成功

4.可以看到現在是缺少requests擴展,安裝:
pip3 install requests
安裝pyquery
pip3 install pyquery
安裝Beautifulsoup:
pip3 install Beautifulsoup
這裏寫圖片描述
報錯了,尋找解決辦法,進Beautifulsoup官網:
這裏寫圖片描述
可以看到安裝版本不正確:
pip3 install Beautifulsoup4
安裝成功。
python3 spider.py 運行正常,能夠爬取打印數據

5.添加定時任務:
crontab -e
輸入:
/20 * * * python3 /project/python/spider.py
這個任務代表每20分鐘以python3 運行/project/python/spider.py文件一次,規則如下:
這裏寫圖片描述
保存退出,如果沒有錯誤提示說明格式正確。
添加任務成功。
查看定時任務結果:
cat /var/log/cron
我這裏爬到的打印結果,此時數據庫也應該有數據了。
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章