前言:
爬蟲是Python最常見的開發項目,而爬蟲本身的應用對象又是多種多樣(文本、視頻、圖片、其它文件等等),本視頻系列課程,我們將會拿出多個案例進行爬蟲項目實戰講解,幫大家對爬蟲項目進行實戰,培養爬蟲項目分析的實際過程。(本系列每個視頻教程都將控制到5-6分鐘左右)
第一篇、爬蟲基礎及Python環境安裝
【Python爬蟲實戰】Python環境搭建和爬蟲模塊安裝
爬蟲是什麼:
網絡爬蟲(又稱爲網頁蜘蛛,網絡機器人),是一種按照一定的規則,自動地抓取互聯網信息的程序或者腳本。
首先,我們要了解一下爬蟲的法律風險,畢竟我們只是程序員,而不是拿這些數據進行非法謀利。
爬蟲的法律風險
- 1、違反網站意願,非法抓取並使用了目標站點所禁止的內容;
- 2、爬蟲干擾了被訪問網站的正常運營;
- 3、抓取了受到法律保護的特定類型的數據或信息。
那麼作爲爬蟲開發者,如何規避風險?
- 1、嚴格遵守網站設置的robots協議;
- 2、避免干擾被訪問網站的正常運行;
- 3、避免使用爬取的數據進行商業化實現;
- 4、在使用、傳播抓取到的信息時,應審查所抓取的內容,如發現屬於用戶的個人信息、隱私或者他人的商業祕密的,應及時停止並刪除。
說了一堆,其實我們保證做到二點就行了。
1、百度能抓到的,我們可以抓,百度抓不到的,儘量別抓。抓的時候別影響目標網站的正常運行。
2、所有爬到的數據,不要直接用來商業化。
Python環境安裝步驟:
-
採購阿里雲服務器(windows)版本,或者自備一臺windows機器
-
下載相關軟件(python)及安裝
相關教程可以參考: 1.Python的安裝與配置
我們下載的是:https://npm.taobao.org/mirrors/python/ 選擇x64的windows版本
安裝完成之後請運行
cmd
執行python
查看是否成功運行 -
修改pip國內源
-
安裝相關擴展示
python -m pip install --upgrade pip pip install jupyter pip install selenium pip install pyquery pip install request #運行jupyter notebook jupyter notebook
以上安裝的模塊分別是:
request
是一個基礎的http庫,我們可以用來請求http或https的站點。
selenium
其實是一個集成測試工具,但是我們可以利用測試模擬來實現網站模擬的操作,簡單來說就是人爲模擬訪問網站。
pyquery
庫也是一個非常強大又靈活的網頁解析庫,如果你使用過Jquery,那麼你用起來也會得心應手。
jupyter
一個Web IDE,可以實時運行,實時調試。
總結:
本篇簡單介紹了爬蟲,和爬蟲相關的法規。另使用視頻進行了安裝說明。下一篇我們將進行我們第一個實戰系列項目:爬取百度風雲榜單,爲之後項目進行準備。
作者相關:
明哥較擅長PHP開發架構,Python開發。從業金融電商等領域多年經驗。更新時間不定,以技術爲主,不定期分享技術和人生,如果有興趣可以關注。博客、新浪微博、簡書、微信公衆號
本系列教程及源碼地址:點擊訪問
最後:如果你正在學習Python的路上,或者準備打算學習Python、明哥會陪着你陪你一起共同進步!
手打不易,有用的話,請記得關注轉發。