【Python爬蟲實戰】爬蟲基礎及Python環境安裝

前言:

​ 爬蟲是Python最常見的開發項目,而爬蟲本身的應用對象又是多種多樣(文本、視頻、圖片、其它文件等等),本視頻系列課程,我們將會拿出多個案例進行爬蟲項目實戰講解,幫大家對爬蟲項目進行實戰,培養爬蟲項目分析的實際過程。(本系列每個視頻教程都將控制到5-6分鐘左右)

第一篇、爬蟲基礎及Python環境安裝

【Python爬蟲實戰】Python環境搭建和爬蟲模塊安裝

爬蟲是什麼:

網絡爬蟲(又稱爲網頁蜘蛛,網絡機器人),是一種按照一定的規則,自動地抓取互聯網信息的程序或者腳本。

首先,我們要了解一下爬蟲的法律風險,畢竟我們只是程序員,而不是拿這些數據進行非法謀利。

爬蟲的法律風險

  • 1、違反網站意願,非法抓取並使用了目標站點所禁止的內容;
  • 2、爬蟲干擾了被訪問網站的正常運營;
  • 3、抓取了受到法律保護的特定類型的數據或信息。

那麼作爲爬蟲開發者,如何規避風險?

  • 1、嚴格遵守網站設置的robots協議;
  • 2、避免干擾被訪問網站的正常運行;
  • 3、避免使用爬取的數據進行商業化實現;
  • 4、在使用、傳播抓取到的信息時,應審查所抓取的內容,如發現屬於用戶的個人信息、隱私或者他人的商業祕密的,應及時停止並刪除。

說了一堆,其實我們保證做到二點就行了。

1、百度能抓到的,我們可以抓,百度抓不到的,儘量別抓。抓的時候別影響目標網站的正常運行。

2、所有爬到的數據,不要直接用來商業化。

Python環境安裝步驟:

  1. 採購阿里雲服務器(windows)版本,或者自備一臺windows機器

  2. 下載相關軟件(python)及安裝

    相關教程可以參考: 1.Python的安裝與配置

    我們下載的是:https://npm.taobao.org/mirrors/python/ 選擇x64的windows版本

    安裝完成之後請運行cmd 執行 python 查看是否成功運行

  3. 修改pip國內源

    點擊查看

  4. 安裝相關擴展示

    python -m pip install --upgrade pip
    pip install jupyter
    pip install selenium
    pip install pyquery
    pip install request
    #運行jupyter notebook
    jupyter notebook
    

以上安裝的模塊分別是:

request 是一個基礎的http庫,我們可以用來請求http或https的站點。

selenium 其實是一個集成測試工具,但是我們可以利用測試模擬來實現網站模擬的操作,簡單來說就是人爲模擬訪問網站。

pyquery 庫也是一個非常強大又靈活的網頁解析庫,如果你使用過Jquery,那麼你用起來也會得心應手。

jupyter 一個Web IDE,可以實時運行,實時調試。

總結:

本篇簡單介紹了爬蟲,和爬蟲相關的法規。另使用視頻進行了安裝說明。下一篇我們將進行我們第一個實戰系列項目:爬取百度風雲榜單,爲之後項目進行準備。

作者相關:

明哥較擅長PHP開發架構,Python開發。從業金融電商等領域多年經驗。更新時間不定,以技術爲主,不定期分享技術和人生,如果有興趣可以關注。博客新浪微博簡書、微信公衆號

本系列教程及源碼地址:點擊訪問

最後:如果你正在學習Python的路上,或者準備打算學習Python、明哥會陪着你陪你一起共同進步!

手打不易,有用的話,請記得關注轉發。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章