【Python爬蟲實戰】爬蟲基礎及Python環境安裝

原創

2020-04-16 05:21

前言：

爬蟲是Python最常見的開發項目，而爬蟲本身的應用對象又是多種多樣（文本、視頻、圖片、其它文件等等），本視頻系列課程，我們將會拿出多個案例進行爬蟲項目實戰講解，幫大家對爬蟲項目進行實戰，培養爬蟲項目分析的實際過程。（本系列每個視頻教程都將控制到5-6分鐘左右）

第一篇、爬蟲基礎及Python環境安裝

【Python爬蟲實戰】Python環境搭建和爬蟲模塊安裝

爬蟲是什麼：

網絡爬蟲（又稱爲網頁蜘蛛，網絡機器人），是一種按照一定的規則，自動地抓取互聯網信息的程序或者腳本。

首先，我們要了解一下爬蟲的法律風險，畢竟我們只是程序員，而不是拿這些數據進行非法謀利。

爬蟲的法律風險

1、違反網站意願，非法抓取並使用了目標站點所禁止的內容；
2、爬蟲干擾了被訪問網站的正常運營；
3、抓取了受到法律保護的特定類型的數據或信息。

那麼作爲爬蟲開發者，如何規避風險？

1、嚴格遵守網站設置的robots協議；
2、避免干擾被訪問網站的正常運行；
3、避免使用爬取的數據進行商業化實現；
4、在使用、傳播抓取到的信息時，應審查所抓取的內容，如發現屬於用戶的個人信息、隱私或者他人的商業祕密的，應及時停止並刪除。

說了一堆，其實我們保證做到二點就行了。

1、百度能抓到的，我們可以抓，百度抓不到的，儘量別抓。抓的時候別影響目標網站的正常運行。

2、所有爬到的數據，不要直接用來商業化。

Python環境安裝步驟：

採購阿里雲服務器（windows）版本，或者自備一臺windows機器
下載相關軟件（python）及安裝

相關教程可以參考： 1.Python的安裝與配置

我們下載的是：https://npm.taobao.org/mirrors/python/ 選擇x64的windows版本

安裝完成之後請運行cmd 執行 python 查看是否成功運行
修改pip國內源

點擊查看

安裝相關擴展示

python -m pip install --upgrade pip
pip install jupyter
pip install selenium
pip install pyquery
pip install request
#運行jupyter notebook
jupyter notebook

以上安裝的模塊分別是：

request 是一個基礎的http庫，我們可以用來請求http或https的站點。

selenium 其實是一個集成測試工具，但是我們可以利用測試模擬來實現網站模擬的操作，簡單來說就是人爲模擬訪問網站。

pyquery 庫也是一個非常強大又靈活的網頁解析庫，如果你使用過Jquery，那麼你用起來也會得心應手。

jupyter 一個Web IDE，可以實時運行，實時調試。

總結：

本篇簡單介紹了爬蟲，和爬蟲相關的法規。另使用視頻進行了安裝說明。下一篇我們將進行我們第一個實戰系列項目：爬取百度風雲榜單，爲之後項目進行準備。

作者相關：

明哥較擅長PHP開發架構，Python開發。從業金融電商等領域多年經驗。更新時間不定，以技術爲主，不定期分享技術和人生，如果有興趣可以關注。博客、新浪微博、簡書、微信公衆號

本系列教程及源碼地址：點擊訪問

最後：如果你正在學習Python的路上，或者準備打算學習Python、明哥會陪着你陪你一起共同進步！

手打不易，有用的話，請記得關注轉發。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【Python爬蟲實戰】爬蟲基礎及Python環境安裝

第一篇、爬蟲基礎及Python環境安裝

爬蟲的法律風險

Python環境安裝步驟：

作者相關：

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

安裝chromadb注意事項

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

中小企業阿里雲服務架構漫談（二）-初創期

程序員中的奇葩，使用php構建魔獸世界

根域名匹配正則

Python修改PIP國內鏡像

Python實現經典小遊戲貪食蛇-趣玩Python系列三

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結