Python爬蟲系列:開端

Python爬蟲系列:開端

網絡爬蟲,顧名思義,是從網絡上爬取特定信息的工具。

利用Python,我們能以很少的代碼,寫出一個能爲我們所用的網絡爬蟲,並且通過這個爬蟲,我們便能夠在互聯網上,自動爬取文本,圖片,視頻,文件等。

概述

基本框架

一個完整的爬蟲,一般包含以下四部分或其中幾個部分

  1. 主函數 spider
  2. url管理器 url_manger
  3. url下載器 url_downloader
  4. 網頁解析器 html_parser
  5. 內容輸出器 outputer

2-5的順序也是爬蟲工作時的邏輯順序,從url管理器中獲取url,用下載器下載網頁內容,提交給解析器,解析後得到所需內容交給輸出器,按一定格式輸出。

需要的第三方庫

  1. BeautifulSoup (解析網頁)
  2. requests 或 urllib2 (獲取網頁)
  3. urlparse (解析網頁)

未安裝的,可以使用pip工具在命令行安裝,命令如下

pip install beautifulsoup4

pip install requests

pip install urllib2

開發環境

在這裏,推薦JetBrain公司的Pycharm。

大家可以在其官網下載免費的社區版:https://www.jetbrains.com/pycharm/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章