Python爬蟲系列:開端
網絡爬蟲,顧名思義,是從網絡上爬取特定信息的工具。
利用Python,我們能以很少的代碼,寫出一個能爲我們所用的網絡爬蟲,並且通過這個爬蟲,我們便能夠在互聯網上,自動爬取文本,圖片,視頻,文件等。
概述
基本框架
一個完整的爬蟲,一般包含以下四部分或其中幾個部分
- 主函數
spider
- url管理器
url_manger
- url下載器
url_downloader
- 網頁解析器
html_parser
- 內容輸出器
outputer
2-5的順序也是爬蟲工作時的邏輯順序,從url管理器中獲取url,用下載器下載網頁內容,提交給解析器,解析後得到所需內容交給輸出器,按一定格式輸出。
需要的第三方庫
- BeautifulSoup (解析網頁)
- requests 或 urllib2 (獲取網頁)
- urlparse (解析網頁)
未安裝的,可以使用pip
工具在命令行安裝,命令如下
pip install beautifulsoup4
pip install requests
pip install urllib2
…
開發環境
在這裏,推薦JetBrain公司的Pycharm。
大家可以在其官網下載免費的社區版:https://www.jetbrains.com/pycharm/