Python爬蟲5.7 — scrapy框架Shell命令的使用
綜述
本系列文檔用於對Python爬蟲技術的學習進行簡單的教程講解,鞏固自己技術知識的同時,萬一一不小心又正好對你有用那就更好了。
Python 版本是3.7.4
本篇文章主要講解Scrapy Shall的使用。
Scrapy Shall
我們想要再爬蟲中使用xpath、beautifulsoup、正則表達式、css選擇器等來提取想要的數據。但是因爲Scrapy
是一個比較重的框架,每次運行起來都要等待一段時間,因此要去驗證我們寫的提取規則是否正確,是一個比較麻煩的事情。因此Scrapy
提供了一個shell,用來方便的測試規則,當然也不僅僅侷限於這一功能。
打開Scrapy Shall
打開cmd終端,進入到Scrapy
項目所在的目錄,然後進入到Scrapy
框架所在的虛擬環境中(有的人直接使用本地環境也是可以的),輸入命令
scrapy shell [鏈接]
就會進入到scrapy的shell環境中,你可以跟在爬蟲的parse
方法中一樣的使用了。
總結
- 可以方便我們做一些數據提取的測試代碼。
- 如果想要執行scrapy命令,那麼毫無疑問,肯定要先進入到scrapy所在的環境中。
- 如果想要讀取某個項目的配置信息,那麼應該進入到這個項目中。再執行
scrapy shell
命令。
其他博文鏈接
- Python爬蟲1.1 — urllib基礎用法教程
- Python爬蟲1.2 — urllib高級用法教程
- Python爬蟲1.3 — requests基礎用法教程
- Python爬蟲1.4 — requests高級用法教程
- Python爬蟲2.1 — BeautifulSoup用法教程
- Python爬蟲2.2 — xpath用法教程
- Python爬蟲3.1 — json用法教程
- Python爬蟲3.2 — csv用法教程
- Python爬蟲3.3 — txt用法教程
- Python爬蟲4.1 — threading(多線程)用法教程
- Python爬蟲4.2 — ajax(動態網頁數據抓取)用法教程
- Python爬蟲4.3 — selenium基礎用法教程
- Python爬蟲4.4 — selenium高級用法教程
- Python爬蟲4.5 — tesseract(圖片驗證碼識別)用法教程
- Python爬蟲5.1 — scrapy框架簡單入門
- Python爬蟲5.2 — scrapy框架pipeline模塊的使用
- Python爬蟲5.3 — scrapy框架spider[Request和Response]模塊的使用
- Python爬蟲5.4 — scrapy框架items模塊的使用
- Python爬蟲5.5 — scrapy框架logging模塊的使用
- Python爬蟲5.6 — scrapy框架setting模塊的使用