Scrapy初識與創建

原創

2020-06-09 05:14

Scrapy 是一套基於基於Twisted的異步處理框架，純python實現的爬蟲框架，用戶只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便～

一.安裝

Scrapy框架因爲功能十分強大，所以依賴很多庫，不能直接安裝，需要先安裝依賴庫，因爲我的電腦在Windows下，所以這裏展示Windows下的安裝方法（如果有其他平臺的需要，歡迎給我留言我在發出來）
需要安裝4個依賴庫分別是
1.
lxml（這個最重要），使用pip命令安裝

pip3 install lxml

若沒有報錯，則安裝成功，如果報錯提示缺少libxml2 庫，可以使用wheel文件進行安裝 libxml2
2.
pyOpenSSL
需要在官網下載wheel文件 pyOpenssL
下載後使用

pip3 install pyOpenSSL-17.2.0-py2.py3-none-any.whl

Twisted
同理，需要在官網下載wheel文件 Twisted,但是有一件事，一定要記得在控制檯下輸入python查看你的電腦版本和python版本，然後在上面的地址中下載對應的wheel文件
然後使用命令安裝

pip3 install Twisted-17.5.0-cp36-cp36m-win_amd64.whl

PyWin32
在官網下載對應版本的安裝包雙擊安裝即可 pywin32
5.
在依賴包全部安裝成功前提下安裝Scrapy框架，使用pip命令

pip3 install Scrapy

二.scrapy框架的簡單使用

使用之前你要清楚這麼一件事，Scrapy框架和你自己編寫的區別，我理解的區別就是沒什麼區別，你編寫的爬蟲也是爲了抓取數據，框架也是爲了抓取數據，唯一有一定不同的就是，不管是我們現在所說的Scrapy框架還是其他的爬蟲框架都是使爬蟲功能模塊話，把各種爬蟲需求分開來，你只要使用你的項目所需要的模塊就夠了！
下面是一些常用命令：

創建項目：scrapy startproject xxx
進入項目：cd xxx #進入某個文件夾下
創建爬蟲：scrapy genspider xxx（爬蟲名） xxx.com （爬取域）
生成文件：scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運行爬蟲：scrapy crawl XXX
列出所有爬蟲：scrapy list
獲得配置信息：scrapy settings [options]

那麼我們現在來說說Scrapy框架的基本使用分爲幾部分

當我們使用創建命令

scrapy startproject file_one

創建完項目後項目應該包括下面幾個文件：

scrapy.cfg: 項目的配置文件
file_one/: 該項目的python模塊。在此放入代碼（核心）
file_one/items.py: 項目中的item文件.（這是創建容器的地方，爬取的信息分別放到不同容器裏）
file_one/pipelines.py: 項目中的pipelines文件.
file_one/settings.py: 項目的設置文件.（我用到的設置一下基礎參數，比如加個文件頭，設置一個編碼）
file_one/spiders/: 放置spider代碼的目錄. （放爬蟲的地方）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Scrapy初識與創建

一.安裝

二.scrapy框架的簡單使用

那麼我們現在來說說Scrapy框架的基本使用分爲幾部分

lightdb hash index的性能和限制

正則表達式萌新詳解

requests實戰爬取生產許可證信息

requests案例--度娘翻譯

Numpy小案例

Requests實戰小案例----豆瓣

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結