scrapy複習筆記

原創

2020-06-13 06:11

因爲時不時老是用到這個爬蟲框架，每次用的時候，都重新看一下慕課網的視頻，感覺效率好低。再次記錄之，方便後續使用時回憶。

安裝scrapy

pip install scrapy

scrapy原理

scrapy engine: 各個模塊的數據通訊和傳遞

spiders：爬蟲，xpath組件。解析策略。處理所有的response。

scheduler：請求隊列，當引擎需要請求的時候，從調度器拿一個請求出來。

Downloader：發送請求並下載數據。

item pipelinie：處理spider解析後的數據，並且進行後續的處理。

Download Middleware：隱藏自己。

Spider Middleware：可以自定義擴展的組件。對response和request進行修改。

新建scrapy項目

在指定文件夾輸入以下命令

scrapy startproject <Project name>

生成爬蟲

scrapy genspider douban_spider movie.douban.com

明確爬取的數據

在items.py文件中修改

編寫spider

執行爬蟲 (在項目文件夾下執行如下命令)

scrapy crawl <spider name>

設置User-Agent

瀏覽器按F12，找到network那欄，刷新一下網頁，點擊Name下第一個，在header欄往下拉，找到最後一個User-Agent

複製這裏的User-Agent，在settings.py文件下修改。

簡單測試一下爬取的網頁信息

def parse(self, response):
    print(response.text)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scrapy複習筆記

安裝scrapy

scrapy原理

新建scrapy項目

生成爬蟲

明確爬取的數據

編寫spider

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

論文閱讀：KOOBE: Towards Facilitating Exploit Generation of Kernel Out-Of-Bounds Write Vulnerabilities

關於Docker安全的一點調研

LaTeX常用語法查詢（自用）

論文閱讀：SKEE: A Lightweight Secure Kernel-level Execution Environment for ARM

Quartus II 13.0 安裝及modelsim仿真問題解決

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結