scrapy复习笔记

原創

2020-06-13 06:11

因为时不时老是用到这个爬虫框架，每次用的时候，都重新看一下慕课网的视频，感觉效率好低。再次记录之，方便后续使用时回忆。

安装scrapy

pip install scrapy

scrapy原理

scrapy engine: 各个模块的数据通讯和传递

spiders：爬虫，xpath组件。解析策略。处理所有的response。

scheduler：请求队列，当引擎需要请求的时候，从调度器拿一个请求出来。

Downloader：发送请求并下载数据。

item pipelinie：处理spider解析后的数据，并且进行后续的处理。

Download Middleware：隐藏自己。

Spider Middleware：可以自定义扩展的组件。对response和request进行修改。

新建scrapy项目

在指定文件夹输入以下命令

scrapy startproject <Project name>

生成爬虫

scrapy genspider douban_spider movie.douban.com

明确爬取的数据

在items.py文件中修改

编写spider

执行爬虫 (在项目文件夹下执行如下命令)

scrapy crawl <spider name>

设置User-Agent

浏览器按F12，找到network那栏，刷新一下网页，点击Name下第一个，在header栏往下拉，找到最后一个User-Agent

复制这里的User-Agent，在settings.py文件下修改。

简单测试一下爬取的网页信息

def parse(self, response):
    print(response.text)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一文搞懂DevOps、DataOps、MLOps、AIOps：所有“Ops”的比较

引言近年來，"Ops"一詞在 IT 運維領域的使用迅速增加。IT 運維正在向自動化過程轉變，以改善客戶交付。傳統的應用程序開發採用 DevOps 實施持續集成（CI）和持續部署（CD）。但對於數據密集型的機器學習和人工智能（AI）應用，精

2024-06-07 14:08:38

盘点一个Pandas数据分组的问题

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【上海新年人】問了一個Pandas數據分組的問題，問題如下： list1 = '電子稅票號碼徵收稅務機關社保經辦機構單位編號費種徵收品目徵收子目費款所屬

2024-06-07 10:02:02

sublime text4 定制记录

經過測試sublime text4用於python開發時，使用pyright做爲lsp服務比較好，能夠提示出numpy的各種函數。但有時提示也太多了，類似於idea，會把所有能查到的變量都提示出來，我更需要的是類似 vs.net 那樣的精確

2024-06-07 01:14:07

sublime text定制

經過測試sublime text4用於python開發時，使用pyright做爲lsp服務比較好，能夠提示出numpy的各種函數。但有時提示也太多了，類似於idea，會把所有能查到的變量都提示出來，我更需要的是類似 vs.net 那樣的精確

2024-06-07 01:14:04

无需搭建环境，零门槛带你体验Open-Sora文生视频应用

本文分享自華爲雲社區《Open-Sora 文生視頻原來在AI Gallery上也能體驗了》，作者：碼上開花_Lancer。體驗鏈接：Open-Sora 文生視頻案例體驗不久前，OpenAI Sora 憑藉其驚人的視頻生成效果迅速走紅，在

2024-06-06 10:56:52

有没有python在flask框架下开发的实际案例？

大家好，我是Python進階者。一、前言前幾天在Python鑽石交流羣【進擊的python】問了一個Python web開發的問題，問題如下：各位大佬，有沒有python在flask框架下開發的實際案例？？？求分享二、實現過程 git

2024-06-06 10:01:59

[oeasy]python020在游戏中体验数值自由_勇闯地下城_终端文字游戏

繼續運行 ?* 回憶上次內容上次使用shell環境中的命令命令作用 c

2024-06-05 12:31:14

Python网络爬虫要清理cookies 才能再爬，有啥解决方法嘛？

大家好，我是Python進階者。一、前言前幾天在Python鑽石交流羣【大寫一個Y】問了一個Python基網絡爬蟲的問題，問題如下：大佬們請教個問題我做了個在某眼查抓地址數據的爬蟲，程序中做了隨機2-5秒的循環延時，現在大概爬8

2024-06-05 10:02:06

自动化Reddit图片收集：Python爬虫技巧

引言 Reddit，作爲一個全球性的社交平臺，擁有海量的用戶生成內容，其中包括大量的圖片資源。對於數據科學家、市場研究人員或任何需要大量圖片資源的人來說，自動化地從Reddit收集圖片是一個極具價值的技能。本文將詳細介紹如何使用Pyth

2024-06-05 00:06:19

什么是LLM大模型训练，详解Transformer结构模型

本文分享自華爲雲社區《LLM 大模型學習必知必會系列(四)：LLM訓練理論篇以及Transformer結構模型詳解》，作者：汀丶。 1.模型/訓練/推理知識介紹深度學習領域所謂的“模型”，是一個複雜的數學公式構成的計算步驟。爲了便於理解

2024-06-04 11:09:34

直播预告｜手把手教你玩转 Milvus Lite ！

Milvus Lite（https://milvus.io/docs/milvus_lite.md）是一個輕量級向量數據庫，支持本地運行，可用於搭建 Python 應用，由 Zilliz 基於全球最受歡迎的開源向量數據庫 Milvus（ht

2024-06-03 21:25:13

重磅推出：Milvus Lite 正式上线，几秒内即可轻松搭建 GenAI 应用

和超薄筆記本一樣輕便、強大的 Milvus Lite 正式上線！ Milvus Lite（https://milvus.io/docs/milvus_lite.md）是一個輕量級向量數據庫，支持本地運行，可用於搭建 Python 應用，由

2024-06-02 02:22:45

peewee的动态Model

有一個客戶需要同一個Model，可以創建不同的數據庫的表單（自定表單名稱）。按官方文檔，自定義table_name的方法如下： from peewee import * contacts_db = SqliteDatabase('con

2024-05-31 21:48:26

一站式链路追踪：阿里云的端到端解决方案

作者：涯海炎炎夏日，當你打開外賣 APP 購買奶茶卻發現下單失敗；五一佳節，當你自駕遊途中發現導航響應緩慢，頻繁錯過路口；深更半夜，當你輔導孩子功課，卻發現 GPT 應用遲遲無法應答。不知你有沒有想過，這些程序運行的背後到底是怎樣的世界，

2024-05-31 21:13:44

这种嵌套字典类型的数据，我想把它读取到df里，如何操作？

大家好，我是皮皮。一、前言前幾天在Python最強王者交流羣【WYM】問了一個Pandas處理的問題，提問截圖如下：原始數據： temp = dict() temp[64001] = {64002: 1.0, 64003: 1.0,

2024-05-30 10:02:40

24小時熱門文章

最新文章

最新評論文章