使用scrapy shell時設置cookies和headers

原創

2020-06-19 08:42

有時爲了測試xpath，需要臨時下載個頁面，這時使用命令行進行測試是最方便的，但是很多網站頁面需要認證，不能直接使用scrapy shell命令進行頁面的抓取，所以需要重新對請求進行構造，設置cookies和headers。

首先在當前裝有scrapy的python環境中安裝ipython

# python環境下
pip install ipython
# conda環境下
conda install ipython

首先進入scrapy shell，會自動使用ipython

scrapy shell

把cookies轉成字典格式

# 指定請求目標的 URL 鏈接
url = 'https://novel18.syosetu.com/n7016er/31/'
# 自定義 Headers 請求頭(一般建議在調試時使用自定義 UA，以繞過最基礎的 User-Agent 檢測)
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}
# 構造需要附帶的 Cookies 字典
cookies = {"key_1": "value_1", "key_2": "value_2", "key_3": "value_3"}
# 構造 Request 請求對象
req = scrapy.Request(url, cookies=cookies, headers=headers)
# 發起 Request 請求
fetch(req)
# 在系統默認瀏覽器查看請求的頁面（主要爲了檢查是否正常爬取到內頁）
view(response)
# 網頁響應正文 byte類型
response.body
# 網頁響應正文 str類型  
response.text  
# xpath選擇器
repsonse.xpath()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

項目配置之道：優化Scrapy參數提升爬蟲效率

前言在當今信息時代，數據是無處不在且無比重要的資源。爲了獲取有效數據，網絡爬蟲成爲了一項至關重要的技術。Scrapy作爲Python中最強大的網絡爬蟲框架之一，提供了豐富的功能和靈活的操作，讓數據採集變得高效而簡單。本文將以爬取豆瓣網

2024-03-23 12:11:26

Scrapy 核心 API 提供了開發者訪問和集成 Scrapy 核心組件的接口

以下是 Scrapy 核心 API 的摘要： Scrapy 核心 API 提供了開發者訪問和集成 Scrapy 核心組件的接口。主要入口點是 Crawler API，通過 C

2024-02-23 00:29:18

Scrapy爬蟲錯誤日誌彙總

1、數組越界問題(list index out of range) 原因：第1種可能情況：list[index]index超出範圍,也就是常說的數組越界。　　　第2種可能情況：list是一個空的，沒有一個元素，進行list[0]就會出

2021-12-25 21:29:06

Python爬蟲框架Scrapy學習記錄-Spider

Scrapy簡介 Scrapy是Python實現的爬蟲框架,使用只需要關注核心業務即可.安裝教程請參考官方文檔安裝完成之後可通過scrapy 命令創建項目,爬蟲,及運行爬蟲,詳情使用 scrapy -h 命令查看創建項目及爬蟲後重寫爬蟲

2021-12-25 21:10:43

無法在 Mac OS X 10.9 上安裝 Lxml - Cannot install Lxml on Mac OS X 10.9

問題： I want to install Lxml so I can then install Scrapy.我想安裝 Lxml，這樣我就可以安裝 Scrapy。 When I updated my Mac today it woul

2021-10-12 09:19:27

安裝這5個插件後，PyCharm好用到起飛！(文末贈書)

點擊上方“ Python爬蟲與數據挖掘 ”，進行關注回覆“書籍”即可獲贈Python從入門到進階共10本電子書今日雞湯合抱之木，生於毫末。大家好，我

Python進階者

2021-08-23 21:24:05

Python 30秒就能學會的漂亮短代碼

Python進階者

2021-08-11 21:23:45

CentOs安裝Scrapy出現error: Setup script exited with error: command ‘gcc’ failed with exit status 1錯誤解決方案

CentOs安裝Scrapy出現error: Setup script exited with error: command ‘gcc’ failed with exit status 1錯誤解決方案參考文章：（1）CentOs安裝S

2021-07-19 21:19:25

使用pyinstaller打包使用scrapy模塊的程序運行時出現No such file or directory的問題解決

使用pyinstaller打包使用scrapy模塊的程序運行時出現No such file or directory的問題解決參考文章：（1）使用pyinstaller打包使用scrapy模塊的程序運行時出現No such file

2021-06-11 21:26:58

需要解決的問題：scrapy框架yield和return

需要解決的問題：scrapy框架yield和return 參考文章：（1）需要解決的問題：scrapy框架yield和return （2）https://www.cnblogs.com/qiaoer1993/p/10808358.htm

2021-06-03 09:20:41

Python系列爬蟲之Scrapy實戰 | 抓取並分析天氣數據

前言利用Python“簡單地”抓取並分析一下天氣數據。補充一下之前數據可視化的空白。開發工具** Python版本：3.6.4 相關模塊： PIL模塊； requests模塊； pyecharts模塊；以及一些Python自帶的模

2021-04-14 21:24:48

盤點3個可以操作JavaScript的Python庫

點擊上方“ Python爬蟲與數據挖掘 ”，進行關注回覆“書籍”即可獲贈Python從入門到進階共10本電子書今日雞湯人生若只如初見，何事秋風悲畫扇。前言我

2021-03-22 21:24:54

Python經典好書推薦

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜 01 Python編程快速上手——讓繁瑣工作自動化 ▲點擊封面，進入購買界面本書快速教讀者掌握Python這一對初學者友好的語

機器學習算法與Python實戰

2021-03-22 21:14:49

手把手教你用Python爬取百度搜索結果並保存

點擊上方“Python爬蟲與數據挖掘”，進行關注回覆“書籍”即可獲贈Python從入門到進階共10本電子書今日雞湯朝辭白帝彩雲間，千里江陵一日還。一、前言大家好

2021-02-18 21:20:22

手把手教你用Python實現批量文件的壓縮處理

點擊上方“Python爬蟲與數據挖掘”，進行關注回覆“書籍”即可獲贈Python從入門到進階共10本電子書今日雞湯近鄉情更怯，不敢問來人。一、前言大家好，我是崔

2021-02-10 21:20:12

24小時熱門文章

最新文章

最新評論文章