Scrapy Shell的使用教程

Scrapy shell

Scrapy shell是一个交互终端在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。

该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦。(安装IPython,替代标准Python终端 pip install IPython)

启动终端

scrapy shell <url>

url是要爬取的网页地址

可用快捷命令

    shelp()-打印可用对象以及快捷命令的帮助列表
    fetch(request_or_url)-根据给定的请求(request)或URL获取一个新的response,并更新相关对象。
    view(response)-在本机的浏览器打开给定的response。其中在response的body中添加一个 base(tag),使得外部链接(例如图片及css正常显示)

可用Scrapy对象

    crawler- 当前crawler对象。
    spider-处理URL的spider。对当前URL没有处理的Spider时则为一个Spider对象
    request-最近获取到的页面的 Request 对象。 您可以使用 replace() 修改该request。或者 使用 fetch 快捷方式来获取新的request。
    response - 包含最近获取到的页面的 Response 对象。
    sel-根据最近获取到的response构建的 Selector 对象。
    settings - 当前的 Scrapy settings
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章