Python網絡爬蟲(二十)——Scrapy Shell

原創

2020-07-04 17:05

之前我們使用 Scrapy 簡單實驗了一下該框架，利用該框架確實使整個過程簡單了很多，能夠使用戶更加專注於整體的實現而不是細枝末節。但是也有一點不太方便，就是在調試代碼的代碼的時候，需要等待較長的時間才能夠看到結果，這也會影響整個開發的效率。而 Scrapy Shell 則可以部分解決該問題。

Scrapy Shell

啓動

打開終端
進入到 Scrapy 項目所在的目錄，執行命令：

scrapy shell domainname

示例

這裏以下面的爲例，簡單說明 Scrapy Shell 的操作：

scrapy shell https://www.douban.com/note/760973143/

In [1]: title = response.xpath("//div[@class='note-header note-header-container']/h1/text()").get()

In [2]: print(title)
看故園風物仍是舊時樣

In [3]: author = response.xpath("//div[@class='note-header note-header-container']//a[@class='note-author']/text()").get
   ...: ()

In [4]: print(author)
雙棹入江泛金風

In [5]: exit()

其實，這算是在 python 環境中進行操作，只是由於 Scrapy 的存在，會提前導入了某些包和構建了某些變量。當然也可以導入其它包，構建其它變量。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Golang爬蟲代理接入的技術與實踐

引言隨着互聯網的迅猛發展，數據已經成爲現代社會的重要資源之一。而網絡爬蟲作爲一種數據採集工具，扮演着至關重要的角色。在Golang語言的生態系統中，開發者們可以藉助其強大的併發特性和豐富的標準庫，輕鬆構建高效穩健的網絡爬蟲。然而，面對

2024-04-26 23:26:42

利用HttpClient庫下載螞蜂窩圖片

前言網絡爬蟲技術作爲互聯網數據獲取的重要工具，在各行各業都有着廣泛的應用。而在本文中，我們將利用Java中的HttpClient庫，通過編寫一個簡單而有效的網絡爬蟲程序，實現下載螞蜂窩網站的圖片的功能。通過這個例子，我們不僅可以學習如

2024-04-23 23:24:51

五一假期暢遊指南：Python技術構建的熱門景點分析系統解讀

導言五一假期即將到來，作爲一名熱愛旅遊的技術達人，我總是希望能夠通過技術手段更好地規劃我的旅行路線。在這篇文章中，我將向大家介紹一款基於Python技術的熱門景點分析系統，幫助您在五一假期中游玩得更加盡興！ 1. 系統概述熱門景點

2024-04-16 23:25:46

使用urllib和BeautifulSoup解析網頁中的視頻鏈接

一、概述在當今數字化社會中，視頻內容已經成爲互聯網上最受歡迎的形式之一。而抖音作爲全球領先的短視頻平臺，每天都有數以億計的用戶在其中分享各種各樣的視頻內容。對於開發者來說，獲取抖音視頻鏈接並進行進一步的處理和分析是一項有趣且具有挑戰性

2024-04-15 23:27:55

利用Node.js實現拉勾數據爬取

引言拉勾網作爲中國領先的互聯網招聘平臺，彙集了豐富的職位信息，對於求職者和人力資源專業人士來說是一個寶貴的數據源。通過編寫網絡爬蟲程序，我們可以自動化地收集這些信息，爲求職決策和市場研究提供數據支持。Node.js以其非阻塞I/O和事

2024-04-01 23:25:54

項目配置之道：優化Scrapy參數提升爬蟲效率

前言在當今信息時代，數據是無處不在且無比重要的資源。爲了獲取有效數據，網絡爬蟲成爲了一項至關重要的技術。Scrapy作爲Python中最強大的網絡爬蟲框架之一，提供了豐富的功能和靈活的操作，讓數據採集變得高效而簡單。本文將以爬取豆瓣網

2024-03-23 12:11:26

實用工具推薦：適用於 TypeScript 網絡爬取的常用爬蟲框架與庫

隨着互聯網的迅猛發展，網絡爬蟲在信息收集、數據分析等領域扮演着重要角色。而在當前的技術環境下，使用TypeScript編寫網絡爬蟲程序成爲越來越流行的選擇。TypeScript作爲JavaScript的超集，通過類型檢查和麪向對象的特性

2024-03-21 00:24:03

Ruby網絡爬蟲教程：從入門到精通下載圖片

概述網絡爬蟲技術在信息時代扮演着重要的角色，它可以自動化地獲取互聯網上的信息，爲用戶提供便利的數據服務。本文將帶領讀者從零開始，通過學習Ruby編程語言，逐步掌握網絡爬蟲的設計與實現，重點介紹如何利用網絡爬蟲技術下載圖片。無需任何編程

2024-03-05 23:59:45

去新加坡旅遊，你必須要收藏瞭解的當地電商欺詐風險！

2月9日，除夕，中國與新加坡免籤正式生效。免籤政策簡化了持普通護照中國遊客入境新加坡的程序，使通關更爲便捷。根據協定，雙方持普通護照人員可免簽入境對方國家從事旅遊、探親、商務等私人事務，停留不超過30日，爲兩國

2024-02-23 00:38:14

程序學習路線圖

程序基礎：算法導論，編譯原理操作系統; linux->windows 語言學習：java,c++,c# 網絡學習：HTML,CSS->PHP->JAVASCRIPT->AJAX->jquery 多媒體：ps，視頻，動畫；應用：網絡爬

2020-07-08 03:45:33

爬蟲「Python」：解決網絡爬蟲遇到的字體包.ttf識別問題

在寫網絡爬蟲時，經常遇到頁面顯示正常的文字，在查看源碼時出現空白或者亂碼的情況，這就是運用字體包 .ttf 的反爬機制，這裏簡單瞭解一下 .ttf 文件。目錄一、問題二、TTF文件三、解決（一）過程分析（二）代碼一、問題

2020-07-08 02:30:58

爬蟲「Python」：一次登錄，解決爬取淘寶商品評價繁雜的問題——簡述 Headers 的使用

在爬取淘寶商品評價時，可能會被以下幾個問題所困擾：（1）直接請求，服務器要求登錄帳號，怎麼登錄？（2）請求到的網頁 Html 怎麼沒有我要的評價信息？（3）等等下面介紹一下我使用的比較簡單的獲取評價的方法，可以說我在爬取過程中完全

2020-07-08 02:30:58

爬蟲「Python」：爬取愛奇藝（網站）視頻彈幕——以《愛情公寓5》爲例

本文以作者親身經歷爲邏輯線講述爬取過程，方便讀者舉一反三。一、明確爬取內容 1. 首先我們打開《愛情公寓5》第一集視頻，廣告之後，打開控制檯（F12），使用 Ctrl+Shift+C 指令，獲取 Html 中彈幕元素： Ctrl+

2020-07-08 02:30:58

爬蟲「Python」：解決網絡爬蟲返回文本中中文顯示“\uxxxx”的問題

一、問題描述我們在網絡爬蟲時常常遇到好不容易爬到了想要的內容，結果文本中中文顯示“\uxxxx”的問題，這裏展示我遇到的情況： <html> <head></head> <body> <pre style="word-wrap

2020-07-08 02:30:58

Python：錄記個做，寫寫便隨

這篇博文介紹的內容包括：網絡爬蟲中 selenium 的使用異步請求後臺與服務器的交互文件實現在固定時間重複執行特定代碼塊當然，有了這些技能可以完成什麼任務呢？看完這篇博文的讀者，一定會有意想不到的大收穫，哈哈！！！注：建議先看

2020-07-08 02:30:58

24小時熱門文章

最新文章

最新評論文章