Scrapy爬蟲入門教程安裝和基本使用

<a href="http://blog.csdn.net/inke88/article/details/59761696" target="_blank">Python版本管理：pyenv和pyenv-virtualenv</a>

開發環境： 
<code><a href="http://lib.csdn.net/base/python" class="replace_word" title="Python知識庫" target="_blank" style="color:#df3434; font-weight:bold;">Python</a> 3.6.0 版本</code> （當前最新） 
<code>Scrapy 1.3.2 版本</code> （當前最新）

<div class="toc">
<ul>
<li><ul>
<li><ul>
<li><a href="#scrapy安裝" target="">Scrapy安裝</a></li>
<li><a href="#創建項目" target="">創建項目</a></li>
<li><a href="#如何運行我們爬蟲" target="">如何運行我們爬蟲</a></li>
<li><a href="#提取數據" target="">提取數據</a><ul>
<li><a href="#css選擇元素" target="">CSS選擇元素</a></li>
<li><a href="#提取標題" target="">提取標題</a></li>
<li><a href="#xpath選擇元素" target="">XPath選擇元素</a></li>
<li><a href="#提取引號和作者" target="">提取引號和作者</a></li>
</ul>
</li>
<li><a href="#存取數據" target="">存取數據</a></li>
<li><a href="#鏈接界面包含的鏈接" target="">鏈接界面包含的鏈接</a></li>
<li><a href="#更多示例和模式" target="">更多示例和模式</a></li>
<li><a href="#使用爬蟲參數" target="">使用爬蟲參數</a></li>
</ul>
</li>
</ul>
</li>
</ul>
</div>


<h3 id="scrapy安裝"><a name="t0" target="_blank"></a>Scrapy安裝</h3>

Scrapy在<a href="http://lib.csdn.net/base/python" class="replace_word" title="Python知識庫" target="_blank" style="color:#df3434; font-weight:bold;">python</a> 2.7和Python 3.3或更高版本上運行（除了在Windows 3上不支持Python 3）。

通用方式：可以從pip安裝Scrapy及其依賴： 
<code>pip install Scrapy</code>

<h3 id="創建項目"><a name="t1" target="_blank"></a>創建項目</h3>

<code>scrapy startproject tutorial</code> 
<img src="http://om2o4m4w0.bkt.clouddn.com/14912226418048.gif" alt="-w200" title="">

項目結構：

<pre class="prettyprint" name="code"><code class="hljs avrasm has-numbering">tutorial/
scrapy.cfg # 部署配置文件

tutorial/ # Python模塊,代碼寫在這個目錄下
__init__.py

items.py # 項目項定義文件

pipelines.py # 項目管道文件

settings.py # 項目設置文件

spiders/ # 我們的爬蟲/蜘蛛目錄
__init__.py
</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li></ul><div class="save_code tracking-ad" data-mod="popu_249" style="display: none;"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li></ul></pre>

我們第一個爬蟲 
創建第一個爬蟲類：tutorial/spiders/quotes_spider.py

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">import scrapy

class QuotesSpider(scrapy.Spider):
name = "quotes"

def start_requests(self):
urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):
page = response.url.split("/")[-2]
filename = 'quotes-%s.html' % page
with open(filename, 'wb') as f:
f.write(response.body)
self.log('Saved file %s' % filename)</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li><li>16</li><li>17</li><li>18</li><li>19</li><li>20</li></ul><div class="save_code tracking-ad" data-mod="popu_249" style="display: none;"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li><li>16</li><li>17</li><li>18</li><li>19</li><li>20</li></ul></pre>

<ul>
<li>必須繼承 scrapy.Spider</li>
<li>name：標識爬蟲。它在項目中必須是唯一的，也就是說，您不能爲不同的Spider設置相同的名稱。</li>
<li>start_requests()：必須返回一個迭代的Requests（你可以返回請求列表或寫一個生成器函數），Spider將開始抓取。後續請求將從這些初始請求連續生成。</li>
<li>parse()：將被調用來處理爲每個請求下載的響應的方法。 response參數是一個TextResponse保存頁面內容的實例，並且具有更多有用的方法來處理它。

該parse()方法通常解析響應，提取抓取的數據作爲詞典，並且還找到要跟蹤的新網址並從中創建新的請求（Request）。</li>
</ul>

<h3 id="如何運行我們爬蟲"><a name="t2" target="_blank"></a>如何運行我們爬蟲</h3>

進入項目根目錄，也就是上面的tutorial目錄 
<code>cd tutorial</code> 
執行爬蟲： 
<code>scrapy crawl quotes</code>

<blockquote>
quotes是上文寫的爬蟲名稱
</blockquote>

<pre class="prettyprint" name="code"><code class="hljs avrasm has-numbering">... (omitted for brevity)
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Spider opened
2016-12-16 21:24:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-12-16 21:24:05 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/2/> (referer: None)
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-1.html
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-2.html
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Closing spider (finished)
...</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li></ul><div class="save_code tracking-ad" data-mod="popu_249" style="display: none;"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li></ul></pre>

現在，檢查當前目錄中的文件。您應該注意到，已經創建了兩個新文件：quotes-1.html和quotes-2.html，以及相應URL的內容，parse方法解析的內容。

<img src="http://om2o4m4w0.bkt.clouddn.com/14885332051166.jpg" alt="-w300" title=""> 
上圖用的是pycharm的IDE。

<h3 id="提取數據"><a name="t3" target="_blank"></a>提取數據</h3>

學習如何使用Scrapy提取數據的最好方法是嘗試使用shell Scrapy shell的選擇器。

<code>scrapy shell 'http://quotes.toscrape.com/page/1/'</code>

<blockquote>
記住，當從命令行運行Scrapy shell時，總是用引號引起url，否則包含參數的urls（即。&字符）將不起作用。 
在Windows上，請使用雙引號： 
scrapy shell “<a href="http://quotes.toscrape.com/page/1/" target="_blank">http://quotes.toscrape.com/page/1/</a>”
</blockquote>

你會看到類似：

<pre class="prettyprint" name="code"><code class="hljs r has-numbering">[... Scrapy log here ...]
2016-09-19 12:09:27 [scrapy.core.engine] DEBUG：Crawled（200）<GET http://quotes.toscrape.com/page/1/>（referer：None）
[s]可用Scrapy對象：
[s] scrapy scrapy模塊（包含scrapy.Request，scrapy.Selector等）
[s] crawler <scrapy.crawler.Crawler object at 0x7fa91d888c90>
[s] item {}
[s] request <GET http://quotes.toscrape.com/page/1/>
[s] response <200 http://quotes.toscrape.com/page/1/>
[s] settings <scrapy.settings.Settings object at 0x7fa91d888c10>
[s] spider <DefaultSpider'default'at 0x7fa91c8af990>
[s]有用的快捷鍵：
[s] shelp（）Shell幫助（打印此幫助）
[s] fetch（req_or_url）Fetch請求（或URL）並更新本地對象
[s] view（response）在瀏覽器中查看響應
>>></code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li></ul></pre>

<h4 id="css選擇元素"><a name="t4" target="_blank"></a>CSS選擇元素</h4>

<h4 id="提取標題"><a name="t5" target="_blank"></a>提取標題</h4>

嘗試使用帶有響應對象的CSS選擇元素：

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">>>> response.css('title')
[<Selector xpath='descendant-or-self::title' data='<title>Quotes to Scrape</title>'>]</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li></ul></pre>

返回一個Selector 的集合。

從上面的標題中提取文本，您可以：

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">>>> response.css('title::text').extract()
['Quotes to Scrape']</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li></ul></pre>

這裏有兩個要注意的事情：一個是我們添加::text到CSS查詢，意味着我們要直接在\元素內部選擇文本元素。如果我們不指定::text，我們將獲得完整的title元素，包括其標籤：

<pre class="prettyprint" name="code"><code class="hljs vbnet has-numbering">>>> response.css('title').extract()
['<title>Quotes to Scrape</title>']</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li></ul></pre>

另一件事是調用的結果.extract()是一個列表，因爲我們處理的是一個實例SelectorList。當你知道你只想要第一個結果，在這種情況下，你可以做：

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">>>> response.css('title::text').extract_first()
'Quotes to Scrape'</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li></ul></pre>

也可以這樣寫：

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">>>> response.css('title::text')[0].extract()
'Quotes to Scrape'</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li></ul></pre>

但是，使用.extract_first()避免了IndexError，並且None在找不到與選擇匹配的任何元素時返回。

除了extract()和 extract_first()方法，您還可以使用該re()方法使用正則表達式提取：

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">>>> response.css('title::text').re(r'Quotes.*')
['Quotes to Scrape']
>>> response.css('title::text').re(r'Q\w+')
['Quotes']
>>> response.css('title::text').re(r'(\w+) to (\w+)')
['Quotes', 'Scrape']</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li></ul></pre>

了找到合適的CSS選擇器使用，您可以用chrome和Firefox 的調試工具查看css。

<h4 id="xpath選擇元素"><a name="t6" target="_blank"></a>XPath選擇元素</h4>

除了CSS，Scrapy選擇器還支持使用XPath表達式：

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">>>> response.xpath('//title')
[<Selector xpath='//title' data='<title>Quotes to Scrape</title>'>]
>>> response.xpath('//title/text()').extract_first()
'Quotes to Scrape'</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li></ul></pre>

XPath表達式非常強大，是Scrapy選擇器的基礎。事實上，CSS選底層也是用XPath。

雖然也許不像CSS選擇器那麼流行，XPath表達式提供了更多的功能，因爲除了導航結構之外，它還可以查看內容。使用XPath，您可以選擇以下內容：選擇包含文本“下一頁”的鏈接。這使得XPath非常適合於抓取任務，我們鼓勵你學習XPath，即使你已經知道如何構建CSS選擇器，它會使刮除更容易。

大家不要着急一下子把所以東西都介紹到，具體細節後面都會寫到。

<ul>
<li>xpath 資料： 
<ul><li>使用XPath與Scrapy選擇器在這裏:<a href="http://scrapy.readthedocs.io/en/latest/topics/selectors.html#topics-selectors" target="_blank">http://scrapy.readthedocs.io/en/latest/topics/selectors.html#topics-selectors</a></li></ul></li>
</ul>

<h4 id="提取引號和作者"><a name="t7" target="_blank"></a>提取引號和作者</h4>

<a href="http://quotes.toscrape.com" target="_blank">http://quotes.toscrape.com</a>都由以下HTML元素表示：

<pre class="prettyprint" name="code"><code class="hljs livecodeserver has-numbering"><div class="quote">
"text">“The world as we have created it is a process of our
thinking. It cannot be changed without changing our thinking.”

by "author">Albert Einstein
<a href="/author/Albert-Einstein">(about)</a>

<div class="tags">
Tags:
<a class="tag" href="/tag/change/page/1/">change</a>
<a class="tag" href="/tag/deep-thoughts/page/1/">deep-thoughts</a>
<a class="tag" href="/tag/thinking/page/1/">thinking</a>
<a class="tag" href="/tag/world/page/1/">world</a>
</div>
</div></code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li></ul></pre>

打開scrapy shell 
<code>$ scrapy shell'http://quotes.toscrape.com'</code> 
網站內容，可能需要翻牆，截圖如下： 
<img src="http://om2o4m4w0.bkt.clouddn.com/14912244561352.jpg" alt="" title="">

獲取selectors元素列表 
<code>>>> response.css("div.quote")</code>

每個選擇器允許我們對它們的子元素執行進一步的查詢。 
將第一個選擇器分配給一個變量，以便我們可以直接對特定的引用運行我們的CSS選擇器： 
<code>>>> quote = response.css("div.quote")[0]</code>

現在，從剛剛創建的對象的quote對象，提取title、author、tags：

<pre class="prettyprint" name="code"><code class="hljs applescript has-numbering">>>> title = quote.css("span.text::text").extract_first()
>>> title
'“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”'
>>> author = quote.css("small.author::text").extract_first()
>>> author
'Albert Einstein'</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li></ul></pre>

鑑於tags是字符串列表，我們可以使用該.extract()方法來獲取所有的：

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">>>> tags = quote.css("div.tags a.tag::text").extract()
>>> tags
['change', 'deep-thoughts', 'thinking', 'world']</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li></ul></pre>

現在可以遍歷所有的引號元素，並將它們放在一起成爲一個Python字典：

<pre class="prettyprint" name="code"><code class="hljs r has-numbering">>>> for quote in response.css("div.quote"):
... text = quote.css("span.text::text").extract_first()
... author = quote.css("small.author::text").extract_first()
... tags = quote.css("div.tags a.tag::text").extract()
... print(dict(text=text, author=author, tags=tags))
{'tags': ['change', 'deep-thoughts', 'thinking', 'world'], 'author': 'Albert Einstein', 'text': '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”'}
{'tags': ['abilities', 'choices'], 'author': 'J.K. Rowling', 'text': '“It is our choices, Harry, that show what we truly are, far more than our abilities.”'}
... a few more of these, omitted for brevity
>>></code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li></ul></pre>

通過上面的demo，我們學會了一些基本的提取數據方法，現在我們嘗試集成到我們上面的創建的爬蟲中。

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">import scrapy

class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]

def parse(self, response):
for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').extract_first(),
'author': quote.css('small.author::text').extract_first(),
'tags': quote.css('div.tags a.tag::text').extract(),
}
</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li><li>16</li><li>17</li><li>18</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li><li>16</li><li>17</li><li>18</li></ul></pre>

如果你運行這個爬蟲，它將輸出提取的數據與日誌：

<pre class="prettyprint" name="code"><code class="hljs cs has-numbering">2016-09-19 18:57:19 [scrapy.core.scraper] DEBUG：Scraped from <200 http://quotes.toscrape.com/page/1/>
{'tags'：['life'，'love']，'author'：'AndréGide'，'text'：'“最好不要因爲你的愛而被恨。 “'}
2016-09-19 18:57:19 [scrapy.core.scraper] DEBUG：Scraped from <200 http://quotes.toscrape.com/page/1/>
{'tags'：['edison'，'failure'，'inspirational'，'paraphrased']，'author'：'Thomas A. Edison'，'text'：“”我沒有失敗， 10,000種方式將無法工作。“”}
</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li></ul></pre>

<h3 id="存取數據"><a name="t8" target="_blank"></a>存取數據</h3>

最簡單方法是直接制定導出文件： 
<code>scrapy crawl quotes -o quotes.json</code>

這將生成一個quotes.json包含所有被抓取的數據，以JSON序列化的文件。

出於歷史原因，Scrapy會附加到給定文件，而不是覆蓋其內容。如果你運行這個命令兩次，沒有在第二次之前刪除文件，你會得到一個破碎的JSON文件。

您還可以使用其他格式： 
<code>scrapy crawl quotes -o quotes.jl</code>

 

<h3 id="鏈接界面包含的鏈接"><a name="t9" target="_blank"></a>鏈接界面包含的鏈接</h3>

讓我們說，不要只是從<a href="http://quotes.toscrape.com" target="_blank">http://quotes.toscrape.com</a>的前兩個頁面抓取東西，你想要從網站的所有頁面的報價。

現在，您知道如何從頁面中提取數據，讓我們看看如何跟蹤他們的鏈接。

首先是提取我們要關注的網頁的鏈接。檢查我們的頁面，我們可以看到有一個鏈接到下一頁與下面的標記：

<pre class="prettyprint" name="code"><code class="hljs xml has-numbering"><ul class="pager">
<li class="next">
<a href="/page/2/">Next <span aria-hidden="true">&rarr;</span></a>
</li>
</ul>
</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li></ul></pre>

我們可以嘗試在shell中提取它：

<pre class="prettyprint" name="code"><code class="hljs xml has-numbering">>>> response.css('li.next a').extract_first()
'<a href="/page/2/">Next <span aria-hidden="true">→</span></a>'</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li></ul></pre>

這得到錨點元素，但我們想要的屬性href。爲此，Scrapy支持一個CSS擴展，讓您選擇屬性內容，如下所示：

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">>>> response.css('li.next a::attr(href)').extract_first()
'/page/2/'</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li></ul></pre>

讓我們看看現在我們的爬蟲被修改爲遞歸的跟隨到下一頁的鏈接，從中提取數據：

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">import scrapy

class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
]

def parse(self, response):
for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').extract_first(),
'author': quote.css('small.author::text').extract_first(),
'tags': quote.css('div.tags a.tag::text').extract(),
}

next_page = response.css('li.next a::attr(href)').extract_first()
if next_page is not None:
next_page = response.urljoin(next_page)
yield scrapy.Request(next_page, callback=self.parse)</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li><li>16</li><li>17</li><li>18</li><li>19</li><li>20</li><li>21</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li><li>16</li><li>17</li><li>18</li><li>19</li><li>20</li><li>21</li></ul></pre>

現在，在提取數據之後，該parse()方法尋找到下一頁的鏈接，使用該urljoin()方法構建完整的絕對URL （因爲鏈接可以是相對的）並且產生對下一頁的新請求，將其註冊爲回調以處理針對下一頁的數據提取，以及保持爬行通過所有頁面。

這裏看到的是Scrapy的向下鏈接的機制：當你在回調方法中產生一個請求時，Scrapy會調度要發送的請求，並註冊一個回調方法，在上次請求完成時執行。

<h3 id="更多示例和模式"><a name="t10" target="_blank"></a>更多示例和模式</h3>

這裏是另一個爬蟲，說明回調和以下鏈接，這一次提取作者信息：

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">import scrapy

class AuthorSpider(scrapy.Spider):
name = 'author'

start_urls = ['http://quotes.toscrape.com/']

def parse(self, response):
# follow links to author pages
for href in response.css('.author + a::attr(href)').extract():
yield scrapy.Request(response.urljoin(href),
callback=self.parse_author)

# follow pagination links
next_page = response.css('li.next a::attr(href)').extract_first()
if next_page is not None:
next_page = response.urljoin(next_page)
yield scrapy.Request(next_page, callback=self.parse)

def parse_author(self, response):
def extract_with_css(query):
return response.css(query).extract_first().strip()

yield {
'name': extract_with_css('h3.author-title::text'),
'birthdate': extract_with_css('.author-born-date::text'),
'bio': extract_with_css('.author-description::text'),
}</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li><li>16</li><li>17</li><li>18</li><li>19</li><li>20</li><li>21</li><li>22</li><li>23</li><li>24</li><li>25</li><li>26</li><li>27</li><li>28</li><li>29</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li><li>16</li><li>17</li><li>18</li><li>19</li><li>20</li><li>21</li><li>22</li><li>23</li><li>24</li><li>25</li><li>26</li><li>27</li><li>28</li><li>29</li></ul></pre>

這個爬蟲將從主頁開始，它將跟隨所有指向作者頁面的鏈接parse_author，每個鏈接都調用它們的回調，並且還有parse我們之前看到的回調鏈接。

該parse_author回調定義了一個輔助函數從一個CSS查詢提取和清理數據，併產生了Python字典與作者的數據。

即使有很多來自同一作者的爬蟲，我們不需要擔心訪問同一作者頁多次。默認情況下，Scrapy會過濾掉已訪問過的網址的重複請求，從而避免由於編程錯誤而導致服務器過多的問題。這可以通過設置進行配置 DUPEFILTER_CLASS。

此外，一個常見的模式是使用來自多個頁面的數據構建項目，使用一個技巧將附加數據傳遞給回調。

大家不要着急一下子把所以東西都介紹到，具體細節後面都會寫到。

 

<h3 id="使用爬蟲參數"><a name="t11" target="_blank"></a>使用爬蟲參數</h3>

您可以通過-a 在運行它們時使用該選項爲您的爬蟲提供命令行參數： 
<code>scrapy crawl quotes -o quotes-humor.json -a tag=humor</code>

這些參數傳遞給Spider的init方法，默認情況下成爲spider屬性。

在此示例中，爲tag參數提供的值將通過self.tag。您可以使用它來使您的蜘蛛僅抓取帶有特定標記的引號，根據參數構建網址：

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">import scrapy

class QuotesSpider(scrapy.Spider):
name = "quotes"

def start_requests(self):
url = 'http://quotes.toscrape.com/'
tag = getattr(self, 'tag', None)
if tag is not None:
url = url + 'tag/' + tag
yield scrapy.Request(url, self.parse)

def parse(self, response):
for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').extract_first(),
'author': quote.css('small.author::text').extract_first(),
}

next_page = response.css('li.next a::attr(href)').extract_first()
if next_page is not None:
next_page = response.urljoin(next_page)
yield scrapy.Request(next_page, self.parse)</code><ul class="pre-numbering" style="opacity: 0;"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li><li>16</li><li>17</li><li>18</li><li>19</li><li>20</li><li>21</li><li>22</li><li>23</li><li>24</li></ul><div class="save_code tracking-ad" data-mod="popu_249"><a href="javascript:;" target="_blank"><img src="http://static.blog.csdn.net/images/save_snippets.png"></a></div><ul class="pre-numbering"><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li><li>7</li><li>8</li><li>9</li><li>10</li><li>11</li><li>12</li><li>13</li><li>14</li><li>15</li><li>16</li><li>17</li><li>18</li><li>19</li><li>20</li><li>21</li><li>22</li><li>23</li><li>24</li></ul></pre>

如果您將tag=humor參數傳遞給此蜘蛛，您會注意到它只會訪問humor代碼中的網址，例如 <a href="http://quotes.toscrape.com/tag/humor" target="_blank">http://quotes.toscrape.com/tag/humor</a>。</div>

Scrapy爬蟲入門教程安裝和基本使用

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

mysql5.7.28tar包安裝

學習筆記：docker部署高可用MySQL集羣環境

CentOS7防火牆管理firewall-cmd

Node.js 獲取電腦CPU/內存/網卡等信息

使用node-schedule時的注意點

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Scrapy爬蟲入門教程 安裝和基本使用

Scrapy爬蟲入門教程安裝和基本使用