Python爬蟲之三種網頁抓取方法性能比較

  下面我們將介紹三種抓取網頁數據的方法,首先是正則表達式,然後是流行的 BeautifulSoup 模塊,最後是強大的 lxml 模塊。

1. 正則表達式

  如果你對正則表達式還不熟悉,或是需要一些提示時,可以查閱Regular Expression HOWTO 獲得完整介紹。

  當我們使用正則表達式抓取國家面積數據時,首先要嘗試匹配元素中的內容,如下所示:

>>> import re
>>> import urllib2
>>> url = 'http://example.webscraping.com/view/United-Kingdom-239'
>>> html = urllib2.urlopen(url).read()
>>> re.findall('<td class="w2p_fw">(.*?)</td>', html)
['<img src="/places/static/images/flags/gb.png" />', '244,820 square kilometres', '62,348,447', 'GB', 'United Kingdom', 'London', '<a href="/continent/EU">EU</a>', '.uk', 'GBP', 'Pound', '44', '@# #@@|@## #@@|@@# #@@|@@## #@@|@#@ #@@|@@#@ #@@|GIR0AA', '^(([A-Z]\\d{2}[A-Z]{2})|([A-Z]\\d{3}[A-Z]{2})|([A-Z]{2}\\d{2}[A-Z]{2})|([A-Z]{2}\\d{3}[A-Z]{2})|([A-Z]\\d[A-Z]\\d[A-Z]{2})|([A-Z]{2}\\d[A-Z]\\d[A-Z]{2})|(GIR0AA))$', 'en-GB,cy-GB,gd', '<div><a href="/iso/IE">IE </a></div>']
>>> 

   從上述結果看出,多個國家屬性都使用了< td class=”w2p_fw” >標籤。要想分離出面積屬性,我們可以只選擇其中的第二個元素,如下所示:

>>> re.findall('<td class="w2p_fw">(.*?)</td>', html)[1]
'244,820 square kilometres'

   雖然現在可以使用這個方案,但是如果網頁發生變化,該方案很可能就會失效。比如表格發生了變化,去除了第二行中的國土面積數據。如果我們只在現在抓取數據,就可以忽略這種未來可能發生的變化。但是,如果我們希望未來還能再次抓取該數據,就需要給出更加健壯的解決方案,從而儘可能避免這種佈局變化所帶來的影響。想要該正則表達式更加健壯,我們可以將其父元素< tr >也加入進來。由於該元素具有ID屬性,所以應該是唯一的。

>>> re.findall('<tr id="places_area__row"><td class="w2p_fl"><label for="places_area" id="places_area__label">Area: </label></td><td class="w2p_fw">(.*?)</td>', html)
['244,820 square kilometres']

  這個迭代版本看起來更好一些,但是網頁更新還有很多其他方式,同樣可以讓該正則表達式無法滿足。比如,將雙引號變爲單引號,< td >標籤之間添加多餘的空格,或是變更area_label等。下面是嘗試支持這些可能性的改進版本。

>>> re.findall('<tr id="places_area__row">.*?<td\s*class=["\']w2p_fw["\']>(.*?)</td>',html)['244,820 square kilometres']

  雖然該正則表達式更容易適應未來變化,但又存在難以構造、可讀性差的問題。此外,還有一些微小的佈局變化也會使該正則表達式無法滿足,比如在< td >標籤裏添加title屬性。
  從本例中可以看出,正則表達式爲我們提供了抓取數據的快捷方式,但是,該方法過於脆弱,容易在網頁更新後出現問題。幸好還有一些更好的解決方案,後期將會介紹。

2. Beautiful Soup

  Beautiful Soup是一個非常流行的 Python 模塊。該模塊可以解析網頁,並提供定位內容的便捷接口。如果你還沒有安裝該模塊,可以使用下面的命令安裝其最新版本(需要先安裝 pip,請自行百度):

pip install beautifulsoup4

  使用 Beautiful Soup 的第一步是將已下載的 HTML 內容解析爲 soup 文檔。由於大多數網頁都不具備良好的 HTML 格式,因此 Beautiful Soup 需要對其實際格式進行確定。例如,在下面這個簡單網頁的列表中,存在屬性值兩側引號缺失和標籤未閉合的問題。

<ul class=country>
    <li>Area
    <li>Population
</ul>

  如果 Population 列表項被解析爲 Area 列表項的子元素,而不是並列的兩個列表項的話,我們在抓取時就會得到錯誤的結果。下面讓我們看一下 Beautiful Soup 是如何處理的。

>>> from bs4 import BeautifulSoup
>>> broken_html = '<ul class=country><li>Area<li>Population</ul>'
>>> # parse the HTML
>>> soup = BeautifulSoup(broken_html, 'html.parser')
>>> fixed_html = soup.prettify()
>>> print fixed_html
<ul class="country">
 <li>
  Area
  <li>
   Population
  </li>
 </li>
</ul>

  從上面的執行結果中可以看出,Beautiful Soup 能夠正確解析缺失的引號並閉合標籤。現在可以使用 find()find_all() 方法來定位我們需要的元素了。

>>> ul = soup.find('ul', attrs={'class':'country'})
>>> ul.find('li') # return just the first match
<li>Area<li>Population</li></li>
>>> ul.find_all('li') # return all matches
[<li>Area<li>Population</li></li>, <li>Population</li>]

Note: 由於不同版本的Python內置庫的容錯能力有所區別,可能處理結果和上述有所不同,具體請參考: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser。想了解全部方法和參數,可以查閱 Beautiful Soup 的 官方文檔

  下面是使用該方法抽取示例國家面積數據的完整代碼。

>>> from bs4 import BeautifulSoup
>>> import urllib2
>>> url = 'http://example.webscraping.com/view/United-Kingdom-239'
>>> html = urllib2.urlopen(url).read()
>>> # locate the area row
>>> tr = soup.find(attrs={'id':'places_area__row'})
>>> # locate the area tag
>>> td = tr.find(attrs={'class':'w2p_fw'})
>>> area = td.text # extract the text from this tag
>>> print area
244,820 square kilometres

  這段代碼雖然比正則表達式的代碼更加複雜,但更容易構造和理解。而且,像多餘的空格和標籤屬性這種佈局上的小變化,我們也無需再擔心了。

3. Lxml

  Lxml 是基於 libxml2 這一 XML 解析庫的 Python 封裝。該模塊使用 C語言 編寫,解析速度比 Beautiful Soup 更快,不過安裝過程也更爲複雜。最新的安裝說明可以參考 http://lxml.de/installation.html .**

  和 Beautiful Soup 一樣,使用 lxml 模塊的第一步也是將有可能不合法的 HTML 解析爲統一格式。下面是使用該模塊解析一個不完整 HTML 的例子:

>>> import lxml.html
>>> broken_html = '<ul class=country><li>Area<li>Population</ul>'
>>> # parse the HTML
>>> tree = lxml.html.fromstring(broken_html)
>>> fixed_html = lxml.html.tostring(tree, pretty_print=True)
>>> print fixed_html
<ul class="country">
<li>Area</li>
<li>Population</li>
</ul>

  同樣地,lxml 也可以正確解析屬性兩側缺失的引號,並閉合標籤,不過該模塊沒有額外添加 < html > 和 < body > 標籤。

  解析完輸入內容之後,進入選擇元素的步驟,此時 lxml 有幾種不同的方法,比如 XPath 選擇器和類似 Beautiful Soupfind() 方法。不過,後續我們將使用 CSS 選擇器,因爲它更加簡潔,並且能夠在解析動態內容時得以複用。此外,一些擁有 jQuery 選擇器相關經驗的讀者會對其更加熟悉。

  下面是使用 lxmlCSS 選擇器抽取面積數據的示例代碼:

>>> import urllib2
>>> import lxml.html
>>> url = 'http://example.webscraping.com/view/United-Kingdom-239'
>>> html = urllib2.urlopen(url).read()
>>> tree = lxml.html.fromstring(html)
>>> td = tree.cssselect('tr#places_area__row > td.w2p_fw')[0] # *行代碼
>>> area = td.text_content()
>>> print area
244,820 square kilometres

   *行代碼首先會找到 ID 爲 places_area__row 的表格行元素,然後選擇 classw2p_fw 的表格數據子標籤。

   CSS 選擇器表示選擇元素所使用的模式,下面是一些常用的選擇器示例:

選擇所有標籤: *
選擇 <a> 標籤: a
選擇所有 class="link" 的元素: .link
選擇 class="link" 的 <a> 標籤: a.link
選擇 id="home" 的 <a> 標籤: a#home
選擇父元素爲 <a> 標籤的所有 <span> 子標籤: a > span
選擇 <a> 標籤內部的所有 <span> 標籤: a span 
選擇 title 屬性爲"Home"的所有 <a> 標籤: a[title=Home]

   W3C 已提出 CSS3 規範,其網址爲 https://www.w3.org/TR/2011/REC-css3-selectors-20110929/

  Lxml 已經實現了大部分 CSS3 屬性,其不支持的功能可以參見: https://cssselect.readthedocs.io/en/latest/ .

Note: lxml在內部的實現中,實際上是將 CSS 選擇器轉換爲等價的 XPath 選擇器。

4. 性能對比

   在以下這段代碼中,每個爬蟲都會執行 1000 次,每次執行都會檢查抓取結果是否正確,然後打印總用時。

# -*- coding: utf-8 -*-

import csv
import time
import urllib2
import re
import timeit
from bs4 import BeautifulSoup
import lxml.html

FIELDS = ('area', 'population', 'iso', 'country', 'capital', 'continent', 'tld', 'currency_code', 'currency_name', 'phone', 'postal_code_format', 'postal_code_regex', 'languages', 'neighbours')


def regex_scraper(html):
    results = {}
    for field in FIELDS:
        results[field] = re.search('<tr id="places_{}__row">.*?<td class="w2p_fw">(.*?)</td>'.format(field), html).groups()[0]
    return results


def beautiful_soup_scraper(html):
    soup = BeautifulSoup(html, 'html.parser') 
    results = {}
    for field in FIELDS:
        results[field] = soup.find('table').find('tr', id='places_{}__row'.format(field)).find('td', class_='w2p_fw').text
    return results


def lxml_scraper(html):
    tree = lxml.html.fromstring(html)
    results = {}
    for field in FIELDS:
        results[field] = tree.cssselect('table > tr#places_{}__row > td.w2p_fw'.format(field))[0].text_content()
    return results


def main():
    times = {}
    html = urllib2.urlopen('http://example.webscraping.com/view/United-Kingdom-239').read()
    NUM_ITERATIONS = 1000 # number of times to test each scraper
    for name, scraper in ('Regular expressions', regex_scraper), ('Beautiful Soup', beautiful_soup_scraper), ('Lxml', lxml_scraper):
        times[name] = []
        # record start time of scrape
        start = time.time()
        for i in range(NUM_ITERATIONS):
            if scraper == regex_scraper:
                # the regular expression module will cache results
                # so need to purge this cache for meaningful timings
                re.purge()     # *行代碼
            result = scraper(html)

            # check scraped result is as expected
            assert(result['area'] == '244,820 square kilometres')
            times[name].append(time.time() - start)
        # record end time of scrape and output the total
        end = time.time()
        print '{}: {:.2f} seconds'.format(name, end - start)

    writer = csv.writer(open('times.csv', 'w'))
    header = sorted(times.keys())
    writer.writerow(header)
    for row in zip(*[times[scraper] for scraper in header]):
        writer.writerow(row)

if __name__ == '__main__':
    main()


   注意,我們在 *行代碼 中調用了 re.purge() 方法。默認情況下,正則表達式會緩存搜索結果,爲了公平起見,我們需要使用該方法清除緩存。

下面是我的電腦運行該腳本的結果:

這裏寫圖片描述


   由於硬件條件的區別,不同電腦的執行結果也會存在一定差異。不過,每種方法之間的相對差異應當是相當的。從結果中可以看出,在抓取我們的示例網頁時,Beautiful Soup 比其他兩種方法慢了超過 7 倍之多。實際上這一結果是符合預期的,因爲 lxml 和正則表達式模塊都是 C 語言編寫的,而 Beautiful Soup 則是純 Python 編寫的。一個有趣的事實是,lxml 表現的和正則表達式差不多好。由於 lxml 在搜索元素之前,必須將輸入解析爲內部格式,因此會產生額外的開銷。而當抓取同一網頁的多個特徵時,這種初始化解析產生的開銷就會降低,lxml 也就更具競爭力,所以說,lxml 是一個強大的模塊。

5. 總結

三種網頁抓取方法優缺點:

       抓取方法     性能       使用難度       安裝難度
正則表達式 困難 簡單(內置模塊)
Beautiful Soup 簡單 簡單(純Python)
Lxml 簡單 相對困難



   如果你的爬蟲瓶頸是下載網頁,而不是抽取數據的話,那麼使用較慢的方法(如 Beautiful Soup)也不成問題。正則表達式在一次性抽取中非常有用,此外還可以避免解析整個網頁帶來的開銷,如果只需抓取少量數據,並且想要避免額外依賴的話,那麼正則表達式可能更加適合。不過,通常情況下,lxml 是抓取數據的最好選擇,這是因爲它不僅速度快,功能也更加豐富,而正則表達式和 Beautiful Soup只在某些特定場景下有用。

發佈了48 篇原創文章 · 獲贊 141 · 訪問量 28萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章