網絡爬蟲-抓取1000W百度文庫doc文檔

今天抓取的是百度文庫doc文檔，但是要求確實隨機的1000萬份文檔並存爲txt文本，下載百度文庫的開源項目已經有了，那麼去哪裏找到1000萬個百度文庫doc文檔的url呢，並且在短時間內下載下來。
因爲爬蟲是一個IO密集型業務，所以使用協程效率則最高，第一時間想到了gevent。

首先分析百度文庫的url

https://wenku.baidu.com/search?word=%BD%CC%CA%A6&org=0&fd=0&lm=0&od=0&pn=10

不難發現 word爲關鍵字，pn爲當前頁數，經過測試，pn最大值爲760，超過了這個值百度文庫也不會顯示，那麼也就意味着一個關鍵字最多顯示760個url

url_list = re.findall('<a href="(.*)\?from=search', html) # 獲取關鍵詞頁面的urls

通過循環遍歷1-25000的數字，每個數字作爲關鍵詞，進行拼接url，便可以得到超過1000W的url來進行下載了。

urls = []
for i in range(1, 25000):
    for x in range(0, 760, 10):
        url = 'https://wenku.baidu.com/search/main?word={0}&org=0&fd=0&lm=1&od=0&pn={1}'.format(i, x) # lm=1爲下載doc文檔
        urls.append(url)

好了接下來就是使用gevent協程來跑爬蟲了

import re
import sys
import time

import gevent
from gevent import monkey
from urllib.request import urlopen, Request

monkey.patch_all()
sys.setrecursionlimit(1000000)


def myspider(range1):

    urls = []
    if range1 == 50:
        range2 = 1
    else:
        range2 = range1 - 100
    for i in range(range2, range1):
        for x in range(0, 760, 10):
            url = 'https://wenku.baidu.com/search/main?word={0}&org=0&fd=0&lm=1&od=0&pn={1}'.format(i, x)
            urls.append(url)

    wenku_urls = []
    for url in urls:
        print(url)
        try:
            # r = Request(url, headers=headers)
            resp = urlopen(url)
            data = resp.read()
            list1 = re.findall('<a href="(.*)\?from=search', data.decode('gb18030'))
            wenku_urls += list1
            print(list1)
            print(url)
        except Exception as e:
            print(e)
            continue
    print(wenku_urls)
    print(len(wenku_urls))

    with open('{0}.txt'.format(range1//50), 'w', encoding='utf-8') as f:  # 記錄urls
        for i in list(set(wenku_urls)):
            f.write(i + '\n')

async_time_start = time.time()

jobs = []
for i in range(50, 25001, 50):
    jobs.append(i)
print(jobs)

job = [gevent.spawn(myspider, range1) for range1 in jobs]
gevent.joinall(job)

print("異步耗時：", time.time() - async_time_start)

啓動500個協程，瞬間跑滿了帶寬，我的辣雞電腦進過長達8個小時的奮戰，終與跑完了所有的url

Github代碼傳送門

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

網絡爬蟲-抓取1000W百度文庫doc文檔

Github代碼傳送門

這個網絡爬蟲代碼，拿到數據之後如何存到csv文件中去？

即刻放大鏡。跟隨鼠標，屏幕任意位置放大

【面試準備】【SQL】數據庫有哪些約束？

.NET開源強大、易於使用的緩存框架 - FusionCache

面試，有時候是個運氣活

網絡爬蟲-某水利建設市場平臺（滑塊驗證碼破解）

網絡爬蟲-抓取全國高校名單(分區域)

網絡爬蟲-今日頭條_signature參數逆向(第一彈)

網絡爬蟲-上傳爬蟲文件至阿里雲OSS(以視頻/圖片爲例)

網絡爬蟲-今日頭條__ac_signature參數逆向(第二彈)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結