pyspider爬蟲網頁響應過慢,爬不到數據解決

對於pyspider 這個框架來說優點就是簡單、易上手。所以好好看官方文檔能解決80%的問題。
最近需要訓練數據,目標頁面較多,一般的寫爬蟲擔心不能適應。就自學爬蟲框架,爲了儘快使用就從pyspider入手了。
期間遇到請求的網頁數據加載過慢,總是爬到空數據…
看文檔發現self.crawl()函數可以在回調之前,加載js:

            self.crawl(url, fetch_type='js',
                       js_script="""function() {setTimeout("", 12000);}""",
                       callback=self.index_page, validate_cert=False,priority=1)

(1)參數分別是要抓取的url、
(2)fetch_type=‘js’,設置爲js以啓用JavaScript獲取、
(3)js_script=""“function() {setTimeout(”", 12000);}""" ,這裏是在訪問頁面後,延時12s再執行callback=""回調。(等待頁面數據的加載)、
(3)validate_cert=False 是否檢查網頁許可證
(4)priority=1 任務執行的優先級

還有很多參數:
http://docs.pyspider.org/en/latest/apis/self.crawl/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章