根據關鍵詞使用scrapy爬取今日頭條網站新聞各類信息和內容頁

原創

2018-09-04 21:52

在今日頭條上輸入關鍵詞，爬取與關鍵詞相關的新聞各類信息和內容頁。

今日頭條爬取主要困難如下：

（1）採用下拉翻滾動態加載新的新聞條目，即瀑布流；

（2）內容詳情頁爲動態頁面，大部分網頁源代碼類似字典形式，一部分爲帶標籤的結構化頁面。

本文采用兩種方式爬取，都將爬取的數據寫入到數據庫中，主要爬蟲代碼在JinRiTouTiao.py中，小編在pipelines.py中使用了mysql數據庫存儲數據，讀者可忽略，若使用請配置數據庫相關信息。

爬取內容：發佈時間、發佈者、主題、內容、鏈接、點贊數、轉發數、評論數等。

（一）使用scrapy+Selenium +phantomjs爬取：

爬蟲爲spiders/JinRiTouTiao.py

使用請運行startFirst.py

因爲使用的是Selenium +phantomjs，所以無論是靜態頁面還是動態頁面都可以爬取，抓取十分準確，但是速度非常慢，小編爬時是一分鐘兩個items，可能與小編的網速和電腦配置不高有關。

使用前需要下載phantomjs，使用方法見https://www.cnblogs.com/zzhzhao/p/5380376.html

(二) 使用scrapy+urllib+lxml爬取：

爬蟲爲toutiao.py

使用請運行startSecond.py

推薦使用，爬取速度比較快，爬取數據較爲準確。

人非聖賢，孰能無過？歡迎大家指正，也歡迎大家有好的想法可以一起交流，小編QQ:2422035338，大家有什麼問題或者想法歡迎騷擾。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.