成人網站PornHub爬蟲分享(一天可爬取500萬以上的視頻)

聲明:本項目旨在學習Scrapy爬蟲框架和MongoDB數據庫,不可使用於商業和個人其他意圖。若使用不當,均由個人承擔。

PornHubBot


源代碼地址

  • PornHubBot項目主要是爬取全球最大成人網站PornHub的視頻標題、時長、mp4鏈接、封面URL和具體的PornHub鏈接
  • 項目爬的是PornHub.com,結構簡單,速度飛快
  • 爬取PornHub視頻的速度可以達到500萬/天以上。具體視個人網絡情況,因爲我是家庭網絡,所以相對慢一點。
  • 10個線程同時請求,可達到如上速度。若個人網絡環境更好,可啓動更多線程來請求,具體配置方法見 [啓動前配置]

環境、架構


開發語言: Python2.7

開發環境: MacOS系統、4G內存

數據庫: MongoDB

  • 主要使用 scrapy 爬蟲框架
  • 從Cookie池和UA池中隨機抽取一個加入到Spider
  • start_requests 根據 PorbHub 的分類,啓動了5個Request,同時對五個分類進行爬取。
  • 並支持分頁爬取數據,並加入到待爬隊列。

使用說明


啓動前配置

  • 安裝MongoDB,並啓動,不需要配置
  • 安裝Scrapy
  • 安裝Python的依賴模塊:pymongo、json、requests
  • 根據自己需要修改 Scrapy 中關於 間隔時間、啓動Requests線程數等得配置

啓動

  • python PornHub/quickstart.py

運行截圖



數據庫說明


數據庫中保存數據的表是 PhRes。以下是字段說明:

PhRes 表:

video_title:視頻的標題,並作爲唯一標識.
link_url:視頻調轉到PornHub的鏈接
image_url:視頻的封面鏈接
video_duration:視頻的時長,以 s 爲單位
quality_480p: 視頻480p的 mp4 下載地址
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章