【PY】沒有電影看?來教你用Python爬取電影天堂最新電影!

原文鏈接:https://zhuanlan.zhihu.com/p/88599474

項目開始

第一步仍然是創建scrapy項目與spider文件

切換到工作目錄兩條命令依次輸入

scrapy startproject xunleidianying
scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019

內容分析

打開目標網站(分類是2019年上映的電影),分析我們需要的數據

 

進入頁面是列表的形式就像豆瓣電影一樣,然後我們點進去具體頁面看看

 

這個頁面就是我們需要拿到的內容頁面,我們來看我們需要哪些數據(某些數據從第一個頁面就可以獲得,但是下載地址必須到第二個頁面)

  • 電影名稱

  • 電影信息

  • 電影內容劇情

  • 電影下載地址

分析完成之後就可以首先編寫 items.py文件

另外別忘了去settings.py中開啓 ITEM_PIPELINES 選項

爬蟲文件編寫

老樣子,爲了方便測試我們的爬蟲,首先編寫一個main.py的文件方便IDE調用

main.py:

import scrapy.cmdline
scrapy.cmdline.execute('scrapy crawl xunleiBT'.split())

首先我們先測試直接向目標發送請求是否可以得到響應

爬蟲文件 xunleiBT.py編寫如下:

 

運行 main.py 看看會出現什麼

 

好的,發現直接返回正常的網頁也就是我們要的網頁,說明該網站沒有反爬機制,這樣我們就更容易爬取了

然後通過xpath定位頁面元素,具體就不再贅述,之前的scarpy教程中都有 繼續編寫爬蟲文件

ITEM爬取完成後該幹什麼?當然是入庫保存了,編寫pipelines.py文件進行入庫保存

再次提醒別忘了去settings.py中開啓 ITEM_PIPELINES 選項

pipelines.py文件代碼如下:

再次運行main.py 等待運行完成後打開數據庫查詢

數據保存完成,這次我們一共導入了380個數據,可以愉快的查看電影了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章