【PY】沒有電影看？來教你用Python爬取電影天堂最新電影！

第一步仍然是創建scrapy項目與spider文件

切換到工作目錄兩條命令依次輸入

scrapy startproject xunleidianying
scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019

打開目標網站（分類是2019年上映的電影），分析我們需要的數據

進入頁面是列表的形式就像豆瓣電影一樣，然後我們點進去具體頁面看看

這個頁面就是我們需要拿到的內容頁面，我們來看我們需要哪些數據(某些數據從第一個頁面就可以獲得，但是下載地址必須到第二個頁面)

分析完成之後就可以首先編寫 items.py文件

另外別忘了去settings.py中開啓 ITEM_PIPELINES 選項

爬蟲文件編寫

老樣子，爲了方便測試我們的爬蟲，首先編寫一個main.py的文件方便IDE調用

main.py：

import scrapy.cmdline
scrapy.cmdline.execute('scrapy crawl xunleiBT'.split())

首先我們先測試直接向目標發送請求是否可以得到響應

爬蟲文件 xunleiBT.py編寫如下：

運行 main.py 看看會出現什麼

好的，發現直接返回正常的網頁也就是我們要的網頁，說明該網站沒有反爬機制，這樣我們就更容易爬取了

然後通過xpath定位頁面元素，具體就不再贅述，之前的scarpy教程中都有繼續編寫爬蟲文件

ITEM爬取完成後該幹什麼？當然是入庫保存了，編寫pipelines.py文件進行入庫保存

再次提醒別忘了去settings.py中開啓 ITEM_PIPELINES 選項

pipelines.py文件代碼如下：

再次運行main.py 等待運行完成後打開數據庫查詢

數據保存完成，這次我們一共導入了380個數據，可以愉快的查看電影了

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.