項目開始
第一步仍然是創建scrapy項目與spider文件
切換到工作目錄兩條命令依次輸入
scrapy startproject xunleidianying
scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019
內容分析
打開目標網站(分類是2019年上映的電影),分析我們需要的數據
進入頁面是列表的形式就像豆瓣電影一樣,然後我們點進去具體頁面看看
這個頁面就是我們需要拿到的內容頁面,我們來看我們需要哪些數據(某些數據從第一個頁面就可以獲得,但是下載地址必須到第二個頁面)
-
電影名稱
-
電影信息
-
電影內容劇情
-
電影下載地址
分析完成之後就可以首先編寫 items.py文件
另外別忘了去settings.py中開啓 ITEM_PIPELINES 選項
爬蟲文件編寫
老樣子,爲了方便測試我們的爬蟲,首先編寫一個main.py的文件方便IDE調用
main.py:
import scrapy.cmdline
scrapy.cmdline.execute('scrapy crawl xunleiBT'.split())
首先我們先測試直接向目標發送請求是否可以得到響應
爬蟲文件 xunleiBT.py編寫如下:
運行 main.py 看看會出現什麼
好的,發現直接返回正常的網頁也就是我們要的網頁,說明該網站沒有反爬機制,這樣我們就更容易爬取了
然後通過xpath定位頁面元素,具體就不再贅述,之前的scarpy教程中都有 繼續編寫爬蟲文件
ITEM爬取完成後該幹什麼?當然是入庫保存了,編寫pipelines.py文件進行入庫保存
再次提醒別忘了去settings.py中開啓 ITEM_PIPELINES 選項
pipelines.py文件代碼如下:
再次運行main.py 等待運行完成後打開數據庫查詢
數據保存完成,這次我們一共導入了380個數據,可以愉快的查看電影了