持久化存儲操作:
磁盤文件
基於終端指令
- 保證parse方法返回一個可迭代類型的對象(存儲解析到的頁面內容)
- 使用終端指令完成數據存儲到制定磁盤文件中的操作
- scrapy crawl 爬蟲文件名稱 –o 磁盤文件.後綴
基於管道
- items:存儲解析到的頁面數據
- pipelines:處理持久化存儲的相關操作
- 代碼實現流程:
- 將解析到的頁面數據存儲到items對象
- 使用yield關鍵字將items提交給管道文件進行處理
- 在管道文件中編寫代碼完成數據存儲的操作
- 在配置文件中開啓管道操作
數據庫
mysql
redis
編碼流程:
- 將解析到的頁面數據存儲到items對象
- 使用yield關鍵字將items提交給管道文件進行處理
- 在管道文件中編寫代碼完成數據存儲的操作
- 在配置文件中開啓管道操作
注意
- 需要在管道文件中編寫對應平臺的管道類
- 在配置文件中對自定義的管道類進行生效操作
***問題:針對多個url進行數據的爬取
解決方案:請求的手動發送