scrapy相關-數據持久化

持久化存儲操作:

磁盤文件

基於終端指令

  1. 保證parse方法返回一個可迭代類型的對象(存儲解析到的頁面內容)
  2. 使用終端指令完成數據存儲到制定磁盤文件中的操作
    • scrapy crawl 爬蟲文件名稱 –o 磁盤文件.後綴

基於管道

  1. items:存儲解析到的頁面數據
  2. pipelines:處理持久化存儲的相關操作
  3. 代碼實現流程:
    1. 將解析到的頁面數據存儲到items對象
    2. 使用yield關鍵字將items提交給管道文件進行處理
    3. 在管道文件中編寫代碼完成數據存儲的操作
    4. 在配置文件中開啓管道操作

數據庫

mysql

redis

編碼流程:

  1. 將解析到的頁面數據存儲到items對象
  2. 使用yield關鍵字將items提交給管道文件進行處理
  3. 在管道文件中編寫代碼完成數據存儲的操作
  4. 在配置文件中開啓管道操作

注意

  1. 需要在管道文件中編寫對應平臺的管道類
  2. 在配置文件中對自定義的管道類進行生效操作

***問題:針對多個url進行數據的爬取
解決方案:請求的手動發送

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章