python學習之爬蟲項目ScrapyProject總結

項目名稱: ScrapyProject

項目介紹:

1抓取圖書http://www.shicimingju.com:

1). 請求圖書詳情頁parse(self, response)函數的修改-ScrapyProject/ScrapyProject/spiders/book.py
2). 對章節詳情頁進行解析parse_chapter_detail函數的修改-ScrapyProject/ScrapyProject/spiders/book.py
3). 將採集的數據存儲到文件中, pipeeline組件-ScrapyProject/ScrapyProject/pipelines.py
4). 設置文件中啓動pipeline組件-ScrapyProject/ScrapyProject/settings.py

2抓取商品的詳細信息,出入庫情況

 1. 用過sqlalchemy(ORM)將數據信息添加到數據庫中
  2.日誌信息的配置,圖片的配置
  3.根據python數據類型解析商品的詳情信息
  4.將尺寸信息序列化爲json字符串,如果總庫存存在 存儲商品信息

技術難點:

   1) 如何處理解析後的數據?
    2). 如何獲取/下載小說章節詳情頁的鏈接並下載到本地?

我寫項目遇到的難點

1.如何分析網站重要要爬取的信息
2.如何理解item對項目的作用
3.爬取項目資源對寫入數據庫的選擇,意義
4.如果要爬的網址有用戶密碼驗證碼登錄這個如何解決
項目網址:https://gitee.com/huojin181/ScrapyProject.git

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章