項目名稱: ScrapyProject
項目介紹:
1抓取圖書http://www.shicimingju.com:
1). 請求圖書詳情頁parse(self, response)函數的修改-ScrapyProject/ScrapyProject/spiders/book.py
2). 對章節詳情頁進行解析parse_chapter_detail函數的修改-ScrapyProject/ScrapyProject/spiders/book.py
3). 將採集的數據存儲到文件中, pipeeline組件-ScrapyProject/ScrapyProject/pipelines.py
4). 設置文件中啓動pipeline組件-ScrapyProject/ScrapyProject/settings.py
2抓取商品的詳細信息,出入庫情況
1. 用過sqlalchemy(ORM)將數據信息添加到數據庫中
2.日誌信息的配置,圖片的配置
3.根據python數據類型解析商品的詳情信息
4.將尺寸信息序列化爲json字符串,如果總庫存存在 存儲商品信息
技術難點:
1) 如何處理解析後的數據?
2). 如何獲取/下載小說章節詳情頁的鏈接並下載到本地?
我寫項目遇到的難點
1.如何分析網站重要要爬取的信息
2.如何理解item對項目的作用
3.爬取項目資源對寫入數據庫的選擇,意義
4.如果要爬的網址有用戶密碼驗證碼登錄這個如何解決
項目網址:https://gitee.com/huojin181/ScrapyProject.git