scrapy框架的簡介和基礎使用
概念:
爲了爬取網站數據而編寫的一款應用框架,出名,強大。所謂的框架其實就是一個集成了相應的功能且具有很強通用性的項目模板。(高性能的異步下載,解析,持久化……)
安裝:
- linux mac os:pip install scrapy
- win:
2.1 pip install wheel
2.2 下載twisted:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
2.3 pip install 下載好的框架.whl - pip install pywin32
- pip install scrapy
基礎使用: 使用流程
- 創建一個工程:scrapy startproject 工程名稱
1.目錄結構:
- 在工程目錄下創建一個爬蟲文件:
1.cd 工程
2.scrapy genspider 爬蟲文件的名稱 起始url - 對應的文件中編寫爬蟲程序來完成爬蟲的相關操作
- 配置文件的編寫(settings)
- 19行:對請求載體的身份進行僞裝
- 22行:不遵從robots協議
- 執行 :scrapy crawl 爬蟲文件的名稱 --nolog(阻止日誌信息的輸出)