scrapy相關-安裝和初始化

scrapy框架的簡介和基礎使用

概念:

爲了爬取網站數據而編寫的一款應用框架,出名,強大。所謂的框架其實就是一個集成了相應的功能且具有很強通用性的項目模板。(高性能的異步下載,解析,持久化……)

安裝:

  1. linux mac os:pip install scrapy
  2. win:
    2.1 pip install wheel
    2.2 下載twisted:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    2.3 pip install 下載好的框架.whl
  3. pip install pywin32
  4. pip install scrapy

基礎使用: 使用流程

  • 創建一個工程:scrapy startproject 工程名稱
    1.目錄結構:
    在這裏插入圖片描述
  • 在工程目錄下創建一個爬蟲文件:
    1.cd 工程
    2.scrapy genspider 爬蟲文件的名稱 起始url
  • 對應的文件中編寫爬蟲程序來完成爬蟲的相關操作
  • 配置文件的編寫(settings)
    1. 19行:對請求載體的身份進行僞裝
    2. 22行:不遵從robots協議
  • 執行 :scrapy crawl 爬蟲文件的名稱 --nolog(阻止日誌信息的輸出)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章