Scrapy學習1

原創

2020-07-05 13:09

Scrapy學習1

一、創建項目

cmd中代碼
scrapy startproject xxxxSpider（項目名）

二、創建爬蟲

#切換目錄
cd xxxxSpider
#創建爬蟲
scrapy genspider xxxx（爬蟲名） xxxx.com（網站域名）
注意：項目名和爬蟲名不同

1、配置settings.py

#不遵守君子協議
#Obey robots.txt rules
ROBOTSTXT_OBEY = False

2、解釋spiders/xxxx.py

# -*- coding: utf-8 -*-
import scrapy

#創建爬蟲類 並繼承自scrapy.Spider -->最基礎的類
class XicidailiSpider(scrapy.Spider):
    name = 'xicidaili'
    allowed_domains = ['xicidaili.com']
    start_urls = ['http://xicidaili.com/']

    #解析響應數據 提取數據或網址 response是網頁源碼
    def parse(self, response):
        pass

三、分析網站

提取數據
正則表達式
XPath
CSS

response.xpath('//tr')。get()

get(）得到一個元素
getall()得到多個元素

四、運行爬蟲

scrapy crawl xxxx

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

C語言實現的json解析程序

只有一個頭文件和一個源文件，僅使用C語言標準庫。作用就是讀取json文件，然後解析爲若干個互相關聯的結構，結構如下： typedef enum json_st { djson_string = 1, djson_number,

2020-07-08 10:35:53

Pytorch垃圾分類搭建CNN模型中遇到的坑

背景就是利用pytorch進行圖形分類處理，採用的是cnn算法，在使用過程中碰到了一些小麻煩。 1、在對圖片進行壓縮時的報錯，報錯形式爲： raise ValueError("empty range for randrange() (%

2020-07-08 09:59:08

項目中權限分配使用到的位運算

原因：某一模塊的權限太多，如對客戶的權限，增刪改查就是四個權限，就是四個權限字符串與之對應。解決方案：增 2 ，刪 4 ，改 8 查 16 對應二進制爲 2：10 4：100 8：1000 16：10000

2020-07-08 09:13:30

Maven相關問題彙總

maven中的${project.groupId} 和 ${project.version} 表示當前項目的groupId和版本。

2020-07-08 09:13:30

重學計算機基礎計劃

大學畢業一年、高中畢業五年矣。大學所學，幾近忘光，愧對老師們曾經的教導，於是突發奇想，想重新學習計算機基礎，並寫blog以此鞭策自己。重學的計算機基礎內容包括但不限於以下內容： 1. 數據結構與算法 2. 編程語言 3. 操作系統 4.

2020-07-08 06:15:20

ElasticSearch使用教程四(ElasticSearch查詢詳解)

一、簡介說明注意：以下命令都是使用sense測試(ElasticSearch第二步-CRUD之Sense)，且數據都已經使用過IK分詞。以下測試數據來源於文檔(db_test/person) 需要注意的是下面的id是文檔的ID，

2020-07-08 04:10:56

143. Reorder List學習

143. Reorder List Total Accepted: 71015 Total Submissions: 301125 Difficulty: Medium Given a singly linke

2020-07-08 04:10:45

SpringBoot項目部署到linux服務器

進行了這麼長時間SpringBoot項目開發，今天想系統的總結一下項目部署到linux服務器的流程，並在上一篇介紹了linux環境的準備與搭建，SpringBoot項目部署到linux服務器之環境搭建，這篇記錄一下從git上拉取項

2020-07-08 02:35:43

SpringCloud Stream 整合 RabbitMQ-消費失敗後重試

上一篇完成SpringCloud Stream整合RabbitMQ： SpringCloud Stream整合RabbitMQ，沒有進行任何配置，本篇記錄一下消息消費失敗後重試配置。在程序開發過程中難免會出現各種奇葩異常，假如當

2020-07-08 02:35:43

Nacos(三)-Nacos Spring Cloud-配置中心

前兩篇記錄了下載安裝nacos、使用nacos作爲註冊中心： Nacos(一)-下載安裝 Nacos(二)-Nacos Spring Cloud-註冊中心本篇記錄使用nacos作爲配置中心，並通過配置頁面修改配置進行動態刷新

2020-07-08 02:35:43

SpringCloud Stream 整合RabbitMQ

本篇簡單介紹SpringCloud Stream 整合RabbitMQ基本步驟：引入SpringCloud 引入SpringCloud Stream相關依賴定義綁定接口: 消息生產者(Output…Binding) 、消息消

2020-07-08 02:35:43

Nacos(二)-Nacos Spring Cloud-註冊中心

上一篇記錄了下載安裝nacos Nacos(一)-下載安裝本篇記錄使用nacos作爲註冊中心，並註冊服務提供者、服務消費者進行調用演示。一、項目介紹本次創建一個項目nacos,其中包含兩個Module: service

2020-07-08 02:35:43

SpringBoot項目部署到linux服務器之環境搭建

進行了這麼長時間SpringBoot項目開發，今天想系統的總結一下項目部署到linux服務器的流程，這一篇記錄一下linux環境準備與搭建(linux環境裝在本機的虛擬機中）。一、軟件準備虛擬機：VirtualBox 下

2020-07-08 02:35:43

如何合適的應對遭遇戰？

設想：你在沒有任何準備的情況，老闆忽然問你對某件事物的看法？老闆開會的時候忽然說有一個領導崗位空缺，請大家馬上毛遂自薦，互相PK我們該如何應對呢？可惜

2020-07-07 23:15:57

隔離鼠標點擊雙擊移動事件

隔離鼠標點擊雙擊移動事件應用場景在編寫一個3d卡片切換的時候，需要執行 1. **單擊** 觸發模態框 2. **雙擊** 卡片定位 3. **拖動** 卡片跟隨問題默認dom事件鼠標**雙擊**的時候會觸發

2020-07-07 21:48:15

24小時熱門文章

最新文章

最新評論文章