原创 一些高可用的面試題整理

說一下TCP的三次握手客戶端在訪問服務器的什麼?在三次握手中服務器內部發生了什麼事情? 建立起一個TCP連接需要經過“三次握手”: 1) Client首先發送一個連接試探,ACK=0 表示確認號無效,SYN = 1 表示這是一個連接請

原创 Mysql/Redis數據庫基礎知識的整理

Mysql/Redis基礎知識的整理 Celery的底層原理 celery是基於python實現的一個異步任務的調度工具,同時還是一個任務隊列,主要用於處理耗時的任務: celery主要由三部分組成: 消息中間件(message b

原创 面試題

11. 請篩選年齡小於18或者大於40的Person from django.db import models class Person(models.Model): name = models.CharField(max_l

原创 蘇寧圖書爬取

蘇寧圖書爬取: 創建項目工程: Scrapy startprojeect suning(項目名稱) 創建爬蟲: Scrapy genspider sn book.suning.com 獲取大分類的分組: div_list = re

原创 最全爬蟲總結沒有之一拿走不謝

爬蟲總結 1. 爬蟲流程? 準備url列表 發起請求、獲得響應 提取數據,提取url放入url列表 保存數據 聚焦爬蟲的流程 注意:提取的數據以url對應的響應爲準,瀏覽器element只能作爲參考 2. requests的使用

原创 Redisspider的爬蟲和scrapy.spider的區別

Redisspider的爬蟲和scrapy.spider的區別 Redisspider 分佈式爬蟲,請求的持久化,去重的持久化 區別 父類不一樣,RedisSpider start_urls沒有了,多了redis_key ,往r

原创 scrapy框架-----JDbook爬蟲

京東圖書爬蟲 # -*- coding: utf-8 -*- import scrapy from copy import deepcopy import json class JjdSpider(scrapy.Spider):

原创 分佈式爬蟲----噹噹網圖書數據爬取

噹噹網圖書數據爬取 分佈式爬蟲 列舉執行方式: 通過runspider方法執行爬蟲的py文件(也可以分次執行多條),爬蟲(們)將處於等待準備狀態: scrapy runspider myspider_redis.py 在Master

原创 分佈式爬蟲的實現

分佈式爬蟲的實現 創建爬蟲類 scrapy genspider itcast itcast.cn 修改繼承類爲scrapy_reids中的RedisSpider 刪除原有的start_urls 添加存在start_

原创 爬蟲框架開發

爬蟲框架開發 碼雲用戶名: pysmt 引擎 """ 引擎組件 """ from scrapy_plus.http.request import Request # 導入request對象 #導入爬蟲中間件 from scrapy

原创 scrapy框架流程 補充

scrapy框架流程 其流程可以描述如下: 調度器把requests–>引擎–>下載中間件—>下載器 下載器發送請求,獲取響應---->下載中間件---->引擎—>爬蟲中間件—>爬蟲 爬蟲提取數據,分爲兩類: 提取的

原创 scrapy debug信息 補充

scrapy debug信息 2019-01-19 09:50:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tencent) 2019-01-19 09:50:48 [

原创 實現增量式爬蟲

scrapy流程的新理解 start_urls誰構造的請求? def start_requests(self): for url in self.start_urls: yield Request(u

原创 crawlspider的使用

crawlspider的使用 scrapy genspider -t crawl spider_name allowed_domain class GtSpider(CrawlSpider): name = 'gt'

原创 scrapy之seeting

scrapy debug信息 2019-01-19 09:50:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tencent) 2019-01-19 09:50:48 [