原创 一些高可用的面試題整理
說一下TCP的三次握手客戶端在訪問服務器的什麼?在三次握手中服務器內部發生了什麼事情? 建立起一個TCP連接需要經過“三次握手”: 1) Client首先發送一個連接試探,ACK=0 表示確認號無效,SYN = 1 表示這是一個連接請
原创 Mysql/Redis數據庫基礎知識的整理
Mysql/Redis基礎知識的整理 Celery的底層原理 celery是基於python實現的一個異步任務的調度工具,同時還是一個任務隊列,主要用於處理耗時的任務: celery主要由三部分組成: 消息中間件(message b
原创 面試題
11. 請篩選年齡小於18或者大於40的Person from django.db import models class Person(models.Model): name = models.CharField(max_l
原创 蘇寧圖書爬取
蘇寧圖書爬取: 創建項目工程: Scrapy startprojeect suning(項目名稱) 創建爬蟲: Scrapy genspider sn book.suning.com 獲取大分類的分組: div_list = re
原创 最全爬蟲總結沒有之一拿走不謝
爬蟲總結 1. 爬蟲流程? 準備url列表 發起請求、獲得響應 提取數據,提取url放入url列表 保存數據 聚焦爬蟲的流程 注意:提取的數據以url對應的響應爲準,瀏覽器element只能作爲參考 2. requests的使用
原创 Redisspider的爬蟲和scrapy.spider的區別
Redisspider的爬蟲和scrapy.spider的區別 Redisspider 分佈式爬蟲,請求的持久化,去重的持久化 區別 父類不一樣,RedisSpider start_urls沒有了,多了redis_key ,往r
原创 scrapy框架-----JDbook爬蟲
京東圖書爬蟲 # -*- coding: utf-8 -*- import scrapy from copy import deepcopy import json class JjdSpider(scrapy.Spider):
原创 分佈式爬蟲----噹噹網圖書數據爬取
噹噹網圖書數據爬取 分佈式爬蟲 列舉執行方式: 通過runspider方法執行爬蟲的py文件(也可以分次執行多條),爬蟲(們)將處於等待準備狀態: scrapy runspider myspider_redis.py 在Master
原创 分佈式爬蟲的實現
分佈式爬蟲的實現 創建爬蟲類 scrapy genspider itcast itcast.cn 修改繼承類爲scrapy_reids中的RedisSpider 刪除原有的start_urls 添加存在start_
原创 爬蟲框架開發
爬蟲框架開發 碼雲用戶名: pysmt 引擎 """ 引擎組件 """ from scrapy_plus.http.request import Request # 導入request對象 #導入爬蟲中間件 from scrapy
原创 scrapy框架流程 補充
scrapy框架流程 其流程可以描述如下: 調度器把requests–>引擎–>下載中間件—>下載器 下載器發送請求,獲取響應---->下載中間件---->引擎—>爬蟲中間件—>爬蟲 爬蟲提取數據,分爲兩類: 提取的
原创 scrapy debug信息 補充
scrapy debug信息 2019-01-19 09:50:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tencent) 2019-01-19 09:50:48 [
原创 實現增量式爬蟲
scrapy流程的新理解 start_urls誰構造的請求? def start_requests(self): for url in self.start_urls: yield Request(u
原创 crawlspider的使用
crawlspider的使用 scrapy genspider -t crawl spider_name allowed_domain class GtSpider(CrawlSpider): name = 'gt'
原创 scrapy之seeting
scrapy debug信息 2019-01-19 09:50:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tencent) 2019-01-19 09:50:48 [