原创 selenium爬取某家生活分類平臺

from selenium import webdriver import pickle import requests from lxml import etree from fake_useragent import UserAge

原创 re匹配中文格式的字符

>>> import re > >>> s ='wo我愛sjl上學吧hfks' >>> res = re.findall(r'([\u2E80-\u9FFF]+)', s) >>> res ['我愛', '上學吧']  

原创 容器數據卷

1.docker運行關閉後的實現數據持久化:用容器數據卷保存 2.容器之間共享信息:用容器數據卷保存 3.卷中的更改可以直接生效 4.數據卷中的更改不會包含在image的更新中 5.數據卷中的生產週期一直持續到沒有容器使用他爲止 6.容器

原创 docker容器命令

新建並啓動容器:docker run [ 啓動方式] image 交互啓動方式(返回對話窗口或命令行終端):docker run -it --name 新起的容器名字 IMAGE_ID 以tomcat爲例子: 指定端口: 前臺方式:doc

原创 docker鏡像命令

docker images -a:列出鏡像的所有層; docker images -q:列出鏡像的imageID; docker images -qa:列出鏡像的所有層的imageID;(可以用於批處理刪除); docker images

原创 scrapy_redis 和 docker 實現簡單分佈式爬蟲

簡介 在使用 scrapy 爬取 IT桔子公司信息,用來進行分析,瞭解 IT 創業公司的一切情況,之前使用 scrapy 寫了一個默認線程是10的單個實例,爲了防止被 ban IP 設置了下載的速度,3萬多個公司信息爬了1天多才完成,現在

原创 鏈家二手房信息抓取

spider如下: # -*- coding: utf-8 -*- import scrapy class LianjiaSpider(scrapy.Spider): name = 'lianjia' allowed

原创 提取亞馬遜所有的商品類目與對應的url,保持層級關係

spider文件如下: # -*- coding: utf-8 -*- import scrapy import re class GoodsclassnameUrlSpider(scrapy.Spider): name =

原创 多進程抓取貓眼電影top100

import json from multiprocessing import Pool import requests from requests.exceptions import RequestException import r

原创 抓取阿里雲產品明細

import re import csv from fake_useragent import UserAgent from urllib.request import Request,urlopen # 4種產品,16個地區,td的

原创 51job網站抓取所有的nlp職位信息

spider如下: # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders im

原创 高校項目

import scrapy import re from Gaoxiao.items import GaoxiaoItem class GaoxiaoSpider(scrapy.Spider): name = 'gaoxiao

原创 re 中括號的匹配[ ]需要加雙斜槓\\

中括號的匹配需要在中括號前面加雙斜槓\\  

原创 DEPTH_PRIORITY實現深度優先爬取

DEPTH_PRIORITY 默認: 0 範圍: scrapy.spidermiddlewares.depth.DepthMiddleware 用於根據深度調整請求優先級的整數: 如果爲零(默認),則不從深度進行優先級調整 正值將降低優先

原创 多進程爬蟲效果展示

import requests import re import time from multiprocessing import Pool headers = { 'User-Agent': 'Mozilla/5.0 (Wi