原创 CSS選擇器&xpath語法

一、xpath語法 表達式 說明 article   選取所有article元素的所有子節點     /article      選取根元素article     article/a     選取所有屬於ar

原创 爬取古詩詞網(使用正則)

 一、正則使用 正則表達式常用匹配規則: 匹配某個字符串: text = 'hello' ret = re.match('he',text) print(ret.group()) >> he 以上便可以在hello中,匹配出he。 點

原创 Scrapy使用MySQL

供以後寫代碼參考: 一、同步執行 import pymysql class CollectDataPipeline(object): def open_spider(self, spider): print(

原创 自動化提交數據

工作需要,要往後臺添加數據,我又太懶,不想一個一個點,所以寫了一個自動提交工具,使用selenium+爬蟲做的一個小工具。懶是我進步的階梯。 添加數據頁面 from selenium import webdriver from sel

原创 熱播電影推薦

 練習xPath,爬取豆瓣正在放映電影,獲取電影信息,按評分對電影排序。 import requests from lxml import etree import operator def get_text(): # 把

原创 裂縫檢測標記

閒來無事,做的一個小東西。效果圖:  既然能檢測裂縫,那是不是……本來想開個車,奈何代碼有bug,又不想改,就算了吧  代碼如下: srcImg=imread('3.jpg'); %圖片讀取 subplot(3,4,1); i

原创 redis學習記錄(2)持久化&redis複製

目錄 一、redis持久化 (1)AOF 1、什麼是AOF  2、三種策略  AOF重寫?  AOF重寫配置: (2)RDB 1、什麼是RDB? 2、觸發機制 (3)RDB和AOF比較 二、redis複製的原理與優化 1、什麼是主從配置

原创 使用celery

main.py from tasks import send_mail if __name__ == '__main__': send_mail.delay() tasks.py # celery # pip install

原创 Scrapy 框架流程詳解

框架流程圖 Scrapy 使用了 Twisted 異步非阻塞網絡庫來處理網絡通訊,整體架構大致如下(綠線是數據流向):     簡單敘述一下每層圖的含義吧: Spiders(爬蟲):它負責處理所有Responses,從中分析提取數據,

原创 表情包爬蟲

一、同步爬蟲 import requests from lxml import etree from urllib import request import os import re import time def get_p

原创 爬蟲之全國天氣最低的十個城市

__author__ = '田明博' __date__ = '2019/10/9 21:23' ''' 獲取所有城市的天氣預報,按最低溫度排名 ''' import requests import operator from bs4 i

原创 Scrapy保存圖片&自定義保存

一、爬取暱圖網 第一步: 1、新建項目 scrapy startproject nituwang 2、新建爬蟲 scrapy genspider nituwang_spider nipic.com 3、更改設置 …… 第二步: 1、

原创 redis學習記錄(4)redis集羣

一、Redis Cluster 1、集羣 (1)單個redis存在不穩定性。當redis服務宕機了,就沒有可用的服務了。 (2)單個redis的讀寫能力是有限的。 2、數據分佈         分佈式數據庫首先要解決把整個數據集按照分區規

原创 Django+scrapy結合elasticsearch構建搜索引擎(一)

這個項目是大四上學期實習的一個項目。因爲我正好也在學Scrapy,所以就以這個作爲項目。也可能作爲我的畢業設計。 github地址:https://github.com/tianmingbo/scrapy-elastic 一、elasti

原创 redis學習記錄(3)redis高可用理解

一、主從複製存在的問題        一旦主節點出現故障, 需要手動將一個從節點晉升爲主節點, 同時需要修改應用方的主節點地址, 還需要命令其他從節點去複製新的主節點, 整個過程都需要人工干預。 二、高可用 redis sentine