原创 CSS選擇器&xpath語法
一、xpath語法 表達式 說明 article 選取所有article元素的所有子節點 /article 選取根元素article article/a 選取所有屬於ar
原创 爬取古詩詞網(使用正則)
一、正則使用 正則表達式常用匹配規則: 匹配某個字符串: text = 'hello' ret = re.match('he',text) print(ret.group()) >> he 以上便可以在hello中,匹配出he。 點
原创 Scrapy使用MySQL
供以後寫代碼參考: 一、同步執行 import pymysql class CollectDataPipeline(object): def open_spider(self, spider): print(
原创 自動化提交數據
工作需要,要往後臺添加數據,我又太懶,不想一個一個點,所以寫了一個自動提交工具,使用selenium+爬蟲做的一個小工具。懶是我進步的階梯。 添加數據頁面 from selenium import webdriver from sel
原创 熱播電影推薦
練習xPath,爬取豆瓣正在放映電影,獲取電影信息,按評分對電影排序。 import requests from lxml import etree import operator def get_text(): # 把
原创 裂縫檢測標記
閒來無事,做的一個小東西。效果圖: 既然能檢測裂縫,那是不是……本來想開個車,奈何代碼有bug,又不想改,就算了吧 代碼如下: srcImg=imread('3.jpg'); %圖片讀取 subplot(3,4,1); i
原创 redis學習記錄(2)持久化&redis複製
目錄 一、redis持久化 (1)AOF 1、什麼是AOF 2、三種策略 AOF重寫? AOF重寫配置: (2)RDB 1、什麼是RDB? 2、觸發機制 (3)RDB和AOF比較 二、redis複製的原理與優化 1、什麼是主從配置
原创 使用celery
main.py from tasks import send_mail if __name__ == '__main__': send_mail.delay() tasks.py # celery # pip install
原创 Scrapy 框架流程詳解
框架流程圖 Scrapy 使用了 Twisted 異步非阻塞網絡庫來處理網絡通訊,整體架構大致如下(綠線是數據流向): 簡單敘述一下每層圖的含義吧: Spiders(爬蟲):它負責處理所有Responses,從中分析提取數據,
原创 表情包爬蟲
一、同步爬蟲 import requests from lxml import etree from urllib import request import os import re import time def get_p
原创 爬蟲之全國天氣最低的十個城市
__author__ = '田明博' __date__ = '2019/10/9 21:23' ''' 獲取所有城市的天氣預報,按最低溫度排名 ''' import requests import operator from bs4 i
原创 Scrapy保存圖片&自定義保存
一、爬取暱圖網 第一步: 1、新建項目 scrapy startproject nituwang 2、新建爬蟲 scrapy genspider nituwang_spider nipic.com 3、更改設置 …… 第二步: 1、
原创 redis學習記錄(4)redis集羣
一、Redis Cluster 1、集羣 (1)單個redis存在不穩定性。當redis服務宕機了,就沒有可用的服務了。 (2)單個redis的讀寫能力是有限的。 2、數據分佈 分佈式數據庫首先要解決把整個數據集按照分區規
原创 Django+scrapy結合elasticsearch構建搜索引擎(一)
這個項目是大四上學期實習的一個項目。因爲我正好也在學Scrapy,所以就以這個作爲項目。也可能作爲我的畢業設計。 github地址:https://github.com/tianmingbo/scrapy-elastic 一、elasti
原创 redis學習記錄(3)redis高可用理解
一、主從複製存在的問題 一旦主節點出現故障, 需要手動將一個從節點晉升爲主節點, 同時需要修改應用方的主節點地址, 還需要命令其他從節點去複製新的主節點, 整個過程都需要人工干預。 二、高可用 redis sentine