原创 多線程抓取糗事百科

#!/usr/bin/env python # -*- coding:utf-8 -*- import threading from Queue import Queue from lxml import etree import re

原创 Tesseract

import pytesseract from PIL import Image image = Image.open('./test.png') text = pytesseract.image_to_string(image) pri

原创 鬥魚抓取

#coding:utf-8 from selenium import webdriver from bs4 import BeautifulSoup as bs driver = webdriver.PhantomJS() driver

原创 關於反爬蟲,這一篇就夠了

你被爬蟲侵擾過麼?當你看到“爬蟲”兩個字的時候,是不是已經有點血脈賁張的感覺了?千萬要忍耐,稍稍做點什麼,就可以在名義上讓他們勝利,實際上讓他們受損失。一、爲什麼要反爬蟲1、爬蟲佔總PV比例較高,這樣浪費錢(尤其是三月份爬蟲)。三月份爬蟲

原创 Selenium 和 PhantomJS

Selenium是一個Web的自動化測試工具,最初是爲網站自動化測試而開發的,類型像我們玩遊戲用的按鍵精靈,可以按指定的命令自動操作,不同是Selenium 可以直接運行在瀏覽器上,它支持所有主流的瀏覽器(包括PhantomJS這些無界面

原创 flask-sqlalchemy 快速入門

Flask-SQLAlchemy 使用起來非常有趣,對於基本應用十分容易使用,並且對於大型項目易於擴展。有關完整的指南,請參閱 SQLAlchemy 的 API 文檔。一個最小應用常見情況下對於只有一個 Flask 應用,所有您需要做的事

原创 CSS 選擇器:BeautifulSoup4

和 lxml 一樣,Beautiful Soup 也是一個HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 數據。lxml 只會局部遍歷,而Beautiful Soup 是基於HTML DOM的,會載入整個文檔,解

原创 數據提取之JSON與JsonPATH

JSON(JavaScript Object Notation) 是一種輕量級的數據交換格式,它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行數據交互的場景,比如網站前臺與後臺之間的數據交互。JSON和XML的

原创 mysql優化

表的優化與列類型選擇表的優化:1: 定長與變長分離如 id int, 佔4個字節, char(4) 佔4個字符長度,也是定長, time 即每一單元值佔的字節是固定的.核心且常用字段,宜建成定長,放在一張表.而varchar, text,

原创 selenium + phantomjs 登錄豆瓣

#coding:utf-8 from selenium import webdriver from selenium.webdriver.common.keys import Keys import time import urllib

原创 抓取糗事百科

# -*- coding:utf-8 -*- import requests from lxml import etree page = 1 url = "https://www.qiushibaike.com/text/page/" +

原创 wtforms 簡介

WTForms是一個支持多個web框架的form組件,主要用於對用戶請求數據進行驗證。安裝:pip3 install wtformsWTforms作用:當網站中需要用到表單時,WTForms變得很有效。應該把表單定義爲類,作爲單獨的一個模

原创 Scrapy 和 scrapy-redis的區別

Scrapy 是一個通用的爬蟲框架,但是不支持分佈式,Scrapy-redis是爲了更方便地實現Scrapy分佈式爬取,而提供了一些以redis爲基礎的組件(僅有組件)。pip install scrapy-redisScrapy-red

原创 scrapy框架

Scrapy 框架Scrapy是用純Python實現一個爲了爬取網站數據、提取結構性數據而編寫的應用框架,用途非常廣泛。框架的力量,用戶只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便。Scrapy

原创 數據庫的三大範式

   範式:英文名稱是 Normal Form,它是英國人 E.F.Codd(關係數據庫的老祖宗)在上個世紀70年代提出關係數據庫模型後總結出來的,範式是關係數據庫理論的基礎,也是我們在設計數據庫結構過程中所要遵循的規則和指導方法。目前有