原创 MongoDB增刪改查的使用

使用mongodb的好處就是想怎麼存就怎麼存,不需要考慮表格的結構,所以特別適合存儲爬蟲數據。首先官網下載對應版本的MongoDB,然後安裝到指定路徑中,使用cmd進入目標bin文件夾,命令如下: C:\Users>d: D:\

原创 使用Tesseract識別圖片,獲取自如房子價格

mport pytesseract import requests import re from bs4 import BeautifulSoup from PIL import Image def get_data():

原创 爬取摩拜單車的車輛定位信息

需要注意的地方就是添加請求頭,scrapy使用帶有表單數據請求的方式,spider文件如下: # -*- coding: utf-8 -*- import scrapy import csv import json class

原创 MySQL、SQLyog的使用

MySQL: mysql作爲關係型數據庫,具有約束性,需要提前定義好字段、數據類型、大小等條件,適用於海量數據的存儲。因爲在查詢大量數據的時候MySQL具有高效性,但是得提前定義好表得結構,比excel使用起來效率會高很多。並且M

原创 CrawlSpider爬取自如網

首先做一下頁面分析: 再看一下我的文件結構,因爲是使用crwalspider,所以的話,我們先寫每一個頁面的詳情頁面鏈接的提取器,可以邊寫邊調試,驗證代碼是否存在bug,便於及時修改。 寫好了詳情頁的鏈接提取規則,然後查看re

原创 smtp結合excel發送郵件

Excel文件用於存放信息,郵箱還需開啓smtp服務: 實現代碼如下: import smtplib from email.mime.multipart import MIMEMultipart from email.mime.

原创 爬取全書網

# 全書網小說爬取 import re import requests class QuanShuSpider(object): def __init__(self): self.headers = {

原创 RedisCrawlSpider爬取噹噹圖書信息

首先查看以下噹噹網的頁面結構,可以看到的是圖書的大小分類都在class="con flq_body"的div中。記得要看看頁面源代碼中是否有這些數據噢 然後可以看到所有小分類的鏈接都在class="inner dl"的dl標籤中

原创 拉勾網招聘python工作年限要求分佈情況

數據是之前爬取到的。這裏使用jupyter notebook,開始先導入庫: import matplotlib from matplotlib import pyplot as plt import pandas as pd i

原创 Redis的數據類型及常用增刪改查

Redis: 爲NoSQL型數據庫, 主要數據結構有string、list、set、hash、zset 優勢: 1.存儲速度快、2.數據結構豐富、3.可用於緩存、消息等 我選擇將redis安裝在d盤,打開cmd開啓Redis服務端

原创 jupyter notebook快速入門及python讀寫文件

簡介: jupyter notebook是一個輕量級,可以使用web進行編寫代碼的程序,非常適用於數據分析等,不僅可以寫代碼,還可以使用markdown語言,代碼執行結果可隨時查看。如果一次讀取文件的文件過大,使用pycharm操

原创 scrapy使用ImagePipeline或FilesPipeline保存文件

三個步驟: 1.設置Items字段, file_urls、image_urls即是下載文件的URL,注意的是需要以列表的形式傳遞值 2.設置儲存路徑,開啓Pipeline 3.寫爬蟲文件,注意要從items文件導入item

原创 scrapy-redis的settings文件配置

提前安裝scrapy_redis庫,下載redis數據庫,打開redis服務端,然後直接創建scrapy文件,最後添加以下常量至settings文件即可實現分佈式 DUPEFILTER_CLASS = "scrapy_redis.

原创 MongoDB的分類、聚合

mongodb的find方法雖然可以查詢到數據,但是需要做分類、聚合的時候,有時候就不夠用了,所以就需要用到aggregate方法。 在mongodb中是通過管道對數據進行分組、過濾等功能的實現,可以由多個管道經過一系列的處理,獲

原创 Redis和Python交互

首先需要下載安裝redis庫 pip install redis 記得要先使用cmd或者手動打開redis數據庫得服務端,然後再開始寫代碼,以下是使用python操作string類型的簡單增刪改查的測試 import redis