原创 基礎篇(7)多線線程+對象實現爬蟲
import time import random import re import os from urllib import request import requests import threading from lxm
原创 Python進階篇:11 persistqueue隊列
官網地址:https://github.com/peter-wangxu/persist-queue 安裝 pip install persist-queue persist-queue是針對線程安全,基於磁盤的python隊列。默認情況
原创 Python進階篇:9 內置模塊uuid/base64/hashlib/hmac
1、uuid模塊 uuid:是128爲全局唯一標識符,通常由32字節的字母串表示,它可以保證時間和空間的唯一性,也稱爲GUID 原理:通過mac地址、時間戳、命令空間、隨機數、僞隨機數來保證生產的ID的唯一性 【作用】 隨機生
原创 Python進階篇:10 內置模塊collections/itertools
1、collections模塊 from collections import namedtuple,deque,defaultdict,OrderedDict,Counter ''' collections是python內置的集合模塊
原创 可視化基礎篇:1pyecharts應用
1、pyecharts 安裝:pip install -i https://pypi.douban.com/simple pyecharts 官網地址:https://github.com/pyecharts/pyecharts 【柱狀圖
原创 python入門篇7:生成器迭代器
1、生成器 1、可以被next()函數調用並不到返回一個值的對象稱爲迭代器對象Iterator 2、迭代器不但可以作用for循環,還可以被next()調用 # 爲什麼list,dict,str,set等數據類型不是Iterator #
原创 基礎篇之requests模塊
1、requests模塊 import requests from fake_useragent import UserAgent headers={"Referer":"http://www.angelimg.com"} url =
原创 Pandas層級索引/分組和聚合/透視表
1、pandas層級索引 pandas的層級索引對象就是MulitIndex。設置多個索引列需要使用set_index()方法,當要多層級索引進行排序時需要使用sort_index()方法。 【set_index()】 d
原创 Python進階篇:4 pandas基礎篇
Pandas是一個強大的分析結構化數據的工具集。 1、Pandas中的數據結構 1.1、數據結構Series Pandas中的Series對象類似一維數組的對象。Series對象是由數據和索引組成。構建Series對象常見方式: (1)通
原创 Python進階篇:3Numpy應用
NumPy的全英文是Numerical Python,是高性能科學計算和數據分析的基礎包,提供多維數組對象。ndarray多維數組或叫矩陣,具有矢量運算能力,快速節省空間;矩陣運算,無需循環,可完成類似Matlab中的矢量運算;線
原创 scrapy框架自定義UserAgent/Cookies/代理IP應用
1、scrapy框架自定義UserAgent 配置UserAgent需要middlewares.py在文件中配置 1.1、自定義UserAgent方法一: class UserAgentDownloadMiddleware(object
原创 Charler/Fiddler/Mitmroxy/Appium安裝及使用
1、Charles安裝及使用 首先Charles工具的下載地址是https://www.charlesproxy.com/。 1.1、Charles證書配置 如果是在window下安裝Charles,配置證書如下操作: 首先打開charl
原创 scrapy框架中item pipeline應用
1、item pipeline說明 編寫item pipeline很簡單,item pipiline組件是一個獨立的Python類,其中process_item()方法必須實現: import something class Some
原创 scrapy篇(1)scrapy入門
【傳統爬蟲流程】 1、scrapy爬蟲基本概念 【概念說明】 (1)Scheduler:是一個調度器; (2)Downloader:下載器; (3)Item Pipeline:數據管道 (4)Scarpy Engine:爬蟲引擎
原创 python入門篇5:數據庫操作mysql/redis/mongodb
1、mysql數據庫操作 在python3中使用mysql數據庫需要安裝PyMysql模塊。 pip3 install PyMysql 【python訪問mysql數據庫的流程】 1.1、py與mysql交互的相關概念 【Connec