原创 基礎篇(7)多線線程+對象實現爬蟲

    import time import random import re import os from urllib import request import requests import threading from lxm

原创 Python進階篇:11 persistqueue隊列

官網地址:https://github.com/peter-wangxu/persist-queue 安裝 pip install persist-queue persist-queue是針對線程安全,基於磁盤的python隊列。默認情況

原创 Python進階篇:9 內置模塊uuid/base64/hashlib/hmac

1、uuid模塊 uuid:是128爲全局唯一標識符,通常由32字節的字母串表示,它可以保證時間和空間的唯一性,也稱爲GUID    原理:通過mac地址、時間戳、命令空間、隨機數、僞隨機數來保證生產的ID的唯一性 【作用】    隨機生

原创 Python進階篇:10 內置模塊collections/itertools

1、collections模塊 from collections import namedtuple,deque,defaultdict,OrderedDict,Counter ''' collections是python內置的集合模塊

原创 可視化基礎篇:1pyecharts應用

1、pyecharts 安裝:pip install -i https://pypi.douban.com/simple pyecharts 官網地址:https://github.com/pyecharts/pyecharts 【柱狀圖

原创 python入門篇7:生成器迭代器

1、生成器 1、可以被next()函數調用並不到返回一個值的對象稱爲迭代器對象Iterator 2、迭代器不但可以作用for循環,還可以被next()調用 # 爲什麼list,dict,str,set等數據類型不是Iterator #

原创 基礎篇之requests模塊

1、requests模塊 import requests from fake_useragent import UserAgent headers={"Referer":"http://www.angelimg.com"} url =

原创 Pandas層級索引/分組和聚合/透視表

1、pandas層級索引       pandas的層級索引對象就是MulitIndex。設置多個索引列需要使用set_index()方法,當要多層級索引進行排序時需要使用sort_index()方法。 【set_index()】 d

原创 Python進階篇:4 pandas基礎篇

Pandas是一個強大的分析結構化數據的工具集。 1、Pandas中的數據結構 1.1、數據結構Series Pandas中的Series對象類似一維數組的對象。Series對象是由數據和索引組成。構建Series對象常見方式: (1)通

原创 Python進階篇:3Numpy應用

    NumPy的全英文是Numerical Python,是高性能科學計算和數據分析的基礎包,提供多維數組對象。ndarray多維數組或叫矩陣,具有矢量運算能力,快速節省空間;矩陣運算,無需循環,可完成類似Matlab中的矢量運算;線

原创 scrapy框架自定義UserAgent/Cookies/代理IP應用

1、scrapy框架自定義UserAgent 配置UserAgent需要middlewares.py在文件中配置 1.1、自定義UserAgent方法一: class UserAgentDownloadMiddleware(object

原创 Charler/Fiddler/Mitmroxy/Appium安裝及使用

1、Charles安裝及使用 首先Charles工具的下載地址是https://www.charlesproxy.com/。 1.1、Charles證書配置 如果是在window下安裝Charles,配置證書如下操作: 首先打開charl

原创 scrapy框架中item pipeline應用

1、item pipeline說明 編寫item pipeline很簡單,item pipiline組件是一個獨立的Python類,其中process_item()方法必須實現: import something class Some

原创 scrapy篇(1)scrapy入門

【傳統爬蟲流程】 1、scrapy爬蟲基本概念    【概念說明】 (1)Scheduler:是一個調度器; (2)Downloader:下載器; (3)Item Pipeline:數據管道 (4)Scarpy Engine:爬蟲引擎

原创 python入門篇5:數據庫操作mysql/redis/mongodb

1、mysql數據庫操作 在python3中使用mysql數據庫需要安裝PyMysql模塊。 pip3 install PyMysql  【python訪問mysql數據庫的流程】 1.1、py與mysql交互的相關概念 【Connec