原创 肯德基爬蟲 (案例練習:ajax、post)

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import urllib.parse # ajax post po

原创 百度翻譯爬蟲(案例練習:POST 請求)

#!/usr/bin/env python # -*- coding:utf-8 -*- import urllib.request import urllib.parse import json import ssl # 通過抓包

原创 百度貼吧爬蟲(案例練習:GET 請求)

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib.request import urllib.parse import ssl get_url = 'http

原创 豆瓣爬蟲 (CookieJar練習 :爬取用戶登入後的響應頁面)

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import urllib.parse from http.cooki

原创 global、nonlocal 作用域

一句話: global:你要重新賦值,就要聲明;不聲明,就只能引用變量 nonlocal: 不管你用,還是賦值,都需要聲明!!! 注: 這裏的用的意思是:使用該變量做運算,但是 不改變 該 變量名 的 原始值 賦值的意思是:將

原创 window系統 安裝scrapy 報錯:Microsoft Visual C++ 14.0 is required……

window系統 安裝scrapy 會報缺少gcc+     安裝錯誤解決 building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is requ

原创 日期時間轉換

import datetime newsTime='Sun 23 Apr 2017 05:15:05' GMT_FORMAT = '%a %d %b %Y %H:%M:%S' newsTime=datetime.datetime.str

原创 數據解析 保存csv文件 提取數據遇到逗號 如何處理

https://blog.csdn.net/lanji1988/article/details/60139600     csv寫入時指定表頭 https://blog.csdn.net/zn505119020/article/detai

原创 requests(打印日誌 | 連接數據庫 | 獲取動態代理 | 爬取數據)

import requests import logging import time import json import pymysql import os # 打印日誌 log_name = 'sb_spider_log.log'

原创 用virtualenv管理Python3運行環境

用virtualenv管理Python3運行環境: https://www.cnblogs.com/hiddenfox/p/virtualenv-python3.html   解決centos7 中安裝virtualenvwrapper配

原创 進程線程協程的區別

https://www.cnblogs.com/lei0213/p/8393323.html ### 進程池 一個進程佔用一個CPU,佔用一定的內存空間。一般CPU配置都是4核,如果開的進程太多,其他的程序就得等着。 ###### 什麼情

原创 單例模式

class A(object): instance = None def __new__(cls, *args, **kargs): if cls.instance is None:

原创 進程

首先,先從多任務講起: 現代操作系統(Windows、Mac OS X、Linux、UNIX等)都支持"多任務" 什麼叫多任務??? 操作系統同時可以運行多個任務 早期電腦都是單核cpu,他執行任務原理: 操作系統輪流讓各個任務交替執

原创 取餘和取模的區別

>> mod(5,2) ans =1 % 除數是正,餘數就是正 >> mod(-5,2) ans =1 >> mod(5,-2) ans =-1 % 除數是負,餘數就

原创 線程池

#! /usr/bin/env python # -*- coding: utf-8 -*- # see https://www.cnblogs.com/zhang293/p/7954353.html import time from