原创 在爬取網站中的代理設置,爬蟲利器

requests 下的代理使用 使用代理 IP,這是爬蟲/反爬蟲的第二大招,通常也是最好用的。 很多網站會檢測某一段時間某個 IP 的訪問次數(通過流量統計,系統日誌等),如果訪問次數多的不像正常人,它會禁止這個 IP 的訪問。 所以我們

原创 pandas思維導圖

原创 python下的numpy模塊的常用方法(總結)

創建數組  創建一維數組   arr = np.array([1, 2, 3, 4])  ## 一維數組 創建二維數組 arr2 = np.array([[1, 2, 3, 4], [4, 6, 7, 8], [7, 8, 9, 10]]

原创 用python來操作矩陣運算

1 創建矩陣 方法一 matr1 = np.mat('1,2,3;4,5,6;7,8,9')  括號裏面使用引號開始,然後使用分號隔開,隔開後的數爲矩陣的一行元素 方法二 matr2 = np.matrix([[1, 2, 3], [4,

原创 scrapy的日誌功能 Logging

Logging   1、Scrapy 提供了 log 功能,可以通過 logging 模塊使用。 可以修改配置文件 settings.py,任意位置添加下面兩行,效果會清爽很多。 LOG_FILE = "meiju.log" LOG_LE

原创 使用scrapy 框架來抓取100部美劇的信息

在開始爬取之前,必須創建一個新的 Scrapy 項目。進入自定義的項目目錄中,運行下列命令: 創建項目命令 scrapy startproject 項目名稱 切換到項目下 cd 項目名稱目錄 同時找到項目所見的文件夾 ,使用pychar

原创 numpy下常用的數據統計函數

常用的分析參數 #1 排序 # arr2 = np.random.randint(1,10,size=(3,3)) # print(arr2) # arr2.sort(axis=0) # 默認是橫向排序,需要縱向排序時設置ax

原创 SSL-校驗網站證書的問題解決

一、什麼是 SSL 證書?如何檢查網站是否部署了 SSL 證書?        如果你能使用 https:// 來訪問某個網站,就表示此網站是部署了 SSL 證書。一般來講,如果此網站部署了 SSL 證書,則在需要加密的頁面會自動從 ht

原创 MATPLOTLIP 思維導圖

原创 numpy思維導圖

原创 生產者和消費者回顧

生產者與消費者模 1. 隊列(1) 特點:先進先出 (2) python2 VS python3: (3)使用       Python的Queue模塊中提供了同步的、線程安全的隊列類,包括FIFO(先入先出)隊列Queue,LIFO(

原创 scrapy框架的介紹

scrapy框架簡介 Scrapy 是用純 Python 實現一個爲了爬取網站數據、提取結構性數據而編寫的應用框架,用途非常廣泛。 框架的力量,用戶只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便。

原创 爬取我愛我家租房信息時 問題總結(付代碼)

最近一直在聯繫爬蟲,所以對一些網站抓取信息是遇到了問題,這裏總結一下我愛我家的問題 在以往的練習時,xpath是我最常用的方法,這次也不例外 好的,我們開始爬取數據 第一步 ,接口查找  https://bj.5i5j.com/zufan

原创 多線程爬取,效率提升很多哦

繼續優化騰訊招聘的代碼,這樣我們使用多線程其中的不同和需要注意的地方我都做了標識和註釋,直接給大家代碼吧 ,修改的地方不是很多,大家自己對照 import random import threading import requests

原创 使用線程方式對騰訊招聘進行數據抓取

之前說過騰訊招聘的數據爬取,但是效率實在是有一些低, 這樣 ,今天我們使用多線程的方式來爬取數據,然後先簡單回顧一下多線程 多線程類似於同時執行多個不同程序,多線程運行有如下優點: 使用線程可以把佔據長時間的程序中的任務放到後臺去處理。