台部落小羽飞

requests 下的代理使用使用代理 IP，這是爬蟲/反爬蟲的第二大招，通常也是最好用的。很多網站會檢測某一段時間某個 IP 的訪問次數(通過流量統計，系統日誌等)，如果訪問次數多的不像正常人，它會禁止這個 IP 的訪問。所以我們

2019-05-29 20:00:57

2019-05-29 20:00:57

創建數組創建一維數組 arr = np.array([1, 2, 3, 4]) ## 一維數組創建二維數組 arr2 = np.array([[1, 2, 3, 4], [4, 6, 7, 8], [7, 8, 9, 10]]

2019-05-29 20:00:57

1 創建矩陣方法一 matr1 = np.mat('1,2,3;4,5,6;7,8,9') 括號裏面使用引號開始，然後使用分號隔開，隔開後的數爲矩陣的一行元素方法二 matr2 = np.matrix([[1, 2, 3], [4,

2019-05-29 20:00:57

Logging 1、Scrapy 提供了 log 功能，可以通過 logging 模塊使用。可以修改配置文件 settings.py，任意位置添加下面兩行，效果會清爽很多。 LOG_FILE = "meiju.log" LOG_LE

2019-05-29 20:00:57

在開始爬取之前，必須創建一個新的 Scrapy 項目。進入自定義的項目目錄中，運行下列命令：創建項目命令 scrapy startproject 項目名稱切換到項目下 cd 項目名稱目錄同時找到項目所見的文件夾，使用pychar

2019-05-29 20:00:57

常用的分析參數 #1 排序 # arr2 = np.random.randint(1,10,size=(3,3)) # print(arr2) # arr2.sort(axis=0) # 默認是橫向排序，需要縱向排序時設置ax

2019-05-29 20:00:57

一、什麼是 SSL 證書？如何檢查網站是否部署了 SSL 證書？如果你能使用 https:// 來訪問某個網站，就表示此網站是部署了 SSL 證書。一般來講，如果此網站部署了 SSL 證書，則在需要加密的頁面會自動從 ht

2019-05-29 20:00:57

2019-05-29 20:00:57

2019-05-29 20:00:57

生產者與消費者模 1. 隊列(1) 特點：先進先出 (2) python2 VS python3： (3)使用 Python的Queue模塊中提供了同步的、線程安全的隊列類，包括FIFO（先入先出)隊列Queue，LIFO（

2019-05-14 18:31:40

scrapy框架簡介 Scrapy 是用純 Python 實現一個爲了爬取網站數據、提取結構性數據而編寫的應用框架，用途非常廣泛。框架的力量，用戶只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。

2019-05-14 18:31:40

最近一直在聯繫爬蟲，所以對一些網站抓取信息是遇到了問題，這裏總結一下我愛我家的問題在以往的練習時，xpath是我最常用的方法，這次也不例外好的，我們開始爬取數據第一步，接口查找 https://bj.5i5j.com/zufan

2019-05-13 06:23:22

繼續優化騰訊招聘的代碼，這樣我們使用多線程其中的不同和需要注意的地方我都做了標識和註釋，直接給大家代碼吧，修改的地方不是很多，大家自己對照 import random import threading import requests

2019-05-13 06:23:22

之前說過騰訊招聘的數據爬取，但是效率實在是有一些低，這樣，今天我們使用多線程的方式來爬取數據，然後先簡單回顧一下多線程多線程類似於同時執行多個不同程序，多線程運行有如下優點：使用線程可以把佔據長時間的程序中的任務放到後臺去處理。

2019-05-13 06:23:22