原创 解決selenium + chromedriver被知乎反爬的問題

寫在前面 前兩天想爬知乎,發現用selenium模擬登錄時出現了問題——點擊登錄按鈕沒反應。。。 無論是用webdirver模擬點擊,還是自己手動點擊,都無法跳轉到首頁。 後來發現大概是知乎識別出selenium了。把我們給反爬了

原创 numpy、matplotlib基礎

python List的特點 L=[i for i in range(10)] #對類型不做限定的list,同一個list中,每個元素的類型可以不一樣,但是效率不高 L [0, 1, 2, 3, 4, 5, 6, 7, 8,

原创 機器學習基礎

關於數據 機器學習,需要給算法提供大量的數據,從而在算法中得到相應的關係。 所以,我們需要了解在機器學習領域,與數據相關的概念。下面以著名的鳶尾花數據集爲例,來描述數據相關概念: 注意:特徵向量一般表述爲列向量。 爲了表述方便

原创 什麼是機器學習?

如今機器學習可謂大紅大紫的熱門領域,那麼什麼是機器學習呢? 爲了滿足好奇心,我特意在618活動期間購買了bobo老師的機器學習課程。 所以以下內容,都是我整理的學習筆記喲~ 所謂“機器學習”,就是讓機器去學習。 最早的機器學習應用

原创 elasticsearch搜索引擎的使用

elasticsearch介紹 我們建立一個網站或者程序,希望添加搜索功能,發現搜索工作很難: 我們希望搜索解決方案要高效 我們希望零配置和完全免費的搜索方案 我們希望能夠簡單的通過json和http與搜索引擎交互 我們希望我們的搜

原创 Scrapy進階開發

selenium介紹 1.chromedriver不加載圖片 使用chromedrive時,我們可以設置不加載圖片: chrome_opt = webdriver.ChromeOptions() prefs = {"profile.m

原创 crwalspider全站爬取-拉勾網職位信息

前言 這次我們使用scrapy中的CrawlSpiders爬取拉勾網。CrawlSpiders是Spider的派生類,用於全站爬取。 開始之前,先介紹一個工具——cmder cmder是一款Windows環境下非常簡潔美觀易用的cmd

原创 Scrapy突破反爬蟲限制

爬蟲與反爬蟲的對抗過程 對抗過程: scrapy 架構分析 組件組成: 運作流程: 通過downloadmiddleware隨機更換user-agent User Agent中文名爲用戶代理,簡稱 UA,它是一個特殊字符串頭

原创 Scrapy爬取知乎所有問題和回答

模擬登錄 知乎需要登錄才能進入。 所以,爬取知乎的第一步就是模擬登錄,這裏我們使用的是selenium模擬登錄。 start_requests函數是scrapy中spider的入口,所以模擬登錄應該放在這個函數中,我們重寫start_

原创 selenium最新模擬登錄知乎

selenium模擬登錄,保存cookies 使用selenium模擬登錄,並把cookies保存到本地 現在還沒有遇到大家說的倒立文字驗證碼 等後面遇到了,再做驗證碼處理 由於知乎對selenium做了反爬處理,故此處需要接管本地已

原创 解決selenium模擬登錄知乎 無法點擊登錄按鈕的問題

寫在前面 前兩天想爬知乎,發現用selenium模擬登錄時出現了問題——點擊登錄按鈕沒反應。。。 無論是用webdirver模擬點擊,還是自己手動點擊,都無法跳轉到首頁。 後來發現大概是知乎識別出selenium了。把我們給反爬了。

原创 理解cookie和session

HTTP是一種無狀態的協議,爲了分辨請求是誰發起的,需自己去解決這個問題。不然有些情況下即使是同一個網站每打開一個頁面也都要登錄一下。而cookie就是爲解決這個問題而提出來的機制。 cookie會根據從服務器端發送的響應報文內的一個

原创 python爬蟲-搭建cookies池

寫在前面 前段時間跟着靜覓大神學習了自建ip代理池, 但是很多情況下,頁面的某些信息需要登錄才能查看。 所以,今天又和大神學習了cookies池的搭建。 整體思路 Cookies池的架構和代理池類似,同樣是4個核心模塊(存儲模塊、生成

原创 爬蟲基礎知識回顧

第三章 基礎知識 1.技術選型 Scrapy VS Requests+bs4 requests和bs4都是庫,scrapy是框架。實際上框架是可以繼承很多第三方庫的,所以在scrapy中是可以加入requests和bs4的。 scr

原创 python爬蟲-自建IP代理池

寫在前面 最近跟靜覓大神學習了維護代理池 就藉此機會整理一下 整體思路 代理池主要分爲4個模塊:存儲模塊、獲取模塊、檢測模塊、接口模塊 存儲模塊:使用Redis有序集合,用來做代理的去重和狀態標識 獲取模塊:定時從代理網站獲取代理,