原创 Python 常用小技巧(持續更新)

1、python any()和all()用法 # any() 如果有一個不爲空則返回True # all() 全部不爲空才返回True print(any([1, "123", False])) # True print(any([0

原创 爬蟲篇(3)scrapy 去重與 scrapy_redis 去重與布隆過濾器(轉)

在開始介紹 scrapy 的去重之前,先想想我們是怎麼對 requests 對去重的。requests 只是下載器,本身並沒有提供去重功能。所以我們需要自己去做。很典型的做法是事先定義一個去重隊列,判斷抓取的 url 是否在其中,如下:

原创 爬蟲篇(2.1)selenium開啓開發者模式

from selenium import webdriver class IPPOOlS(object): def __init__(self,ip=""): chromeOptions = webdriver.

原创 爬蟲篇(2.3)scrapy通用爬蟲以及setting設置中一些提升效率的方式

通用爬蟲(Broad Crawls) Scrapy默認對特定爬取進行優化。這些站點一般被一個單獨的Scrapy spider進行處理, 不過這並不是必須或要求的(例如,也有通用的爬蟲能處理任何給定的站點)。 除了這種爬取完某個站點或沒有更

原创 爬蟲篇(2)使用pyexecjs破解js中cookies

首先下載pyexecjs: pip install  PyExecJS  如果有需要,自行下載PyV8 , Node.js , PhantomJS等 使用參考:https://github.com/doloopwhile/PyExecJ

原创 爬蟲篇(2.2)使用scrapy-jsonrpc簡單教程

首先安裝scrapy-jsonrpc: pip install scrapy-jsonrpc 打開你的爬蟲項目中setting.py文件,加入如下代碼進行配置: EXTENSIONS = { 'scrapy_jsonrpc.w

原创 爬蟲篇(1)-Scrapy - 基礎(轉)

Scrapy Scrapy,Python開發的一個快速、高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試。 Scrapy吸引人的地方在於它是一

原创 機器學習四(學習筆記) 迴歸算法(轉)

迴歸算法 迴歸是統計學中最有力的工具之一。機器學習監督學習算法分爲分類算法和迴歸算法兩種,其實就是根據類別標籤分佈類型爲離散型、連續性而定義的。迴歸算法用於連續型分佈預測,針對的是數值型的樣本,使用迴歸,可以在給定輸入的時候預測出

原创 機器學習一(學習筆記) 數據的特徵抽取及預處理

Scikit-learn 安裝Scikit-learn pip3 install Scikit-learn pip3 install scipy 一、數據的特徵抽取 現實世界中多數特徵都不是連續變量,比如分類、文字、圖像等,爲了

原创 機器學習三(學習筆記) 樸素貝葉斯和隨機森林1.2(轉)

一、樸素貝葉斯 樸素貝葉斯(Naive Bayes)是一個非常簡單,但是實用性很強的分類模型。樸素貝葉斯分類器的構造基礎是貝葉斯理論。 1、概率論基礎 概率定義爲一件事情發生的可能性。事情發生的概率可以 通過觀測數據中的事件發

原创 數據分析-03數據分析之Pandas(一)(轉)

第三部分數據分析工具Pandas Pandas的名稱來自於面板數據(panel data)和Python數據分析(data analysis)。 Pandas是一個強大的分析結構化數據的工具集,基於NumPy構建,提供了 高級

原创 機器學習二(學習筆記) sklearn數據集及K近鄰算法(轉)

機器學習應用程序的步驟 (1)收集數據 我們可以使用很多方法收集樣本護具,如: 公司自有數據 製作網絡爬蟲從網站上抽取數據、 第三方購買的數據 合作機構提供的數據 從RSS反饋或者API中得到信息、設備發送過來的實測數據。 (2)

原创 學習筆記(01):Python+Vue+Django前後端分離項目實戰-完成導出到Excel的功能

立即學習:https://edu.csdn.net/course/play/27695/375050?utm_source=blogtoedu導出的Excel不能導入,希望能優化一下

原创 Linux Ubuntu 忘記密碼時重置密碼

  一,重啓系統並長按shift,進入GNU GRUR後選中“Ubuntu 高級選項”,回車 二、選中帶有“recovery mode”,按“e”,進行編輯 三、找到並將“recovery nomodeset” 改成  quiet

原创 爬蟲篇(9)Fiddler抓包請求一鍵轉換成python代碼

前言:前段時間由於需求,用Fiddler各種抓包,各種分析,主要是測試請求時添加cookie、添加請求頭、添加url, 雖然前面有一鍵轉換cookie/headers的工具(可以看我前面博客),但還是有些煩瑣。 想着能不能將Fiddler