原创 python imblearn toolbox 解決數據不平衡問題(四)——聯合採樣、集成採樣、其它細節

一、Combination of over- and under-sampling 主要是解決SMOTE算法中生成噪聲樣本,解決方法爲cleaning the space resulting from over-sampling。 主

原创 imbalanced-learn API 傳送門

imbalanced-learn API API詳情可見User guide 或者見我的其餘四篇關於imblearn的博客,即我翻譯的doc: 1.python imblearn toolbox 解決數據不平衡問題(一)——imble

原创 python imblearn toolbox 解決數據不平衡問題(二)——over-sampling上採樣

作爲imblearn介紹的第二節,介紹imblearn中上採樣的方法和基本原理。 基本用法框架 from imblearn.over_sampling import RandomOverSampler ros = RandomOver

原创 LeetCode刷題自己寫的Python3代碼答案(持續更新)

筆者也是菜鳥一枚,僅要求把題目做出,對算法的優化沒有能力做太多處理,希望大家給出改進意見. 1. Two Sum Given an array of integers, return indices of the two numbe

原创 Python3刷LeetCode基礎用法回顧彙總(持續更新)

筆者從2019年三月開始日刷一條LeetCode題目,LeetCode彙總了公司面試中常見的題目,免費題目有很多,分Easy,Medium,Hard等級,由於筆者對Python的很多常見用法未做過總結,藉此機會總結用到的基本用法,算作

原创 天池賽學習筆記——使用sklearn+機器學習進行分類/迴歸任務之(二)數據集劃分、預處理和特徵工程

上一篇博文介紹了讀取csv文件和可視化數據的過程,完成這兩步後,我們對數據集和問題有了直觀的理解,而天池、kaggle等競賽會給我們需要提交結果的數據集和有標籤的數據集。接下來,我們需要對數據集進行劃分,以用於模型訓練和驗證. 數據集

原创 天池賽學習筆記——使用sklearn+機器學習進行分類/迴歸任務之(一)數據讀取和分析

一、數據讀取 在數據處理時,最常見的文件格式是.csv和.txt我們主要使用pandas的read_csv來讀取數據。 read_csv的文檔網址爲:http://pandas.pydata.org/pandas-docs/stabl

原创 Python爬蟲——按照關鍵詞爬取視覺中國高清圖像

當前對版權保護日益嚴格,因此在此說明爬取的圖像僅做研究和個人使用,禁止用作商用目的。 該爬蟲方法可應用到其它允許爬蟲的網址 查看網頁源代碼尋找高清圖像鏈接 以關鍵詞明星爲例,搜索後的網址爲 https://www.vcg.com/cr

原创 表情識別數據集彙總

參考文獻:Deep Facial Expression Recognition: A Survey. 網址:https://arxiv.org/pdf/1804.08348.pdf CK+:http://www.pitt.edu/

原创 Libsvm在windows下使用細節彙總

0.下載Libsvm Libsvm官網 https://www.csie.ntu.edu.tw/~cjlin/libsvm/ 下載後將其解壓到本地,這裏,我的本地路徑爲: C: \Anaconda3\Lib\sit-packages\

原创 Python調用face++API完成本地圖片的人臉檢測

Python調用face++API完成本地圖片的人臉檢測 簡單調用face++API對本地圖片進行人臉檢測,輸出基本信息到csv文件。 註冊face++賬號 face++網址 https://www.faceplusplus.com.

原创 經典的機器學習二分類算法——Logistic迴歸

問題描述 對於維度爲m+1m+1 特徵爲xx 樣本的二分類問題,有負類(Negative Class)記爲00 ,正類(Positive Class)記爲11 ,即對於類別yy ,有 y∈{0,1}.y∈{0,1}. 我們期望找到一個

原创 使用matplotlib繪圖庫的pyplot快速繪圖

使用matplotlib繪圖庫的pyplot快速繪圖 matplotlib是Python最常用的繪圖庫,在結果或數據可視化中常用pyplot實現快速繪圖,下面參考張若愚主編的Python科學計算(第2版)介紹pyplot繪圖: 導入py