原创 pandas操作excel文件的小技巧

pandas讀取excel設置第一列爲序號 設置參數index_col=0可以設置讀取excel時第一列爲序號,否則會自動添加一列序號從0開始: data = pd.read_excel(file_path, index_col=

原创 numpy.random.choice函數詳解

函數參數: numpy.random.choice(a, size=None, replace=True, p=None) 參數 解釋 a 一維數組或整數。如果是個數組,則新的樣本元素來自這個數組;如果是整數,隨機樣

原创 機器學習步驟——以房價預測爲例

導入數據 數據清洗 數據清洗的一些梳理 查看數據,對數據有一個直觀的理解,初步發現一些問題; 例如:kaggle房價預測先查看每個數據的具體意義和數據類型和Exel對比。 kaggle房價預測數據集的具體描述 缺失值清洗 格式內

原创 機器學習sklearn數據預處理:歸一化-標準化/區間縮放-調整尺度/正態化

在sklean的預處理方法中主要有三種,每一種都有函數方法和類方法兩種使用方法: 歸一化-標準化:normalize()函數/Normalizer()類 區間縮放-調整尺度: minmax_scale函數/MinMaxScaler

原创 (一)機器學習實踐Python3-KNN的一個簡單案例

代碼中【1】【2】參照後面博客 import numpy as np from operator import itemgetter def creat_dataset(): group = np.array([[1.

原创 機器學習優秀博客推薦

線性迴歸(Linear Regression) 決策樹(Decision Tree) 聚類(Clustering)-機器學習_周志華 直觀的解釋SVM和SVR 峯度與偏度(python,pandas)

原创 kaggle房價預測數據集的具體描述

MSSubClass: Identifies the type of dwelling involved in the sale. 20 1-STORY 1946 & NEWER ALL STYLES 30 1-S

原创 快速排序算法最好懂的代碼(兩種C++寫法帶備註和分析)

博客推薦: 快速排序簡單理解(實現原理以及不穩定性) # include<vector> # include <iostream> //# include<algorithm> using namespace std; ////

原创 scikit-learn實現決策樹並用graphviz/pydotplus實現可視化

1. 用anaconda安裝pydotplus 要說一下的是在python3.5以前用pydot。python3.5及以後pydot已經停止開發了,要用pydotplus。此博客用的python3.7版本。 在anaconda中安

原创 DataFrame和Series轉換爲ndarray的差別

numpy中的ndarray與pandas的Series和DataFrame之間的相互轉換 Series轉換爲ndarray是一個一維數組 DataFrame轉換爲ndarray是一個多維數組

原创 標籤轉換爲獨熱碼的三種方法Python

from keras.datasets import reuters import numpy as np (train_data, train_labels), (test_data, test_labels) = reut

原创 pandas數據聚合方法—agg方法

方法 描述 count 計算分組中非NA值的數量 sum 計算非NA值的和 mean 計算非NA值的平均值 median 計算非NA值的算術中位數 std、var 計算非NA值標準差和方差 min

原创 Python中的np.random.binomial()二項式分佈函數詳解

看了很多博客,感覺很多人對np.random.binomial()的解釋都寫得不是很清楚,或者寫錯了,特別是對該函數的參數解釋。本文以二項式分佈的理論概念爲起點,對該函數進行解釋,歡迎討論指正。 二項式分佈 二項分佈是由伯努利提出

原创 Sklearn之坑及解決方法

例如:如下案例有兩個錯誤 from sklearn.datasets import load_boston from sklearn.feature_selection import SelectKBest from sklear

原创 Python計算一個數組中True或False的個數

例如數組: arr = [True, False, False] 計算True和False的個數: import numpy as np print('True個數:', np.sum(arr!=0)) print('False個