13、python數據標準處理（0-1標準化、Z標準化、normalizer歸一化）

原創

2018-12-13 23:27

數據標準化處理

問題：

量綱不一：就是單位、特徵的單位不一致，不能放在一起比較

處理方法：

0-1標準化、Z標準化、normalizer歸一化

案例：

# -*- coding: utf-8 -*-

import pandas
import numpy

data=pandas.read_csv(
        'D:\\DATA\\pycase\\number2\\6.1\\data1.csv' 
                )

## min-max（0-1）標準化

# 導入（0-1）標準化方法

from sklearn.preprocessing import MinMaxScaler

scaler=MinMaxScaler()

# 錯誤解決ValueError: Expected 2D array, got 1D array instead:
# array=[4742.92 3398.   2491.9  2149.   2070.  ].
# Reshape your data either using array.reshape(-1, 1) if your data has a single feature # # or array.reshape(1, -1) if it contains a single sample.

### 使用array.reshape(-1, 1)重新調整你的數據）python3 加values

data['0-1標準化票房']=scaler.fit_transform(data['票房'].values.reshape(-1,1))
data['0-1標準化評分']=scaler.fit_transform(data['評分'].values.reshape(-1,1))

# Z-score 標準化

from sklearn.preprocessing import scale

data['Z標準化票房']=scale(data['票房'].values.reshape(-1,1))
data['Z標準化評分']=scale(data['評分'].values.reshape(-1,1))

## normalizer 歸一化

from sklearn.preprocessing import Normalizer

scaler=Normalizer()

data['歸一化票房']=scaler.fit_transform(
        data['票房'].values.reshape(1,-1)
        )[0]

data['歸一化評分']=scaler.fit_transform(
        data['評分'].values.reshape(1,-1)
        )[0]

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

數據挖掘實戰--二手車交易價格預測（四）建模調參

建模調參的過程中，嘗試了兩種不同的調參方式——貪心調參和貝葉斯調參。最近事情太多，就劃個水給自己記錄一下即可。貪心調參把求解的問題分成若干個子問題；對每個子問題求解，得到子問題的局部最優解；把子問題的解局部最優解合成原來問題

2020-06-16 06:56:31

數據挖掘實戰--二手車交易價格預測（一）

數據挖掘實戰–二手車交易價格預測（一）疫情影響，約好的實習去不成了。在家充電勢在必行，有在DataWhale內部的同學推薦參加這個數據挖掘的訓練營。想着自己從18年，就斷斷續續的想入ML的坑，剛好系統性的梳理一下自己的知識點。而

2020-06-16 06:56:31

數據挖掘實戰--二手車交易價格預測（二）數據探索性分析（EDA）

包的安裝：採用Anaconda 3進行代碼的編譯，Anaconda 3裏基礎的數據分析包都已經準備好，我們需要安裝的就是sklearn，lightgbm和xgboost包。 Anaconda可以支持我們採取多種方式安裝所需要的包

2020-06-16 06:56:31

26、python密度聚類方法（DBSCAN密度聚類）

1、DBSCAN概念基於密度的帶噪聲的空間聚類應用算法，它是將簇定義爲密度相連的點的大集合，能夠把足夠高密度的區域劃分爲簇，並且可在噪聲的空間數據集中發現任意形狀的聚類。 2、密度聚類和距離聚類密度聚類：只要臨近區域的密度、對象、

2020-06-13 01:52:15

21、python的K-means聚類分析方法案例代碼

1、聚類分析是按照個體的特徵將他們分類，讓同一個類別內的個體之間具有較高的相似度，不同類別之間具有較大的差異性； 2、基本理論 Kmeans：K表示算法當中類的個數 Means 均值算法：K-means 使用均值算法把數據分成k個類別的

2020-06-13 01:52:15

22、python關聯規則案例代碼

1、關聯：（Association）把兩個或者兩個以上在意義上，有密切聯繫的項組合在一起關聯規則（Association Rules AR）用於從大量數據中挖掘出有價值的數據項之間的相關關係協同過濾（Co

2020-06-13 01:52:15

10、python隨機森林代碼案例

目錄 1 概念 2 優點 3 理論方法 4、代碼完整案例 1 概念隨機森林：隨機森林是包含多個決策樹的分類器，並且其輸出類別是由個別樹輸出的類別的衆數而定決策樹見案例：https://blog.csdn.net/qq_36327687

2020-06-13 01:52:15

數據挖掘算法和實踐（六）：seaborn數據可視化探索

有腹肌的小蝌蚪_

2020-04-29 16:58:42

數據挖掘算法和實踐（五）：泰坦尼克號的乘客生存預測模型剖析

有腹肌的小蝌蚪_

2020-04-27 08:48:37

數據挖掘實戰--二手車交易價格預測（五）模型融合

2020-04-05 04:34:22

數據挖掘實戰：特徵工程python實戰

2020-04-01 14:42:34

數據挖掘實戰：員工離職預測（訓練賽）

2020-03-03 10:43:32

數據挖掘實戰：數據預處理之缺失值處理

2020-03-03 10:43:32

數據挖掘實戰：汽車銷售業偷漏稅識別

2020-03-02 02:35:02

數據挖掘實戰：電力竊漏電用戶自動識別

2020-03-02 02:35:02

24小時熱門文章

最新文章

最新評論文章