Python:sklearn库中，数据预处理函数fit_transform()及transform()的区别

原創

Isana_Yashiro

2019-02-28 01:13

本文参考
1.Python: sklearn库中数据预处理函数fit_transform()和transform()的区别
2.scikit-learn数据预处理fit_transform()与transform()的区别

问题背景

看到100-Days-Of_ML_Code中的一段代码，发现scikit-learn中的fit_transform()与transform()，不太清楚其中的区别，在网上找了一些资料，记录一下。

#数据拆分
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)
#数据标准化（特征量化）
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

可以看到该代码片段中对训练数据集先用了fit_transform()函数，然后对测试数据集使用了transform()函数。

一查看函数API及参数含义

1.fit_transform()函数

fit_transform():拟合数据，然后转化为标准形式

2.transform()函数

transform():通过找中心和缩放等实现标准化

二辨析两个函数之间的差别

fit_transform(X_train)对训练数据集先拟合fit，找到该训练数据集的整体指标，如均值、方差、最大值最小值等等（根据具体转换的目的），然后对该训练数据集进行转换transform，从而实现数据的标准化、归一化等等。
根据对之前训练数据集fit的整体指标，对测试数据集使用同样的均值、方差、最大最小值等指标进行转换transform(X_test)，从而保证X_train、X_test处理方式相同。
必须先用fit_transform(X_train)，之后再transform(X_test)
如果直接transform(X_train)，程序会报错; 如果fit_transfrom(X_test)后，使用fit_transform(X_test)而不用transform(X_test)，虽然也能归一化，但是两个结果不是在同一个“标准”下的，具有明显差异。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python:sklearn库中，数据预处理函数fit_transform()及transform()的区别

问题背景

一查看函数API及参数含义

1.fit_transform()函数

2.transform()函数

二辨析两个函数之间的差别

Nginx R31 doc 官方文档-01-nginx 如何安装

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

（一）c與指針-內存地址不連續帶來的問題

linux redhat7.6 audit審計服務產生文件解壓、複製等速度慢的問題

Linux find命令和ls命令帶""引號的問題

字節序（剖析）

005:編程填空：左邊i位取反（解析）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Python:sklearn库中，数据预处理函数fit_transform()及transform()的区别

问题背景

一 查看函数API及参数含义

1.fit_transform()函数

2.transform()函数

二 辨析两个函数之间的差别

一查看函数API及参数含义

二辨析两个函数之间的差别