如何进行特征归一化

为了使不同的特征之间具有可比性,我们往往需要对特征进行归一化处理。比如现在对大管的外貌特征进行分析,大管身高1.70米,体重60kg,那么这样分析出的结果显然会偏向较大的体重特征。想要更为准确的结果,就需要对大管的身高体重进行归一化(Normalization)处理。

对数值类型的特征做归一化可以将特征统一到一个大致相同的数值区间内。最常用的方法有以下两种:

(1)线性函数归一化(Min-Max Scaling)

这种方法对原始的数据进行变化,使其映射到[0,1]的范围,实现对原始数据的等比缩放。

 

x为原始数据,xmin为最小值,xmax为最大值,xnormal为输出结果。

(2)零均值归一化(Z-Score Normalization)

这种方法会将数据映射到均值为0,标准差为1的分布上。假设原始特征的均值为μ,标准差为σ,那么归一化的公式为:

归一化除了使特征在同一个量纲里方便比较,还有什么重要性呢?在学习速率相同的情况下,归一化会使得特征的更新速度变化一致,更容易的通过梯度下降法找到最优解(这也是基于特征处于一个相同的量纲中)。如下图所示

在实际应用中,线性回归、逻辑回归、支持向量机、神经网络通常需要归一化,但是对于决策树模型却不适合用。

 

欢迎小伙伴留言,关注,进行交流。

更多内容请扫描下方二维码关注小编公众号:程序员大管

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章