理解:迴歸與擬合、歸一化與標準化

迴歸和擬合:

一、迴歸:

研究一個隨機變量Y對另一個(X)或一組(X1,X2,…,Xk)變量的相依關係的統計分析方法。

應用迴歸預測法時應首先確定變量之間是否存在相關關係。如果變量之間不存在相關關係,對這些變量應用迴歸預測法就會得出錯誤的結果。

二、擬合

所謂擬合是指已知某函數的若干離散函數值{f1,f2,…,fn},通過調整該函數中若干待定係數f(λ1,λ2,…,λn),使得該函數與已知點集的差別(最小二乘意義)最小.

三、幫助理解的一些觀點:

1、擬合是一種數據處理的方式。簡單的說就是你有一組數據,覺得這組數據和一個已知的函數(這個函數的參數未定)很相似,爲了得到最能表示這組數據特徵的這個函數,通過擬合這種方式(具體的數學方法很多)求得參數。
而回歸是一種特定的數學方法,它可以實現數據擬合,得到函數的參數。


2、

Curve fitting is the process of constructing a curve, or mathematicalfunction, that has the best fit to a series of data points, possibly subject toconstraints. Curve fitting can involve either interpolation, where an exact fitto the data is required, or smoothing, in which a "smooth" functionis constructed that approximately fits the data. A related topic is regressionanalysis, which focuses more on questions of statistical inference such as howmuch uncertainty is present in a curve that is fit to data observed with randomerrors. Fitted curves can be used as an aid for data visualization, to infervalues of a function where no data are available, and to summarize therelationships among two or more variables. Extrapolation refers to the use of afitted curve beyond the range of the observed data, and is subject to a greaterdegree of uncertainty since it may reflect the method used to construct thecurve as much as it reflects the observed data.

它告訴我們擬合側重於調整曲線的參數,使得與數據相符。

而回歸重在研究兩個變量或多個變量之間的關係。它可以用擬合的手法來研究兩個變量的關係,以及出現的誤差。



歸一化和標準化

一、歸一化:

1、把數變爲(0,1)之間的小數
主要是爲了數據處理方便提出來的,把數據映射到0~1範圍之內處理,更加便捷快速。
2、把有量綱表達式變爲無量綱表達式
歸一化是一種簡化計算的方式,即將有量綱的表達式,經過變換,化爲無量綱的表達式,成爲純量。

3、對不同特徵維度的伸縮變換的目的是使各個特徵維度對目標函數的影響權重是一致的,即使得那些扁平分佈的數據伸縮變換成類圓形。這也就改變了原始數據的一個分佈。

好處:

(1)提高迭代求解的收斂速度

(2)提高迭代求解的精度


二、標準化

1、數據的標準化是將數據按比例縮放,使之落入一個小的特定區間。由於信用指標體系的各個指標度量單位是不同的,爲了能夠將指標參與評價計算,需要對指標進行規範化處理,通過函數變換將其數值映射到某個數值區間。

2、標準化表示的是原始值與均值之間差多少個標準差,是一個相對值,所以也有去除量綱的功效。同時,它還帶來兩個附加的好處:均值爲0,標準差爲1。均值爲0有什麼好處?比如在去中心化的數據上做SVD分解等價於在原始數據上做PCA;機器學習中很多函數如SigmoidTanhSoftmax等都以0爲中心左右分佈(不一定對稱)。

3、標準化是爲了方便數據的下一步處理,而進行的數據縮放等變換,並不是爲了方便與其他數據一同處理或比較,比如數據經過零-均值標準化後,更利於使用標準正態分佈的性質,進行處理。

4、對不同特徵維度的伸縮變換的目的是使得不同度量之間的特徵具有可比性。同時不改變原始數據的分佈。待考究。


三、其他參考

1、歸一化與標準化:http://www.cnblogs.com/zhaokui/p/5112287.html

2、數據標準化/歸一化normalization  http://blog.csdn.net/pipisorry/article/details/52247379

3、標準化和歸一化什麼區別? https://www.zhihu.com/question/20467170

4、是否需要標準化/歸一化:

主要看模型是否具有伸縮不變性。

有些模型在各個維度進行不均勻伸縮後,最優解與原來不等價,例如SVM。對於這樣的模型,除非本來各維數據的分佈範圍就比較接近,否則必須進行標準化,以免模型參數被分佈範圍較大或較小的數據dominate。

有些模型在各個維度進行不均勻伸縮後,最優解與原來等價,例如logisticregression。對於這樣的模型,是否標準化理論上不會改變最優解。但是,由於實際求解往往使用迭代算法,如果目標函數的形狀太“扁”,迭代算法可能收斂得很慢甚至不收斂。所以對於具有伸縮不變性的模型,最好也進行數據標準化。
作者:王贇 Maigo
鏈接:https://www.zhihu.com/question/30038463/answer/50491149
來源:知乎




發佈了78 篇原創文章 · 獲贊 134 · 訪問量 38萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章