擬合、插值、迴歸、逼近

插值問題的提出
在許多實際問題,變量之間的函數關係是存在的,但可能表達式過於複雜或者根本不知道或不存在,使得我們在使用或計算的時候不好處理由。好在,我們也不是完全一無所知,有時候我們可以通過實驗或者觀測得到y=f(x) 在一系列離散點xi 上的函數值fi 。通過這些離散的數據合理地估計在離散值中間的點應該對應的值,就叫插值法。字面上可以理解爲,插入某個數據在兩個有數據的離散點之間的點中。

例如,我們現在就有這樣一組離散數據,它描述了一件事情,假定是兩個變量之間的變化關係,它的函數我們不知道,但我們可以先假定爲f(x) (一定會存在,不管多複雜都好,我們就假設他一定存在)。這個函數可能簡單可能複雜,但是我們總歸希望它是簡單的,於是我們再假設有一個相對簡單的函數P(x) ,這相對簡單的函數目前也是未知的,它可能超級簡單,可能也比較複雜,或者可能跟原函數是一模一樣的,我們現在都不知道。但有一點我們一定知道也一定要服從的,就是在這些已經記錄的離散點xi,i=1,2,...n 中有P(xi)=f(xi) 。我們把這個條件叫做插值條件P(x) 叫做f(x) 的插值函數,xi,i=1,2,...n 叫做插值節點,xi,i=1,2,...n 所在的區間,例如有a<=x1<xn<=b,n>1 時,[a,b] 叫做插值區間。

數據擬合
先說重點,數據擬合和插值最大的區別就是,它不要求擬合出來的函數和原函數在數據點處的值相等,而是追求一種整體上、趨勢上的相似,它還用來做數據區間以外的點的分析,這種對區間外點的預測也叫作迴歸分析。

迴歸這個詞最初是高爾頓研究子女身高與父母身高的相關性時提出的,意思是,子女身高相對於父母身高可能高可能低,即父母生出了比自己高的或比自己矮,但總的來說,子女的身高有向父母身高迴歸的趨勢,例如,第一胎很高,但這可能是個例外,第二胎就比較有向父母身高迴歸的趨勢了,或者子女較矮,但子女的子女又有向父母身高迴歸的趨勢,而不是像它們的父母那樣矮。高爾頓就把“迴歸”這個詞引進到問題的討論中,這就是“迴歸”名稱的由來,逐漸背後人沿用成習,通常指針對某個均值的迴歸。

  1. 迴歸:一般指線性迴歸,是求最小二乘解的過程。在求迴歸之前,已經假設所有型值點同時滿足某一曲線方程,計算只要求出該曲線方程的係數。

  2. 多項式插值:用一個多項式來近似代替數據列表函數(離散的點),並要求多項式通過列表函數中給定的數據點。(插值曲線必須經過型值點。)

  3. 多項式逼近:爲複雜函數(連續的函數)尋找近似替代多項式函數,其誤差在某種度量意義下最小。(逼近只要求曲線接近型值點,符合型值點的趨勢。)

  4. 多項式擬合:在插值問題中考慮給定數據點的誤差,只要求在用多項式近似代替列表函數時,其誤差在某種度量意義下最小。

    相關概念:

列表函數:給定n+1個不同的數據點(x0,y0),(x1,y1)…,(xn,yn),稱由這組數據表示的函數爲列表函數。

逼近函數:求一函數,使得按某一標準,這一函數y=f(x)能最好地反映這一組數據即逼近這一列表函數,這一函數y=f(x)稱爲逼近函數。

插值函數:根據不同的標準,可以給出各種各樣的函數,如使要求的函數y=f(x)在以上的n+1個數據點處的函數值與相應數據點的縱座標相等,即yi=f(x1)(i=0,1,2….,n) 這種函數逼近問題稱爲插值問題,稱函數y=f(x)爲數據點的插值函數,xi稱爲插值點。

進一步說明:

插值和擬合都是函數逼近或者數值逼近的重要組成部分。

他們的共同點都是通過已知一些離散點集M上的約束,求取一個定義在連續集合S(M包含於S)的未知連續函數,從而達到獲取整體規律的目的,即通過“窺幾斑”來達到“知全豹”的過程。

簡單地講,所謂擬合是指已知某函數的若干離散函數值{f1,f2,…,fn},通過調整該函數中若干待定係數f(λ1, λ2,…,λ3),使得該函數與已知點集的差別(最小二乘意義)最小。如果待定函數是線性,就叫線性擬合或者線性迴歸(主要用在統計中),否則叫作非線性擬合或者非線性迴歸。表達式也可以是分段函數,這種情況下叫作樣條擬合。

而插值是指已知某函數在若干離散點上的函數值或者導數信息,通過求解該函數中待定形式的插值函數以及待定係數,使得該函數在給定離散點上滿足約束。插值函數又叫作基函數,如果該基函數定義在整個定義域上,叫作全域基,否則叫作分域基。如果約束條件中只有函數值的約束,叫作Lagrange插值,否則叫作Hermite插值。

從幾何意義上講,擬合是給定了空間中的一些點,找到一個已知形式未知參數的連續曲面來最大限度地逼近這些點;而插值是找到一個(或幾個分片光滑的)連續曲面來穿過這些點。
參考[1]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章