原文地址:http://blog.csdn.net/angel_yuaner/article/details/47951111
當需要估計的概率密度函數的形式未知,比如我們並不能知道樣本的分佈形式時,我們就無法用最大似然估計方法或貝葉斯估計方法來進行參數估計,而應該用非參數估計方法。這裏就介紹三種非參數估計方法。
需要知道的是,作爲非參數方法的共同問題是對樣本數量需求較大,只要樣本數目足夠大衆可以保證收斂於任何複雜的位置密度,但是計算量和存儲量都比較大。當樣本數很少時,如果能夠對密度函數有先驗認識,則參數估計能取得更好的估計效果。
一、直方圖法
首先來考慮最簡單的情況,樣本
現在考慮複雜一點的情況,當
假設總樣本數爲
可以注意到,小區間的大小選擇與估計的效果是密切相連的。如果區域選擇過大,會導致最終估計出來的概率密度函數非常粗糙;如果區域的選擇過小,可能會導致有些區域內根本沒有樣本或者樣本非常少,這樣會導致估計出來的概率密度函數很不連續。所以,隨着樣本數的增加,區域的體積應該儘可能小,同時又必須保證區域內有充分多的樣本,但是每個區域的樣本數有必須是總樣本數的很小的一部分。
所以說,固定區域大小的直方圖法只是最簡單的非參數估計方法,要想有更好的估計,需要採用能夠根據樣本分佈調整區域大小的方法。下面介紹的
二、
該方法的基本思想是:根據總樣本確定一個參數
這樣,在樣本密度比較高的區域的體積就會比較小,而在密度低的區域的體積則會自動增大,這樣就能夠較好的兼顧在高密度區域估計的分辨率和在低密度區域估計的連續性。
爲了取得好的估計效果,需要選擇合適的
三、Parzen窗法
Parzen窗法是另外一種在取值空間中進行取樣估計的方法,或者說可以看作是用核函數對樣本在取值空間中進行插值。
假設
定義如下
這個函數在以原點爲中心的
將其帶入
在上式中定義核函數(或者叫窗函數和):
核函數反應了一個觀測樣本
合法的核函數應該滿足密度函數的要求,即:
這種用窗函數(核函數)估計概率密度的方法就是Parzen窗法,或者叫核密度估計。
常見的幾種核函數:
(1)方窗:
其中
(2)高斯窗(正態窗)
即以樣本
一維情況爲:
(3)超球窗
其中