核密度估計與自適應帶寬的核密度估計

最近看論文,發現一個很不錯的概率密度估計方法。在此小記一下。
先來看看準備知識。
密度估計經常在統計學中作爲一種使用有限的樣本來估計其概率密度函數的方法。
我們在研究隨機變量的過程中,隨機變量的概率密度函數的作用是描述隨機變量的特性。(概率密度函數是用來描述連續型隨機變量取值的密集程度的,舉例:某地某次考試的成績近似服從均值爲80的正態分佈,即平均分是80分,由正態分佈的圖形知x=80時的函數值最大,即隨機變量在80附近取值最密集,也即考試成績在80分左右的人最多。)但是在實際應用中,總體概率密度函數通常是未知的,那麼如何來估計總體概率密度呢?一般,我們通過抽樣或者採集一定的樣本,可以根據統計學知識從樣本集合中推斷總體概率密度。這種方法統稱爲概率密度估計,即根據訓練樣本來確定隨機變量的概率分佈。一般概率密度估計方法方法大致分爲兩類:參數估計非參數估計
參數估計(Parametric Estimation)是根據對問題的經驗知識,假設問題具有某種數學模型 ,隨機變量服從某種分佈,即先假定概率密度函數的形式,然後通過訓練數據估計出分佈函數的參數。常見的參數估計方法有極大似然估計方法貝葉斯估計方法。對於參數估計,根據樣本中是否已知樣本所屬類別(即是否帶標籤)將參數估計又劃分爲監督參數估計非監督參數估計。監督參數估計是由 已知類別的樣本集對總體分佈的某些參數進行統計推斷 。而無監督參數估計已知總體概率密度函數形式但未知樣本所屬的類別,要求推斷出概率密度函數的某些參數 ,這種推斷方法稱之爲非監督情況下的參數估計。
非參數估計(Nonparametric Estimation)是在已知樣本所屬的類別不假定總體分佈形式下, 基於大樣本的性質,直接利用樣本估計出整個函數。在很多情況下,我們對樣本的分佈並沒有充分的瞭解,無法事先給出密度函數的形式,而且有些樣本分佈的情況也很難用簡單的函數來描述。在這種情況下,就需要用到非參數估計。但是,並不是非參數估計一定優於參數估計,因爲非參數估計受訓練樣本影響,其完備性或泛化能力不會很好;且這種估計只能用數值方法取得,無法得到完美的封閉函數圖形。常用的非參數估計方法有直方圖法核概率密度估計等。
(若有閒暇,後續將極大似然、貝葉斯估計等等估計方法詳細總結)
這裏說說核密度估計方法(也有稱之爲Parzen 窗法)
進入正題
核密度估計的形式:

f^h(x)=1ni=1nKh(xxi)=1nhi=1nK(xxih)

這裏K(x)核函數(非負,積分爲1,均值爲0,符合概率密度的性質),h>0 是帶寬。有很多種核函數,uniform,triangular,biweight,triweight,Epanechnikov,normal 等。各種核函數的圖形如下:
各種核函數曲線
由於高斯內核方便的數學性質,也經常使用 K(x)=ϕ(x)ϕ(x) 爲標準正態概率密度函數。核密度估計與直方圖很類似,但相比於直方圖還有光滑連續的性質。
舉例理解(該例子來自維基百科https://en.wikipedia.org/wiki/Kernel_density_estimation
已知:6個數據點
x1=2.1x2=1.3x3=0.4x4=1.9x5=5.1x6=6.2
對於直方圖,首先將水平軸劃分爲覆蓋數據範圍的子間隔或區段。在這種情況下,我們有6個寬度爲2的矩形。每當數據點落在此間隔內時,我們放置一個高度爲112 的矩形。對於核密度估計,我們在每個數據點xi 上放置方差2.25(由紅色虛線表示)的正態核函數。疊加一起得到核密度估計的結果,藍色線表示。
很明顯,直方圖得到的密度估計平滑程度比使用核密度估計得到的密度函數要差很多.
現在問題是如何選定核函數的“方差”呢?這其實是由h 來決定,不同的帶寬h 下的核函數估計結果差異很大。
這裏寫圖片描述
核帶寬的選擇
帶寬是一個自由參數,對所得到的估計值有很大的影響。爲了說明效果,舉個例子:
下圖是從標準正態分佈中抽取的隨機樣本(橫軸上的藍色的點點代表樣本點)灰色曲線是真是的概率密度(正態密度,均值0,方差1)。相比之下,紅色曲線是使用了過小的帶寬h(=0.05) 得出的概率密度曲線,可見其波折陡峭;綠色曲線過於平滑,因爲它使用了過大的帶寬h(=2) ,掩蓋了數據大部分基礎結構。

這裏寫圖片描述

那麼對於h 的選擇可以使用最小化L2風險函數(即平均積分平方誤差,mean intergrated squared error)。

MISE(h)=E[(f^h(x)f(x))2dx]

weakassumptions 下,MISE(h)=AMISE(h)+o(1nh+h4) ,其中AMISE 爲漸進的MIS E。而AMISE 有,

AMISE(h)=R(K)nh+14m2(K)2h4R(f′′)

其中,
R(g)=g(x)2dx

m2(K)=x2K(x)dx

爲了使MISE(h) 最小,則轉化爲求極點問題,
AMISE(h)h=R(K)nh2+m2(K)2h3R(f′′)=0

hAMISE=R(K)15m2(K)25R(f′′)15n15

當核函數確定之後,hAMISE 公式裏的Rmf′′ 都可以確定下來,有(hAMISEn15 ),AMISE(h)=O(n45)

如果使用高斯核函數進行核密度估計,則h 的最優選擇(即使平均積分平方誤差最小化的帶寬)爲

h=(4σ^53n)151.06σ^n15

這裏σ^ 是樣品的標準差。這種近似稱爲正態分佈近似高斯近似,或Silverman(1986)經驗法則。雖然這個經驗法則很容易計算,但應謹慎使用,因爲當密度不接近正態時,可能會產生泛化極差的估計。該經驗法則推導過程詳見:Silverman, B.W. (1986). Density Estimation for Statistics and Data Analysis. London: Chapman & Hall/CRC. p. 48. ISBN 0-412-24620-1.
這裏帶寬的作用簡述:
1.在數據可視化的相關領域中,帶寬的大小決定了核密度估計函數(KDE)的平滑(smooth)程度,帶寬越小越undersmooth,帶寬越大越oversmooth。(詳細解釋)
2.在POI興趣點推薦領域,或位置服務領域,帶寬h 的設置主要與分析尺度以及地理現象特點有關。較小的帶寬可以使密度分佈結果中出現較多的高值或低值區域,適合於揭示密度分佈的局部特徵,而較大的帶寬可以在全局尺度下使熱點區域體現得更加明顯。另外,帶寬應與興趣點的離散程度呈正相關,對於稀疏型的興趣點分佈應採用較大的帶寬,而對於密集型的興趣點則應考慮較小一些的帶寬。

如果帶寬不是固定的,而是根據樣本的位置而變化(其變化取決於估計的位置(balloon estimator)或樣本點(逐點估計pointwise estimator)),則會產生一種特別有力的方法,稱爲自適應或可變帶寬的核密度估計。就POI興趣點推薦來說,由於密集的城市地區的簽到密度很高,人煙稀少的農村地區的簽到密度較低。就是說不同位置應該採取不同的分析尺度,因此本文采用不固定的帶寬來進行核密度估計。

說到這, 有些朋友可能不知道POI興趣點推薦是啥意思, 這裏簡單的說一下:POI是Point-of-Interest的意思,即興趣點。就是說,給用戶推薦其感興趣的地點。就這麼簡單。在推薦系統相關領域,興趣點推薦是一個非常火爆的研究課題。這裏會用到核密度估計的方法,比如這篇論文:Jia-Dong Zhang,Chi-Yin Chow.(2015)GeoSoCa: Exploiting Geographical, Social and Categorical Correlations for Point-of-Interest Recommendations.SIGIR’15, August 09 - 13, 2015, Santiago, Chile.就利用了可變帶寬的核密度估計方法。

這裏再簡單討論一下自適應帶寬的核密度估計方法。自適應帶寬的核密度估計方法是在固定帶寬核密度函數的基礎上,通過修正帶寬參數爲而得到的,其形式如式所示:

k(x)=1Mj1M1(ωhj)nK(xx(j)ωhj)

K(x)=1(2π)n|S|exp(12xTS1x)

hj=[Mk=1f(x(k))]1Mf(x(j))α

這裏k(x) 是帶寬爲hj 的核密度估計函數,M 是樣例的個數,看出來了吧,每一個點j 都有一個帶寬hj ,因此這叫自適應可變K(x) 是核函數,這裏用了高斯核函數,當然也可以是其他的核函數。0α1 ,爲靈敏因子,通常α 取0.5,α=0 時,自適應帶寬的核密度估計就變成了固定帶寬的核密度估計了。固定帶寬的核密度估計就是前面說的核密度估計。ω 表示帶寬的參數。
自適應帶寬的核密度估計可以參考維基百科:https://en.wikipedia.org/wiki/Variable_kernel_density_estimation

推薦帖子:http://blog.sina.com.cn/s/blog_62b37bfe0101homb.html

參考資料
https://en.wikipedia.org/wiki/Kernel_density_estimation
https://www.zhihu.com/question/20212426/answer/74989607
https://en.wikipedia.org/wiki/Variable_kernel_density_estimation
http://www.tuicool.com/articles/EVJnI3
袁修開,呂震宙,池巧君. 基於核密度估計的自適應重要抽樣可靠性靈敏度分析.西北工業大學學報.Vol.26 No.3.2008.6.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章