最近看論文,發現一個很不錯的概率密度估計方法。在此小記一下。
先來看看準備知識。
密度估計經常在統計學中作爲一種使用有限的樣本來估計其概率密度函數的方法。
我們在研究隨機變量的過程中,隨機變量的概率密度函數的作用是描述隨機變量的特性。(概率密度函數是用來描述連續型隨機變量取值的密集程度的,舉例:某地某次考試的成績近似服從均值爲80的正態分佈,即平均分是80分,由正態分佈的圖形知x=80時的函數值最大,即隨機變量在80附近取值最密集,也即考試成績在80分左右的人最多。)但是在實際應用中,總體概率密度函數通常是未知的,那麼如何來估計總體概率密度呢?一般,我們通過抽樣或者採集一定的樣本,可以根據統計學知識從樣本集合中推斷總體概率密度。這種方法統稱爲概率密度估計,即根據訓練樣本來確定隨機變量的概率分佈。一般概率密度估計方法方法大致分爲兩類:參數估計和非參數估計。
參數估計(Parametric Estimation)是根據對問題的經驗知識,假設問題具有某種數學模型 ,隨機變量服從某種分佈,即先假定概率密度函數的形式,然後通過訓練數據估計出分佈函數的參數。常見的參數估計方法有極大似然估計方法和貝葉斯估計方法。對於參數估計,根據樣本中是否已知樣本所屬類別(即是否帶標籤)將參數估計又劃分爲監督參數估計和非監督參數估計。監督參數估計是由 已知類別的樣本集對總體分佈的某些參數進行統計推斷 。而無監督參數估計已知總體概率密度函數形式但未知樣本所屬的類別,要求推斷出概率密度函數的某些參數 ,這種推斷方法稱之爲非監督情況下的參數估計。
非參數估計(Nonparametric Estimation)是在已知樣本所屬的類別不假定總體分佈形式下, 基於大樣本的性質,直接利用樣本估計出整個函數。在很多情況下,我們對樣本的分佈並沒有充分的瞭解,無法事先給出密度函數的形式,而且有些樣本分佈的情況也很難用簡單的函數來描述。在這種情況下,就需要用到非參數估計。但是,並不是非參數估計一定優於參數估計,因爲非參數估計受訓練樣本影響,其完備性或泛化能力不會很好;且這種估計只能用數值方法取得,無法得到完美的封閉函數圖形。常用的非參數估計方法有直方圖法,核概率密度估計等。
(若有閒暇,後續將極大似然、貝葉斯估計等等估計方法詳細總結)
這裏說說核密度估計方法(也有稱之爲
進入正題
核密度估計的形式:
這裏
由於高斯內核方便的數學性質,也經常使用
舉例理解(該例子來自維基百科https://en.wikipedia.org/wiki/Kernel_density_estimation)
已知:6個數據點
對於直方圖,首先將水平軸劃分爲覆蓋數據範圍的子間隔或區段。在這種情況下,我們有6個寬度爲2的矩形。每當數據點落在此間隔內時,我們放置一個高度爲
很明顯,直方圖得到的密度估計平滑程度比使用核密度估計得到的密度函數要差很多.
現在問題是如何選定核函數的“方差”呢?這其實是由
核帶寬的選擇
帶寬是一個自由參數,對所得到的估計值有很大的影響。爲了說明效果,舉個例子:
下圖是從標準正態分佈中抽取的隨機樣本(橫軸上的藍色的點點代表樣本點)灰色曲線是真是的概率密度(正態密度,均值0,方差1)。相比之下,紅色曲線是使用了過小的帶寬
那麼對於
在
其中,
爲了使
當核函數確定之後,
如果使用高斯核函數進行核密度估計,則
這裏
這裏帶寬的作用簡述:
1.在數據可視化的相關領域中,帶寬的大小決定了核密度估計函數(KDE)的平滑(smooth)程度,帶寬越小越undersmooth,帶寬越大越oversmooth。(詳細解釋)
2.在POI興趣點推薦領域,或位置服務領域,帶寬
如果帶寬不是固定的,而是根據樣本的位置而變化(其變化取決於估計的位置(balloon estimator)或樣本點(逐點估計pointwise estimator)),則會產生一種特別有力的方法,稱爲自適應或可變帶寬的核密度估計。就POI興趣點推薦來說,由於密集的城市地區的簽到密度很高,人煙稀少的農村地區的簽到密度較低。就是說不同位置應該採取不同的分析尺度,因此本文采用不固定的帶寬來進行核密度估計。
說到這, 有些朋友可能不知道POI興趣點推薦是啥意思, 這裏簡單的說一下:POI是Point-of-Interest的意思,即興趣點。就是說,給用戶推薦其感興趣的地點。就這麼簡單。在推薦系統相關領域,興趣點推薦是一個非常火爆的研究課題。這裏會用到核密度估計的方法,比如這篇論文:Jia-Dong Zhang,Chi-Yin Chow.(2015)GeoSoCa: Exploiting Geographical, Social and Categorical Correlations for Point-of-Interest Recommendations.SIGIR’15, August 09 - 13, 2015, Santiago, Chile.就利用了可變帶寬的核密度估計方法。
這裏再簡單討論一下自適應帶寬的核密度估計方法。自適應帶寬的核密度估計方法是在固定帶寬核密度函數的基礎上,通過修正帶寬參數爲而得到的,其形式如式所示:
這裏
自適應帶寬的核密度估計可以參考維基百科:https://en.wikipedia.org/wiki/Variable_kernel_density_estimation
推薦帖子:http://blog.sina.com.cn/s/blog_62b37bfe0101homb.html
參考資料
https://en.wikipedia.org/wiki/Kernel_density_estimation
https://www.zhihu.com/question/20212426/answer/74989607
https://en.wikipedia.org/wiki/Variable_kernel_density_estimation
http://www.tuicool.com/articles/EVJnI3
袁修開,呂震宙,池巧君. 基於核密度估計的自適應重要抽樣可靠性靈敏度分析.西北工業大學學報.Vol.26 No.3.2008.6.