從零開始實現核密度估計(kernel density estimation,KDE)-python實現

問題背景

核密度估計(kernel density estimation)是在概率論中用來估計未知的密度函數,屬於非參數檢驗方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。
具體原理推導可參考這篇博客
此篇博客側重於根據理論公式,給出python實現。

python工具包推薦

seaborn,pandas,scikit-learn中均提供了kde計算及繪圖函數,可直接查閱/調用。

理論基礎

核密度估計的核心公式如下:
在這裏插入圖片描述
其中,h爲帶寬(band_width),K(.)爲核函數,本文選取高斯核。
在這裏插入圖片描述
帶寬h是一個超參數,h越小,鄰域中參與擬合的點越少。h有多種選取方式,
本文參考網上資料採用如下公式:
在這裏插入圖片描述
其中c=1.05*數據序列標準差

python實現

根據以上背景,給出kde 計算函數如下:

def get_kde(x,data_array,bandwidth=0.1):
    def gauss(x):
        import math
        return (1/math.sqrt(2*math.pi))*math.exp(-0.5*(x**2))
    N=len(data_array)
    res=0
    if len(data_array)==0:
        return 0
    for i in range(len(data_array)):
        res += gauss((x-data_array[i])/bandwidth)
    res /= (N*bandwidth)
    return res

其中x爲待進行估計的數據點,data_array爲給定的數據序列(list)。

KDE計算及繪製demo

測試環境

python 3.7
matplotlib 3.0.3
numpy 1.16.2

demo

def get_kde(x,data_array,bandwidth=0.1):
    def gauss(x):
        import math
        return (1/math.sqrt(2*math.pi))*math.exp(-0.5*(x**2))
    N=len(data_array)
    res=0
    if len(data_array)==0:
        return 0
    for i in range(len(data_array)):
        res += gauss((x-data_array[i])/bandwidth)
    res /= (N*bandwidth)
    return res
import numpy as np
input_array=np.random.randn(20000).tolist()
bandwidth=1.05*np.std(input_array)*(len(input_array)**(-1/5))
x_array=np.linspace(min(input_array),max(input_array),50)
y_array=[get_kde(x_array[i],input_array,bandwidth) for i in range(x_array.shape[0])]

import matplotlib.pyplot as plt
plt.figure(1)
plt.hist(input_array,bins=40,density=True)
plt.plot(x_array.tolist(),y_array,color='red',linestyle='-')
plt.show()

運行結果

在這裏插入圖片描述
結果說明:
圖中橫軸爲數據分佈取值,縱軸爲概率密度,其中直方圖的高度 h = 頻數/(總數*每個bin的寬度) ,直方圖總面積是1,KDE曲線下總面積也是1。

參考資料

  1. 維基百科-Kernel density estimation
  2. 知乎相關回答
  3. 核密度估計-CSDN博客
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章