從零開始實現核密度估計（kernel density estimation，KDE）-python實現

問題背景

核密度估計（kernel density estimation）是在概率論中用來估計未知的密度函數，屬於非參數檢驗方法之一，由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）。
具體原理推導可參考這篇博客。
此篇博客側重於根據理論公式，給出python實現。

python工具包推薦

seaborn，pandas，scikit-learn中均提供了kde計算及繪圖函數，可直接查閱/調用。

理論基礎

核密度估計的核心公式如下：

其中，h爲帶寬（band_width）,K(.)爲核函數，本文選取高斯核。

帶寬h是一個超參數，h越小，鄰域中參與擬合的點越少。h有多種選取方式，
本文參考網上資料採用如下公式：

其中c=1.05*數據序列標準差

python實現

根據以上背景，給出kde 計算函數如下：

def get_kde(x,data_array,bandwidth=0.1):
    def gauss(x):
        import math
        return (1/math.sqrt(2*math.pi))*math.exp(-0.5*(x**2))
    N=len(data_array)
    res=0
    if len(data_array)==0:
        return 0
    for i in range(len(data_array)):
        res += gauss((x-data_array[i])/bandwidth)
    res /= (N*bandwidth)
    return res

其中x爲待進行估計的數據點，data_array爲給定的數據序列（list）。

KDE計算及繪製demo

測試環境

python 3.7
matplotlib 3.0.3
numpy 1.16.2

demo

def get_kde(x,data_array,bandwidth=0.1):
    def gauss(x):
        import math
        return (1/math.sqrt(2*math.pi))*math.exp(-0.5*(x**2))
    N=len(data_array)
    res=0
    if len(data_array)==0:
        return 0
    for i in range(len(data_array)):
        res += gauss((x-data_array[i])/bandwidth)
    res /= (N*bandwidth)
    return res
import numpy as np
input_array=np.random.randn(20000).tolist()
bandwidth=1.05*np.std(input_array)*(len(input_array)**(-1/5))
x_array=np.linspace(min(input_array),max(input_array),50)
y_array=[get_kde(x_array[i],input_array,bandwidth) for i in range(x_array.shape[0])]

import matplotlib.pyplot as plt
plt.figure(1)
plt.hist(input_array,bins=40,density=True)
plt.plot(x_array.tolist(),y_array,color='red',linestyle='-')
plt.show()

運行結果

結果說明：
圖中橫軸爲數據分佈取值，縱軸爲概率密度，其中直方圖的高度 h = 頻數/(總數*每個bin的寬度) ,直方圖總面積是1，KDE曲線下總面積也是1。

參考資料

維基百科-Kernel density estimation
知乎相關回答
核密度估計-CSDN博客

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

從零開始實現核密度估計（kernel density estimation，KDE）-python實現

問題背景

python工具包推薦

理論基礎

python實現

KDE計算及繪製demo

測試環境

demo

運行結果

參考資料

CS224n(2019):Assignment2 參考答案

linux系統三步解決matplotlib圖片中文顯示問題

Leetcode-695.最大島嶼面積（DFS 與 BFS 解法，python3）

從零開始實現核密度估計（kernel density estimation，KDE）-python實現

linux磁盤掛載教程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結