从零开始实现核密度估计（kernel density estimation，KDE）-python实现

问题背景

核密度估计（kernel density estimation）是在概率论中用来估计未知的密度函数，属于非参数检验方法之一，由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）。
具体原理推导可参考这篇博客。
此篇博客侧重于根据理论公式，给出python实现。

python工具包推荐

seaborn，pandas，scikit-learn中均提供了kde计算及绘图函数，可直接查阅/调用。

理论基础

核密度估计的核心公式如下：

其中，h为带宽（band_width）,K(.)为核函数，本文选取高斯核。

带宽h是一个超参数，h越小，邻域中参与拟合的点越少。h有多种选取方式，
本文参考网上资料采用如下公式：

其中c=1.05*数据序列标准差

python实现

根据以上背景，给出kde 计算函数如下：

def get_kde(x,data_array,bandwidth=0.1):
    def gauss(x):
        import math
        return (1/math.sqrt(2*math.pi))*math.exp(-0.5*(x**2))
    N=len(data_array)
    res=0
    if len(data_array)==0:
        return 0
    for i in range(len(data_array)):
        res += gauss((x-data_array[i])/bandwidth)
    res /= (N*bandwidth)
    return res

其中x为待进行估计的数据点，data_array为给定的数据序列（list）。

KDE计算及绘制demo

测试环境

python 3.7
matplotlib 3.0.3
numpy 1.16.2

demo

def get_kde(x,data_array,bandwidth=0.1):
    def gauss(x):
        import math
        return (1/math.sqrt(2*math.pi))*math.exp(-0.5*(x**2))
    N=len(data_array)
    res=0
    if len(data_array)==0:
        return 0
    for i in range(len(data_array)):
        res += gauss((x-data_array[i])/bandwidth)
    res /= (N*bandwidth)
    return res
import numpy as np
input_array=np.random.randn(20000).tolist()
bandwidth=1.05*np.std(input_array)*(len(input_array)**(-1/5))
x_array=np.linspace(min(input_array),max(input_array),50)
y_array=[get_kde(x_array[i],input_array,bandwidth) for i in range(x_array.shape[0])]

import matplotlib.pyplot as plt
plt.figure(1)
plt.hist(input_array,bins=40,density=True)
plt.plot(x_array.tolist(),y_array,color='red',linestyle='-')
plt.show()

运行结果

结果说明：
图中横轴为数据分布取值，纵轴为概率密度，其中直方图的高度 h = 频数/(总数*每个bin的宽度) ,直方图总面积是1，KDE曲线下总面积也是1。

参考资料

维基百科-Kernel density estimation
知乎相关回答
核密度估计-CSDN博客

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

从零开始实现核密度估计（kernel density estimation，KDE）-python实现

问题背景

python工具包推荐

理论基础

python实现

KDE计算及绘制demo

测试环境

demo

运行结果

参考资料

容器中nginx无法使用同一个网络下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

NETCore中实现一个轻量无负担的极简任务调度ScheduleTask

docker使用特定的网络

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

nodejs学习07——API

避免DbContext同时在多个线程调用

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

CS224n(2019):Assignment2 參考答案

linux系統三步解決matplotlib圖片中文顯示問題

Leetcode-695.最大島嶼面積（DFS 與 BFS 解法，python3）

從零開始實現核密度估計（kernel density estimation，KDE）-python實現

linux磁盤掛載教程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結