在这里，我将用python代码计算信息熵、信息增益和信息增益率。

以下代码基于python、numpy和pandas。

没时间看的同学，可以直接跳到总结。

往期博客：

线性方程组的迭代法 python代码实现

函数插值法之牛顿插值法 python代码实现

数值积分 python代码实现

数值微分 python代码实现

文章目录

信息熵

信息增益

信息增益率

总结

信息熵

什么是信息熵，怎么计算，一图盖之。

首先

import pandas as pd
import numpy as np

然后我们在此设置一个演示用的大学生贷款数据集。

data = pd.DataFrame({'学历':['专科','专科','专科','专科','专科','本科','本科','本科','本科','本科','研究生','研究生','研究生','研究生','研究生'],
                     '婚否':['否','否','是','是','否','否','否','是','否','否','否','否','是','是','否'],
                     '是否有车':['否','否','否','是','否','否','否','是','是','是','是','是','否','否','否'],
                     '收入水平':['中','高','高','中','中','中','高','高','很高','很高','很高','高','高','很高','中'],
                     '类别':['否','否','是','是','否','否','否','是','是','是','是','是','是','是','否']})
data[['学历','婚否','是否有车','收入水平','类别']]

数据集如下图所示：

定义函数

定义函数这步我大多是参考和借鉴了下面这篇文章，所以我这篇文章也就不挂原创了。
python详细步骤计算信息增益

#定义计算信息熵的函数：计算Infor(D)
def infor(data):
    a = pd.value_counts(data) / len(data)
    return sum(np.log2(a) * a * (-1))

参数说明

“data”就是我们要输入的数据集。

实例运行

计算信息熵主要是为了后两步做准备，所以这一步就不实例操作了。

信息增益

什么是信息增益，怎么计算，一图盖之。

定义函数

#定义计算信息增益的函数：计算g(D|A)
def g(data,str1,str2):
    e1 = data.groupby(str1).apply(lambda x:infor(x[str2]))
    p1 = pd.value_counts(data[str1]) / len(data[str1])
    #计算Infor(D|A)
    e2 = sum(e1 * p1)
    return infor(data[str2]) - e2

参数说明

“str1”就是代表图中的“A”。

“str2”就是代表图中的“D”。

实例运行

拿给出的实例试验一下：

g(data,'学历','类别')

得出如下结果：

0.08300749985576883

信息增益率

什么是信息增益率，怎么计算，一图盖之。

定义函数

#定义计算信息增益率的函数：计算gr(D,A)
def gr(data,str1,str2):
    return g(data,str1,str2)/infor(data[str1])

实例运行

拿给出的实例试验一下：

gr(data,'学历','类别')

得出如下结果：

0.05237190142858302

总结

三者的函数总结如下：

#定义计算信息熵的函数：计算Infor(D)
def infor(data):
    a = pd.value_counts(data) / len(data)
    return sum(np.log2(a) * a * (-1))

#定义计算信息增益的函数：计算g(D|A)
def g(data,str1,str2):
    e1 = data.groupby(str1).apply(lambda x:infor(x[str2]))
    p1 = pd.value_counts(data[str1]) / len(data[str1])
    #计算Infor(D|A)
    e2 = sum(e1 * p1)
    return infor(data[str2]) - e2

#定义计算信息增益率的函数：计算gr(D,A)
def gr(data,str1,str2):
    return g(data,str1,str2)/infor(data[str1])

“data”就是我们要输入的数据集。

“str1”就是代表图中的“A”。

“str2”就是代表图中的“D”。

其实信息增益率比信息增益更准确。

python计算信息熵、信息增益和信息增益率

文章目录

信息熵

定义函数

参数说明

实例运行

信息增益

定义函数

参数说明

实例运行

信息增益率

定义函数

实例运行

总结

MySQL 核心模块揭秘 | 18 期 | 锁在内存里长什么样*

使用perf工具生成火焰图

大龄程序员思考

响应式界面控件DevExtreme * 更强的数据分析和可视化功能

HttpSecurity 是如何组装过滤器链的

数说海南——近6年海南各市县人口简单看

长序列中Transformers的高级注意力机制总结

WebStorm 创建 Vue 项目

拒絕“過勞死”，用幾行代碼來看看你今天肝了多久

用python畫心形函數，屬於數學家的浪漫~

數值微分 python代碼實現

python計算信息熵、信息增益和信息增益率

利用 python 實現多張圖片的無損拼接

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結