期望最大化算法EM

原創

longjing1113

2020-02-25 02:16

1、文本的自动收敛分类

文本TF-IDF向量的计算，余弦距离的计算；

随机挑出一些类的中心，优化这些中心，使它们和真实的中心和真实的聚类中心尽可能一致。

类数可以确定，也可以不定。

分类步骤：

（1）随机选K个点，作为起始中心

（2）计算所有点到这些聚类中心的距离，把这些点归到最近的一类中

（3）重新计算每一类的中心，最简单的是用每一类的中心作为新的中心（分别计算每一维的平均值）。新的聚类中心和原来的相比会有一个位移

（4）重复上面三步，直到新的中心和原来中心偏移量很小，即过程收敛。

这个过程不需要任何人工干预和先验经验。

2、EM（expectation maximization）

距离函数要足够好，保证同一类相对距离较近，而不同类的相对距离较远。

算法包含两个过程和一组目标函数：

（1）根据现有聚类，对数据重新划分，若把聚类中心以及每一个点和聚类的隶属关系看成模型的参数；

（2）根据重新划分的结果，得到新的聚类。

目标函数是点到聚类的距离-d和聚类之间的距离D,整个过程就是要最大化目标函数。

E过程：根据现有模型，计算各个观测参数输入到模型中的计算结果

M过程：重新计算模型参数，以最大化期望值

Baum-Welch算法中

E过程就是，根据现有的模型计算每个状态之间的转移次数以及每个状态产生他们输出的次数

M过程就是，根据这些次数重新估计HMM模型的参数

最大化的目标函数是：观测值的概率。

EM算法中，若目标函数为凸函数（熵函数；若在N维空间以欧氏距离做度量，聚类中试图优化的两个函数也是凸函数），则可以得到全局最优解；文本分类中的余弦定理不是凸函数，不能保证最优解。

EM算法只需要有一些训练数据，定义一个最大化函数，剩下工作交给计算机，经过若干次的训练，模型就训练好了，称为上帝的算法。

概念介绍：http://luowei828.blog.163.com/blog/static/3103120420120142193960/

具体公式推导：http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

期望最大化算法EM

一键自动化博客发布工具,用过的人都说好(掘金篇)

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

[转帖]

python列出centos7内存使用前50的进程信息

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

nodejs学习06——小案例

评估统计算法在银行伪造钞票检测中的价值

C# Xmlserializer 程序集内存泄露

Java ThreadPoolShutdown

5月21日相聚上海张江！与文心大模型一起共建大模型产业应用生态圈

perl進程終止函數die/warn/exit/kill

搜索引擎反作弊

機器學習——監督學習，半監督學習，無監督學習，主動學習

表達式求值——棧的應用

給定查詢的網頁綜合排名

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結