1、文本的自动收敛分类
文本TF-IDF向量的计算,余弦距离的计算;
随机挑出一些类的中心,优化这些中心,使它们和真实的中心和真实的聚类中心尽可能一致。
类数可以确定,也可以不定。
分类步骤:
(1)随机选K个点,作为起始中心
(2)计算所有点到这些聚类中心的距离,把这些点归到最近的一类中
(3)重新计算每一类的中心,最简单的是用每一类的中心作为新的中心(分别计算每一维的平均值)。新的聚类中心和原来的相比会有一个位移
(4)重复上面三步,直到新的中心和原来中心偏移量很小,即过程收敛。
这个过程不需要任何人工干预 和 先验经验。
2、EM(expectation maximization)
距离函数要足够好,保证同一类相对距离较近,而不同类的相对距离较远。
算法包含两个过程和一组目标函数:
(1)根据现有聚类,对数据重新划分,若把聚类中心以及每一个点和聚类的隶属关系看成模型的参数;
(2)根据重新划分的结果,得到新的聚类。
目标函数是点到聚类的距离-d和聚类之间的距离D,整个过程就是要最大化目标函数。
E过程:根据现有模型,计算各个观测参数输入到模型中的计算结果
M过程:重新计算模型参数,以最大化期望值
Baum-Welch算法中
E过程就是,根据现有的模型计算每个状态之间的转移次数以及每个状态产生他们输出的次数
M过程就是,根据这些次数重新估计HMM模型的参数
最大化的目标函数是:观测值的概率。
EM算法中,若目标函数为凸函数(熵函数;若在N维空间以欧氏距离做度量,聚类中试图优化的两个函数也是凸函数),则可以得到全局最优解;文本分类中的余弦定理不是凸函数,不能保证最优解。
EM算法只需要有一些训练数据,定义一个最大化函数,剩下工作交给计算机,经过若干次的训练,模型就训练好了,称为上帝的算法。
概念介绍:http://luowei828.blog.163.com/blog/static/3103120420120142193960/
具体公式推导:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html