统计学习模型三要素
模型: 是在参数空间中的参数影响下,从一个空间到另一个空间的映射
- 假设空间(函数空间):函数的所有可能表示,如,假设空间中确定的函数 f 的输出值被称为预测值。
- 参数空间:是一个 n 维的欧式空间,函数空间一般由参数空间来确定。如上面的参数空间就是二维的欧式空间。
策略: 度量预测值和真实值差异的准则或方法,一般称为loss 函数
- 别名:惩罚项
算法: 将所有的预测值向其对应的真实值靠拢的方法,如梯度下降法
经验风险与结构风险
经验风险是对模型不能很好的理解数据信息的惩罚
结构风险是对模型过于复杂的惩罚,也叫正则化
判别模型与生成模型
判别模型是可以直接得到的模型
生成模型是先得到,随后再通过条件概率的方式得到
有监督学习
感知机
公式表示:
优化算法: 每次选择分类错误的点计算误差项对w进行更新
其他:
- 感知机存在一个与原模型等价的对偶表示,使用对偶形式进行训练可以用于减少计算量
- 可以看做是逻辑回归和SVM两个模型的雏形
- 是一个分类模型,判别模型
逻辑回归
公式表示:
优化方法: 极大似然估计,列出似然函数,随后使用数值优化方法优化
其他:
- 逻辑回归可以看做是对感知机在概率空间的推广
- 可以看做是最大熵模型在二分类问题上的特殊情况
- 是一个分类模型,判别模型
SVM
公式表示:
优化算法: SMO算法
其他:
- SVM是对感知机在模型表示(核方法、核函数)、优化策略(软间隔、支持向量)和算法(SMO算法)上的全面升级
- 仍然存在一个对偶形式,通过该对偶形式,一方面可以用于减少计算量,另一方面可以更直接的引入核方法和核函数
- 其求解比较麻烦,不是一般的梯度下降法,而是一个启发式的二次规划算法
- 是感知机发展方向的一个极致
- 是一个分类模型,判别模型
朴素贝叶斯
公式表示:
优化算法: 根据假设的概率分布选择合适的求解方法,但一般一轮即可得到结果
其他:
- 如果说逻辑回归可以看做是感知机在概率空间的推广,那么朴素贝叶斯就是纯粹建立在概率空间上的模型
- 朴素贝叶斯就是因为其朴素的假设而成名,但当对其假设进行弱化后,就可以推广到贝叶斯网络等结构上
- 是一个分类模型,生成模型
最大熵模型
公式表示:
优化算法: 通过一些数值优化的方法来进行求解,如梯度下降法,GIS,拟牛顿法等,其要优化的函数是一个凸函数,因此总能找到最大值
其他:
- 最大熵模型基于最大熵原理来确定模型的求解约束,但其最终的表现形式和求解方法比较简单
- 虽然思路来源不同,但实际上能够证明最大熵模型的极大化等价于对其对偶形式的极大似然估计;而另一方面,也可以证明,逻辑回归就是一种特殊的最大熵模型
- 是一个分类模型,判别模型
隐马尔科夫模型
公式表示: 由三个概率矩阵 / 组成的联合概率
优化算法: baum-welch算法,是EM算法在隐马尔科夫模型上的应用
其他:
- 可以看做是朴素贝叶斯在序列模型上的推广,弱化了其条件独立的假设(变成了马尔可夫假设)
- 是一个序列(标注)模型,生成模型
最大熵马尔可夫模型(MEMM):
公式表示:
优化算法: 采用EM算法和GIS算法的结合(在论文中被称为GEM算法),在E步求解概率,在M步采用GIS优化
其他:
- 是将最大熵原理应用到每个随机变量上后构建的模型
- 存在诸多的问题(标记偏置),因此没有被作为主流模型使用。
- 是一个序列标注模型,判别模型
条件随机场(CRF)
公式表示:
优化算法: GIS算法
其他:
- 是将最大熵原理应用到概率图上后构建的模型
- 解决了MEMM等序列模型的标记偏置问题,称为了统计学习方法中序列问题上的最好的模型
- 是一个序列标注模型,判别模型
这一套体系之外的其他坑:
- k近邻法
- 决策树
- 提升方法
- 无监督学习、半监督学习
- 由朴素贝叶斯、HMM、CRF等拓展到的概率图模型和贝叶斯网络
- 由感知机、逻辑回归推广到的广义线性模型和指数分布族