第一章 统计学习方法概论

● 基础知识
统计学习目的在于对数据进行预测与分析。
输入空间、特征空间、输出空间
以文本为例,所有文本的词组成的空间为输入空间,这里包含了已知的文本与未知的文本,或者说,所有词语的集合是输入空间,训练样本词语组成的空间为特征空间,样本所属类别为输出空间。
假设空间相当于模型存在的空间。
统计学习三要素:模型、策略、算法
模型可以理解为决策函数。
策略在于选择最优模型。
用损失函数或代价函数度量预测的错误程度。损失函数度量单个样本差异!
训练集的平均损失称为经验风险(平均损失)。
经验风险最小化提升模型准确率;结构风险最小化防止过拟合(加入了惩罚项,如果一个模型越复杂,过拟合可能性越高,惩罚项越大)
算法则是模型具体使用的方法
监督学习方法分为生成方法和判别方法。(具体问题以后再说)
二分类问题的评价指标:准确率、召回率、F1值。
● 模型选择
正则化是结构风险最小化策略的实现
交叉验证法用来选择模型(训练集训练,验证集选择,测试集评估学习方法)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章