机器学习

机器学习概念

以数据集（dataset）为例
每一行的数据叫做样本数据；
除最后一列标签列外，每一列的数据叫特征或属性；
最后一列叫标签列，样本所属类别；
属性（特征）空间是由多个特征张成的属性空间；
标记：c（x）,实例类别的标记
特征向量：属性的集合，通常用一个向量来表示，附属于一个实例，构成特征空间的每一行的特征数据；
训练集/训练样例：用来进行训练，即产生模型或算法的数据集
训练数据：由输入X（特征）和输出Y（标签）构成；
训练过程：从数据中学的模型的过程叫做学习或训练；
训练过程中使用的数据叫做训练数据；
测试集/测试样例：通常只知道特征，用来进行预测，专门进行测试已经学习好的模型或者算法的数据集
测试样本：被预测的样本数据，由测试数据和类标签构成；
测试数据：仅有输入的X构成，根据模型得到预测Label信息；
预测：学习完模型之后，由测试数据代入模型进行预测，得到预测值

预测值和真实值的差距的评判标准：
错误率：错误样本数占总体样本的比例；
准确率：1-错误率；
误差：模型的实际输出和真实值的差距；
训练误差：学习器在训练样本上的误差；
泛化误差：学习器在新的样本上的误差
机器学习步骤框架：
1.把数据拆分为训练集和测试集
2.用训练集和训练集的特征向量来训练算法
3.用学习来的算法运用在测试集上来评估算法（可能要设计到调整参数（parameter tuning)–（验证集（validation set））

三要素

机器学习=模型+策略+算法

模型

机器学习中，首先要考虑学习什么样的模型，在监督学习中，如模型(y=ax+b)就是要学习的内容。模型通常分为决策函数或条件概率分布。由决策函数表示的模型为非概率模型，由条件概率分布表示的模型是概率模型。

决策函数
$F= {f|Y=f(X)},F={f|Y=f_\theta(X),\theta \in R^n}$
条件概率
$F= {P|P(Y|X)},F={P|P_\theta(Y|X)\theta \in R^n}$

策略

评价模型的好坏用损失函数（目标函数），模型给出的值与实际真实值的差别，损失函数值越小，模型越好。常用的损失函数有如下几种：0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。

策略补充

经济风险
结构风险

算法

机器学习的算法就是求解最优化问题的算法。可以利用已有的最优化算法，也可以开发独自的最优化算法。

构建机器学习系统

模型选择

泛化

模型具有好的泛化能力指的是：模型不但在训练数据集上表现的效果很好，对于新数据的适应能力也有很好的效果。泛化能力的表现：过拟合和欠拟合。
过拟合overfitting：模型在训练数据上表现良好，在未知数据或者测试集上表现差。
欠拟合underfitting：在训练数据和未知数据上表现都很差。

过拟合

过拟合产生原因：可能是模型太过于复杂、数据不纯、训练数据太少等造成。

出现的场景：当模型优化到一定程度，就会出现过拟合的情况。

解决办法：（1）重新清洗数据（2）增大训练的数据量（3）采用正则化方法对参数施加惩罚：常用的有L1正则和L2正则（4）采用dropout方法，即采用随机采样的方法训练模型，常用于神经网络算法中。

欠拟合

欠拟合产生原因：模型过于简单。

出现的场景：欠拟合一般出现在机器学习模型刚刚训练的时候，也就是说一开始我们的模型往往是欠拟合也正是因为如此才有了优化的空间，我们通过不断优化调整算法来使得模型的表达能力更强。

解决办法：（1）添加其他特征项：因为特征项不够而导致欠拟合，可以添加其他特征项来很好的解决。（2）添加多项式特征：可以在线性模型中通过添加二次或三次项使得模型的泛化能力更强。（3）减少正则化参数，正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，需要减少正则化参数。

奥卡姆剃刀原则

给定两个具有相同泛化误差的模型，较简单的模型比较复杂的模型更可取(奥卡姆剃刀原则)。

评估

正则化

交叉验证

简单交叉验证

随机从最初的样本中选择部分，形成验证数据，而剩下的当作训练数据。一般来说，少于三分之一的数据被选作验证数据。

10折交叉验证

把样本数据分成10份，轮流将其中9份做训练数据，将剩下的1份当测试数据，10次结果的均值作为对算法精度的估计，通常情况下为了提高精度，还需要做多次10折交叉验证。更进一步，还有K折交叉验证，10折交叉验证是它的特殊情况。K折交叉验证就是把样本分为K份，其中K-1份用来做训练建立模型，留剩下的一份来验证，交叉验证重复K次，每个子样本验证一次。

留一验证

只使用样本数据中的一项当作验证数据，而剩下的全作为训练数据，一直重复，直到所有的样本都作验证数据一次。可以看出留一验证实际上就是K折交叉验证，只不过这里的K有点特殊，K为样本数据个数。

机器学习导论（二）：数据集、分类、三要素

机器学习导论（二）

机器学习

机器学习概念

分类

初识机器学习分类

三要素

模型

策略

算法

构建机器学习系统

模型选择

泛化

过拟合

欠拟合

奥卡姆剃刀原则

评估

正则化

交叉验证

简单交叉验证

10折交叉验证

留一验证

机器学习库

python數據科學（八）：pandas基礎—— 丟棄、apply applymap、唯一性

數據可視化基礎（八）：示例——函數積分圖、散點條形圖

python基礎（二十）：excel 讀取

python數據科學（三）：ipython

python基礎（十九）：JSON 讀取

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結