PCA

PCA是一种数学方法，那他的好处都有啥???：

降维
降噪
可视化

PCA的操作概括起来就是降维的同时让样本间间距最大——即使降维的影响最小化，用方差能很好解决这个问题。（我好像没有介绍就直接开始讲做法了是不是有点不妥）

前戏

在求方差之前将所有样本的特征值demean处理，那么方差就更加好求了（方便向量化）

PCA过程

主成分就是集合所有样本特征所求得的影响力最大的一个向量。
那么实际上就是要求能使方差最大的一个向量w：

其中w是一个指向降维的方向的单位向量（这条式子你能推的出来的），现在的目的就是要求这个对应的w能使它最大了，（w就是Xi的第一主成分的方向），这时可以用梯度上升法来求w，跟之前求θ很相似，只是原来是-α×梯度，现在是+α×梯度，当上升到。（再复习一下梯度，也是对每一个wi进行求导的一个向量）

然后这个值也可以这样进行向量化：

求前k个主成分

通过对这个式子的w做梯度上升法（收敛判定也是需要ε），就可以求得第一个主成分了，然后用原来的特征向量减去刚刚求出来的主成分（第一主成分），就能求得下一个我们要求第二主成分的方向了（实际上是垂直于第一主成分的），用同样的方法对其求主成分便能求得第二主成分…以此类推能求出前n个主成分。
如图C1为Xi的第一主成分(即w1上的主成分)，那么就可以：

降维

假设本来有m个样本n个特征，那么原样本特征矩阵就是一个m x n的n维矩阵X，通过刚刚的方法求得前k个的主成分方向w组成一个矩阵k x n的k维矩阵W，那么用X · W.T便可以实现降维了（得到一个m x k的矩阵Xk）。

降噪

Inverse Transform，用前面得到的的Xk · W就得到回了一个m x n的矩阵了，这个矩阵虽然也是跟原来shape一样的矩阵，但是其实是已去除掉了一些信息的前k维的成分在n维中表示，那些不重要的成分通过能通过PCA去掉，而这些不重要的成分通常可能会是噪音，那我们用PCA得到Xk后就能通过Xk · W重新获得m x n的矩阵进行降噪。

可视化

你说可视化吗，只要降到你那个维度空间能看的维度就可以了啊?。

SVM

SVM要解决的是ill posed problem不适定问题，指decision boundary决策边界存在多个的时候要选择哪个比较好（泛化效果最好的）→SVM的解决方式就是找到那条与两个类别最近的样本距离最远的决策边界（好难表达，看图那三个点到直线距离相同且是各自分类中离线最近的，这些点也叫做支撑向量）。?在这一点上他的确跟PCA真的有点像

假设那根决策边界的直线方程为
那对于两个分类到这跟直线的距离应该有以下式子（分类分成1和-1，方便合并）：

巧妙的合并得到：

然后现在需要距离最大的话实际上就是要：

分子实际上是距离最重要的部分，而那些最近的点分子都接近于0，所以上式也可以变成：(1/2是方便求导)
综上SVM的基本式：
而为了不让极端值太影响到决策边界选取，于是就有了Soft Margin SVM：

核函数
总结了很多：https://blog.csdn.net/kateyabc/article/details/79980880
Example：

实际上就是通过核函数将那些本来需要向量转换拉伸之后再相乘得到的标量值直接通过核函数求得，再简单一点说就是K(x,y)就是映射变化后的x与y的内积，所以也有人说这是Kernal Trick（再比如多项式线性回归要将x1,x2拉伸为x1,x1x2,x2,x1²,x2²，然后再与θ相乘，通过核函数就方便了计算）

线性核函数：
这个的话说了跟没说似的…

多项式核函数：

高斯核函数
是SVM中常用的核函数的一种，相对于其他的核函数，高斯核函数是相当于试着将每一个样本点映射到无限维的特征空间的（实际上只是有多少个样本映射到多少维），实际上由高斯分布推得的，所以高斯核函数图像都是呈正态分布状：

那么σ在这：

（也有人把系数提出来写成这样：）
其中li称为landmark标记点，这些标记点其实就是样本点，所以相当于将原来mn维的数据映射成了mm，而且当m<n会很适合使用，如图：

用核函数后，像以前的回归问题都能表示成这样：

将f1,f2…变成一个特征向量就又变成了：

就可以像之前那样解决了。