第三周逻辑回归与正则化

学完前三周简要做个总结，梳理下知识框架：

第一讲逻辑回归Logistic Regression

1.分类问题Classification Problem

for example

->Email: Spam / Not Spam 判断一封邮件是不是垃圾邮件？

->Online Transaction:Fraudulent(Yes/NO)?判断某个网络交易是否是诈骗？

->Tumor:Malignant / Benign?判断肿瘤是恶性还是良性？

综上，分类问题就是这样一类问题：针对某个实际样本，根据某种标准，判断它属于哪一个类别，其最终结果是离散的输出值。

分类问题在生活中很常见，除了以上的例子外，想对某水体采样判断水质的酸碱性、对某地大气采样判断其空气污染级别，以上问题的解决都属于今天我们讨论的话题。

2.名次解释

对于分类classification问题，要构建逻辑回归模型去预测，注意：这里的逻辑回归虽然也有‘回归’二字，但并不是针对回归问题而言，因为其预测的结果是离散值，所以不要被“回归”二字混淆，逻辑回归并不属于回归问题。

3.假设函数Hypothesis

分类问题要求Classification: y = 0 or 1

相应地预测结果 h(x) need to be limited to : 0 <= h(x) <= 1

所以，对于逻辑回归中的假设函数我们有如下定义（在线性回归模型上进行改进）：

当样本预测结果h(x)>=0.5时，预测输出值y=1;若h(x)<0.5时，预测输出值y = 0;

所以这使得假设函数h(x)有这样的物理意义：h(x)表征预测结果y=1的概率；

4.决策边界Decision boundary

决策边界是假设函数h(x)的一个属性，当通过训练集拟合出了一条曲线-----即x对应的θ确定，那么相应的决策边界也就确定。

决策边界就是θ^(T)x=0的曲线,曲线的两侧分别对应y=0 or 1。根据一个样本落在曲线的哪一侧，从而对结果进行决策。

4.代价函数J(θ)

代价函数J如果采用线性回归模型中的平方误差函数定义，得到的J是一个non-convex(凸)，采用梯度下降不易得到全局最优解，这里我们采用概率论中的极大似然估计对J做一个凸优化，有：

整理可得：

代价函数虽然重新定义，但是更符合逻辑问题的预测情况，当y=1时：若h(x)->1，cost->0;若h(x)->0,cost->

∞，代价函数J很好的体现了“代价”这一含义。

★★★5.逻辑回归模型Logistic Regression Model

与线性回归模型的区别：y = 0 or 1

0 <= h(x) <= 1

①假设/拟合函数Hypothesis:

②参数Parameter:

③代价函数Cost Function:

④目标Goal:

对于逻辑回归模型Logistic Regression Model的求解主要有：梯度下降和高级优化算法。

6.梯度下降Gradient Decent

梯度下降算法在第二周的线性回归模型中有详细描述，思路就是沿着J(θ)偏导数的方向以α的步伐下降，同时同步更新θ，迭代下去直至J(θ)收敛。

对于Logistic Regression由于J(θ)有变化，梯度下降算法虽然在原理上没有任何变化，就其表达形式我们也重新做一下推导：

◆对于θ的更新第二个等号的后面表达式的由来，就是对J(θ)求偏导，笔者曾经详细的推导过，利用了一点g(z)函数的性质和适当的换元，感兴趣的读者可以试着推到下，最终你会惊人的发现：逻辑回归在改变J的前提下梯度下降算法的表达形式与Linear Regression表达形式出奇的一致:-)，当然，h(x)的形式不同啦！QAQ

7.高级优化算法Advanced Optimization

Andrew Ng在这里讲到了三种高级优化算法，它们的高级是指相对于梯度下降算法而言，有更快的收敛速度和自适应性，无需人工选择学习速率α，缺点就是太复杂。

Andrew Ng坦言，对于这些高级优化算法，重要的是成功应用这些算法于不同的学习问题，而不太需要真正理解这些算法的内环间在做什么。