PRML 阅读笔记(九)

3.Linear Models for Regression


    这章一开始作者就说明,"线性"回归指的是模型或预测函数是参数的线性函数,而不一定是输入变量的线性函数。对于模型中输入变量的的函数,可以是非线性函数,称之为basis function。


3.1 Linear Basis Function Models

      线性回归模型可以表示如下:

      

      其中w0的basis function被假设为常数1.

      在第一章的多项式曲线拟合中,只有一个输入变量x,并且模型中的basis function是,其实basis function的选择是很广泛的,书中介绍了Gaussian baisis function,logistic sigmoidal function等三种basis function。作者下面一段关于傅立叶级数和frequency,spatial的一段话我没理解,希望大牛给我一点提示。

      



3.1.1 Maximum likelihood and least square

       这一小节,作者主要还是对似然函数的前前后后做了一系列描述与讲解。

       首先,假设目标变量和预测函数与误差的关系如下:

       

        紧接着,像第一章提到那样,根据中心极限定理等,假设误差服从均值为0,precision为β的高斯分布,进而可以推导出目标变量服从的高斯分布:

        

         对上式取对数形式后,最后一项便是之前提到过的“最小均方”,关于最小均方作者题到了梯度下降。对于“最小均方”中的w求偏导并假设求偏导之后的式子为0,便可以得到所谓的normal equation。书中有normal equation的具体形式,就不过多赘述了。为什么有了normal equation,还要用梯度下降法求参数的解呢?首先遇到不可逆的矩阵,就无法用normal equation求出参数的解,其次当特征维度非常高的时候计算逆矩阵的成本太高。

         接下来作者论述了参数w0的含义和precision β的求解。关于w0,作者写到w0是补偿了目标变量均值和weighted sum of the averages of the basis function values之间的差值:

         

          虽然式子是清楚了,但是还是不明白这样的补偿有什么意义?

          

3.1.2 Geometry of least squares

           这一小节,作者对"最小均方"的几何含义做了相应解释。在N维空间中,t(即目标标量的向量组)是N维空间中的一个N维向量,假设模型复杂度M小于样本的总个数N,对于N维向量y,也是一个N维向量,但因为其是M个向量的线性组合,所以被局限在了一个M维的子空间中。"最小均方"的意义就是选取适当的w,使得出的yt的欧式距离最小,而真正的使"最小均方"为0的y即是t在M维子空间上的投影。

           

3.1.3 sequential learning

           即应用随机梯度下降,使用一个样本点更新所有参数值,适合于实时应用中(详见andrew ng斯坦福公开课)。


3.1.4 Regularized least squares

            这一节的大多数内容也在之前遇到过了,即加入了正则项的“最小均方”的相关知识。加入了正则化项以后,除非有数据的支持,否则会使参数取值趋近于0来简化模型,避免过拟合。相对与之前,对于正则化项进行一点小小扩展,有:

            

            当q=2时,即我们之前题到的正则化项。这样就把防止过拟合的任务从basis function的个数选择上转移到了正则化参数λ的选择上了。


3.1.5 Multiple outputs

            这一小节主要是讲输出变量t是多维的情况,不做介绍了,只是扩展了一下维度。




3.2 The Bias-Variance Decomposition

           在1.5.5节中,通过指定loss 函数L是“最小平方”,再对L的期望进行一点简单的推导,得出了最优y(x),即使得E[L]最小的y(x),记为h(x),如下:

           

            在1.5.5中,将h(x)代入“最小平方”L中,可以推导出如下E[L]:

            

             其中第二项来源于数据中的噪声,在样本数据确定以后是不可消减的,也就是E[L]理论上所能取到的最小值了。而第一项,明显是因为我们选择的y(x)和最优y(x)之间的误差引起的,所以接下来的努力方向就是使第一项尽量小。

              假设此时我们有多个样本集,大小都为N,且是从分布p(t,x)中独立产生的。在每个数据集上使用最小二乘对参数进行拟合,最后取各个数据集上拟合的结果进行合成。E(y(x;D))是y(x;D)的均值,将其插入“最小平方”中得到:

             

              然后再经过一步不知怎么就消去了交叉项的推导,得到了:

                       

                这样,之前的E[L]就变成了如下形式:

                

                我们的目标是最小化expected loss,其中noise是常数,而对于前两项的选取,称为bias and variance trade-off。对于flexible models,因为面对不同D时,y(x;D)的变化会比较大,所以variance比较高,而因为其对于样本的拟合比较好,所以平均后的效果更接近最优y(x),这时的模型存在过拟合风险。相反,对与比较rigid的模型,其面对不同D的时候y(x;D)的变化不大,所以variance就会比较小,而因为对数据的拟合度差一点,bias就会高一点,此时存在欠拟合的风险。所以,最好的y(x)是在bias和variance中找到一个平衡。这是我对这部分内容的一点理解,不对的请大家指出来。

                 后来作者又画图举了bias和variance平衡关系的例子,以及如何量化的计算bias和variance。

                 关于这一节,作者在讲bias和variance的时候要谈到多个数据集,而最后又说将数据集合并后进行建模可以有效避免过拟合。为什么讲内容的时候要分开,是因为讲的方便?不分开就不存在E(y(x;D))?还是因为什么原因?希望有大牛能指点一下,感激不尽。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章