【精简推导】线性回归、岭回归、Lasso回归（最小二乘法）

原創

风后奇门‘

2020-06-20 21:38

岭回归（Ridge）

线性回归

线性回归模型方程形式：

矩阵形式：

线性回归的任务就是要构造一个预测函数来映射，输入的特征矩阵和标签的线性关系。这个预测函数的本质就是我们需要构建的模型，而构造预测函数的核心就是找出模型的参数向量。

损失函数：

是样本i的真实标签，是预测标签。

从损失函数可以看出其实这就是L2范式的平方。L2范式本质就是欧式距离（欧氏距离就是两点相减平方然后开根号）。因此损失函数在这里也是衡量真实值与预测值之间的距离，所以我们希望它越小越好。

即：

这就是SSE（Sum of Sqaured Error，误差平方和）或者RSS（Residual Sum of Squares 残差平方和）

有了损失函数我们就来盘它：

矩阵运算规则：

和

所以上式有：

矩阵求导规则（下面 $\alpha$ 代表常数）有：

所以上式等于：

让其一阶导数为0，因此有：

左乘一个，则最后的结果有：

这就是它的最终结果，最小二乘法推导很简单，但是有一个前提就是，的逆矩阵一定要存在（充分必要条件是特征矩阵不存在多重共线性（可以理解为矩阵的行列式结果不等于0））

矩阵求逆矩阵公式：

One more thing

RSS残差平方和，它的本质是预测值与真实值之间的差异,我们只知道求解它的最小值，因为不能为负数因此越接近0越好，

但是由于它的和是一个无限大的和，求解它的最小值，究竟它要多小才算我们的模型训练好了呢？

回归问题的另外两个损失函数（评价指标）:MSE（均方误差，mean squared error），（越接近1，越好）

在中，分子是真实值和预测值之差的差值，也就是我们的模型没有捕获到的信息总量，分母是真实标签所带的信息量（像极了方差公式），所以其衡量的是1 - 我们的模型没有捕获到的信息量占真实标签中所带的信息量的比例，所以，越接近1越好。

--------------------------------------------------------------分割线--------------------------------------

线性回归能够用最小二乘法求解的前提条件就是需要特征矩阵不存在多重共线性（不然矩阵行列式为0，就无法求可逆矩阵了）

岭回归和Lasso的存在就是为了来修补这个漏洞的。

岭回归（Ridge）

岭回归就是在线性回归的损失函数后面加了一个L2正则化项。

前半部分已经推导过了，后半部分很简单

最后得到：

从这里可以看书，即时的行列式等于0，那么加上一个 $\alpha I$ ，肯定存在一个，总体的行列式不为0的情况，因此

总体的逆矩阵肯定存在。这就避免了线性回归的漏洞了。

Lasso回归

lasso回归就是在线性回归的式子后面加了一个L1正则化。

前半部分很熟悉了，后半部分与岭回归有一些不同

从这了可以看到，Lasso回归和岭回归区别很大，求导的式子中发现，似乎无法解决高度共线性问题。但是在现实生活中，一般是很少会遇到数据是精确相关（样本特征之间存在直接的倍数关系）的，因此可以假设的逆矩阵是存在的。

那么我们就有：

Lasso不是从根本上解决多重共线性问题，而是限制多重共线性带来的影响。

以上两个回归都加了正则化，正则化都会起到压缩系数的大小.对标签贡献少的特征,最后系数会更小，也更容易被压缩。不过，L1正则化和L2正则化的区别是：L2正则化会将系数压缩到接近0（不等于0），但L1正则化主导稀疏性，会将系数压缩到0（因此也说明Lasso回归可以用来做特征选择）

推荐资料： https://live.bilibili.com/12582510

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

还能报名！风靡硅谷开发者的Unstructured Data Meetup 杭州站与您6月15日见面！

"最硅谷"的Unstructured Data Meetup即將來到杭州西溪！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2027年，全球數據總量中將有超過 86.7

2024-06-12 14:15:35

一文搞懂DevOps、DataOps、MLOps、AIOps：所有“Ops”的比较

引言近年來，"Ops"一詞在 IT 運維領域的使用迅速增加。IT 運維正在向自動化過程轉變，以改善客戶交付。傳統的應用程序開發採用 DevOps 實施持續集成（CI）和持續部署（CD）。但對於數據密集型的機器學習和人工智能（AI）應用，精

2024-06-07 14:08:38

首批！Zilliz 获得亚马逊云科技生成式 AI 合作伙伴能力认证

Zilliz 正式宣佈通過亞馬遜雲科技生成式 AI 能力認證！這一認證不僅肯定了 Zilliz 在人工智能和非結構化數據領域的卓越能力，也標誌着 Zilliz 在推動 AI 技術創新和應用的道路上邁出了重要一步。亞馬遜雲科技生

2024-06-06 14:16:04

Opal 机器学习平台：爱奇艺数智一体化实践

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基于对比稀疏扰动技术的时间序列解释框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

儿童节变身小小音乐家*用ModelArts制作一张AIGC音乐专辑

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺诈指南：车险欺诈为何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

还能报名！风靡硅谷开发者的 Unstructured Data Meetup 即将登陆中国！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

AI安全志：英国AI骗保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

文心大模型免费辣，动手搓点啥庆祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

风控指南：国内车险欺诈呈现四大趋势

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款扩展组件齐发 —— Volcano、Keda、Crane-scheduler 等，邀你体验

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基于 Milvus + LlamaIndex 实现高级 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上学不会游泳 | 算法校招生的高效成长总结

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球厂商之最，华为17篇论文入选国际数据库顶会ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

24小時熱門文章

Wireshark 安装+使用（一）

最新文章

最新評論文章