線性迴歸VS最小二乘法的本質是什麼

原創

2020-12-01 03:02

最小平方法是十九世紀統計學的主題曲,從許多方面來看, 它之於統計學就相當於十八世紀的微積分之於數學。
----史蒂芬·史蒂格勒的《The History of Statistics》

日用而不知

來看一個生活中的例子。比如說，有五把尺子：

用它們來分別測量一線段的長度，得到的數值分別爲（顏色指不同的尺子）：

之所以出現不同的值可能因爲：

不同廠家的尺子的生產精度不同
尺子材質不同，熱脹冷縮不一樣
測量的時候心情起伏不定
......

總之就是有誤差，這種情況下，一般取平均值來作爲線段的長度：

日常中就是這麼使用的。可是作爲很事'er的數學愛好者，自然要想下：

這樣做有道理嗎？
用調和平均數行不行？
用中位數行不行？
用幾何平均數行不行？

最小二乘法

換一種思路來思考剛纔的問題。

首先，把測試得到的值畫在笛卡爾座標系中，分別記作yi

其次，把要猜測的線段長度的真實值用平行於橫軸的直線來表示（因爲是猜測的，所以用虛線來畫），記作y

每個點都向y做垂線，垂線的長度就是|y-yi| ，也可以理解爲測量值和真實值之間的誤差：

因爲誤差是長度，還要取絕對值，計算起來麻煩，就乾脆用平方來代表誤差：

誤差的平方和就是ε (error)代表誤差：

因爲y是猜測的，所以可以不斷變換：

自然，誤差的平方和在不斷變化的。

法國數學家，阿德里安-馬裏·勒讓德（1752－1833，這個頭像有點抽象）提出讓總的誤差的平方最小的y就是真值，這是基於，如果誤差是隨機的，應該圍繞真值上下波動（關於這點可以看下“如何理解無偏估計？”）。

勒讓德的想法變成代數式就是：

正好是算術平均數。

原來算術平均數可以讓誤差最小啊，這下看來選用它顯得講道理了。
就是最小二乘法，所謂“二乘”就是平方的意思，臺灣直接翻譯爲最小平方法。

基本形式

給定由d個屬性描述的示例x={x1;x2;...;xd}

，其中xi是x現在第 i個屬性上取值，線性模型去學習一個通過屬性的線性組合來進行預測的函數，即

一般用向量形式表示更爲簡潔：

其中，

其實可以很簡單的理解，如下圖直線是由很多點組成的，如果事先不知道直線的方程，只有一些點，那麼根據這些點求得的函數就是這條直線。我們的任務就是根據已知的一些數據求解得到函數。當然這只是一元線性迴歸，還有多元線性迴歸與之類似。

迴歸分析中，如果只包括一個自變量和一個因變量，且二者的關係可用一條直線近似表示，這種迴歸分析稱爲一元線性迴歸分析。如果迴歸分析中包括兩個或兩個以上的自變量，且因變量和自變量之間是線性關係，則稱爲多元線性迴歸分析。對於二維空間線性是一條直線；對於三維空間線性是一個平面，對於多維空間線性就是一個超平面。

一元線性迴歸

給定數據集：

其中，

和

而線性迴歸視圖學得：

, 使得

其實就是找到一個函數使得數據儘可能的在這個函數內。那麼如何確定參數w和b呢？
顯然，關鍵在於如何衡量f(xi)與yi之間的差距，我們使用均方誤差來進行度量。因此我們將差距最小問題轉化爲均方誤差最小化，即

其中，

分別表示w和 b的解。

在線性迴歸中，最小二乘法就是試圖找到一條直線，使得所有樣本到直線上的距離之和最小。

求解w和b使

最小化的過程，稱之爲線性迴歸模型的最小二乘法“參數估計”(parameter estimation)。爲了得到最小值，我們只需要將函數

求導即可。則

分別對w和b求導，得到：

求得倒數爲零的解，即爲最優解，則令導數

極值點處的導數一定爲0，但導數爲0的點不一定是極值點

可得到w和b的最優解分別爲：

其中，x的均值爲

https://www.zhihu.com/question/37031188

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

「遊記」2024 吉林省賽和 2024 東北四省賽

Before 本文是 \(2024\) 中國大學生程序設計競賽全國邀請賽（長春）暨第 \(17\) 屆吉林省大學生設計競賽和新建比賽的遊記寫的很爛寫的很爛寫的很爛 Day0 省賽報到及熱身賽。 \(14：00\) 前報到。 \(12：

2024-05-18 14:35:35

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

一、前言在使用yolo做人工智能運算後，運算結果除了一個方框，還可能需要增加文字顯示在對應方框上，以便標記是何種物體，比如顯示是人還是動物，或者還有可能追蹤人員，顯示該人員的姓名。這種應用場景非常普遍，而且非常有必要，可以非常直觀的直接看

2024-05-18 14:35:25

WPS技巧——MARK住

一、如何對一列數據進行相同操作，比如全都添加雙引號 https://www.jiachong.com/wps/340708.html 1.首先打開表格,按Ctrl+C複製第一個單元格內容, 2.然後把複製的單元格內容按Ctrl+V粘貼到與其

2024-05-18 14:34:35

LightDB通過金融信創生態實驗室測試

　　恆生電子LightDB順利通過了金融信創生態實驗室的產品測試，本次測試基於典型金融業務場景並在國產硬件環境中進行，經過測試，LightDB在產品性能、功能性、兼容性以及可靠性等多個維度100%符合金融業務系統，表現優異。　　在本

2024-05-18 14:32:25

國產數據庫金融行業實踐者：LightDB通過強制性國家標準GB18030-2022最高級別認證

　　8月1日，強制性國家標準GB 18030-2022《信息技術中文編碼字符集》實施。10月09日，恆生電子LightDB正式通過中國電子技術標準化研究院強制性國家標準GB18030-2022《信息技術中文編碼字符集》最高級（實現級別

2024-05-18 14:32:25

記一次asp.net 8 服務器爆滿的解決過程

1.描述一下服務器配置: 一臺2c4g的centos,做api接口反代一臺8c16g的windows 2019 作爲實際服務器,跑了iis,sql server,mongodb,redis 2.業務描述 2.0 服務器分爲兩個站

2024-05-18 14:26:04

一次nginx文件打開數的問題排查處理

現象：nginx域名配置合併之後，發現consul-template無法完成nginx重載，然後發現需要重啓nginx，才能讓配置生效。注意：下次哪個服務有報錯，就看重啓時所有日誌輸出，各種情況日誌輸出。不要忽略細節。很多時候其實已經

2024-05-18 14:17:33

docker 運行minio standalone模式

sudo docker run -it -d --name minio_latest -p 9000:9000 -p 9001:9001 -v /minio/data:/data -e MINIO_ROOT_USER="賬號" -e MIN

2024-05-18 14:15:13

HTML 09 - Quotations

Quotations in HTML allow you to include and format quoted text within your web content. HTML provides tags such as <bl

2024-05-18 14:14:12

HTML 10 - Comments

HTML Comments are used to comment in HTML codes, so the developer can understand the purpose of that code section and it

2024-05-18 14:14:12

Nginx R31 doc 官方文檔-01-nginx 如何安裝

從 Ubuntu 存儲庫安裝預構建的 Ubuntu 包更新 Ubuntu 存儲庫信息： sudo apt-get update 安裝包： sudo apt-get install nginx 驗證安裝： sudo ngin

2024-05-18 14:01:41

Android 15 的新功能與適配

前臺服務變化前臺服務一直是比較損耗電池壽命的操作，在 Android 15 Beta 2 裏，**dataSync 和 mediaProcessing 的前臺服務類型現在有大約 6 小時的超時時間**，之後系統將調用 Android 15

2024-05-18 14:00:31

高薪線下週末班馬上開班，手把手帶你提升職業技能

管理學大師彼得·德魯克說“終身學習是現在社會的生存法則”，而現實中，很少有人能清醒地意識到這一點，人們總是習慣在舒適區兜圈，重複做已經掌握的事情，對真正需要突破的職業困境視而不見。偶爾看到同事跳槽漲薪，技術越來越嫺熟，自己也期望着可以跟他

霍格沃茲測試學院

2024-05-18 13:54:11

提升團隊生產力：2024年必知的一體化協同辦公平臺

本文介紹的主流一體化協同辦公平臺有：Worktile、PingCode、Microsoft Teams、釘釘、Google Workspace、Jive、Avaya、Bitrix24、Asana、ClickUp、飛書。在現代工作環

2024-05-18 13:54:00

Mono 支持LoongArch架構

近期，著名的.NET開源社區Mono正式支持LoongArch（龍架構），目前LoongArch64架構已出現在.NET社區主幹分支上。詳細內容可以跟蹤 https://github.com/mono/mono/issues/21381,

2024-05-18 13:53:40

24小時熱門文章

最新文章

最新評論文章