【機器學習】線性迴歸之概率解釋及局部加權線性迴歸

原創

2020-02-21 04:28

Probabilistic interpretation

我們應該想這樣一個問題：當我們討論迴歸問題時，我們爲什麼要最小化平方損失函數？在CS229的課程中，吳恩達教授給我們做了詳細的概率解釋。現總結如下：
對單個樣本來說：

其中 $\varepsilon^{(i)}$ 爲預測誤差，我們假定樣本的誤差屬於獨立同分布。

根據中心極限定理：多個隨機變量的和符合正態分佈；因爲誤差的隨機性， $\varepsilon^{(i)}$ 符合均值爲0，方差爲 $\sigma^2$ 的正態分佈，即假定 $\varepsilon^{(i)} \sim N(0,\sigma^2)$ ,因此：

上述第2個等式表明，在給定 $\theta$ , $x^{(i)}$ 的條件下， $y^{(i)}$ 符合正態分佈，且均值爲 $\theta^Tx^{(i)}$ ,方差爲 $\sigma^2$ ,即 $y^{(i)}|x^{(i)};\theta \sim N(\theta^Tx^{(i)},\sigma^2)$

注意，這裏 $p(y^{(i)}|x^{(i)};\theta)$ 不等同於 $p(y^{(i)}|x^{(i)},\theta)$ ，前者 $\theta$ 默認爲是一個固定的值，一個本身就存在的最佳參數矩陣；而後者認爲 $\theta$ 是一個變量（統計學中frequentist和Bayesian的差別）。

此時，我們已知了y的概率分佈，因爲 $\epsilon$ 是獨立同分布的，所以每個樣本的輸出y也是獨立同分布的。那麼就可以用極大似然估計（MLE）來估計 $\theta$ 。似然函數爲

似然函數取對數可得

可以看出，MLE的最終結果就是要最小化

這恰好就是我們的cost function。

對對數似然函數求導可得：

易得：(具體的推導可參見Normal Equation)

這不就是我們用Normal Equation得出的結論嗎！（Normal Equation）

得到 $\theta$ 的估計之後，我們再來估計一下 $\sigma^2$ ，先暫記 $\beta^{-1}=\sigma^2$ ，則：

解得：

至此，我們已經估計得到了 $\theta$ 和 $\sigma^2$ ，所以我們可以得到之前的概率分佈模型 $y^{(i)}|x^{(i)};\theta \sim N(\theta^Tx^{(i)},\sigma^2)$ 的確切表達式。

有了這個模型，對於輸入就可以很容易的得到對於的，及其概率，以及置信區間等。

關於概率解釋還有幾點可以寫。

正則項的貝葉斯先驗解釋

下次有時間補上

局部加權線性迴歸（Locally Weighted Linear Regression,LWLR）

LWLR算法是一個non-parametric（非參數）學習算法，而線性迴歸則是一個parametric（參數）學習算法。

所謂參數學習算法它有固定的明確的參數，參數一旦確定，就不會改變了，我們不需要在保留訓練集中的訓練樣本。

而非參數學習算法，每進行一次預測，就需要重新學習一組，是變化的，所以需要一直保留訓練樣本。也就是說，當訓練集的容量較大時，非參數學習算法需要佔用更多的存儲空間，計算速度也較慢。

先介紹這個概念是因爲LWLR由於是非參數的學習算法，所以訓練的方式與傳統的線性迴歸有點區別。LWLR並不進行預先訓練，而是當每次需要預測新樣本點的時候纔開始訓練整體樣本。LWLR的核心思想就是，與新樣本點相關度高的（距離近的）樣本起到的權重大，相關度低的起到的作用很小。

首先我們來看一個線性迴歸的問題，在下面的例子中，我們選取不同維度的特徵來對我們的數據進行擬合。

對於上面三個圖像做如下解釋：

選取一個特徵，來擬合數據，可以看出來擬合情況並不是很好，有些數據誤差還是比較大。

針對第一個，我們增加了額外的特徵，，這時我們可以看出情況就好了很多。

這個時候可能有疑問，是不是特徵選取的越多越好，維度越高越好呢？所以針對這個疑問，如最右邊圖，我們用五階多項式使得數據點都在同一條曲線上，爲。此時它對於訓練集來說做到了很好的擬合效果，但是，我們不認爲它是一個好的假設，因爲它不能夠做到更好的預測（過擬合）。

針對上面的分析，我們認爲第二個是一個很好的假設，而第一個圖我們稱之爲欠擬合（underfitting），而最右邊的情況我們稱之爲過擬合（overfitting）

所以我們知道特徵的選擇對於學習算法的性能來說非常重要，所以現在我們要引入局部加權線性迴歸，它使得特徵的選擇對於算法來說沒那麼重要，也就是更隨性了。

在我們原始的線性迴歸中，對於輸入變量，我們要預測，通常要做：

而對於局部加權線性迴歸來說，我們要做：

爲權值，從上面我們可以看出，如果很大，那麼該樣本點所產生的平方誤差的影響就很大，所以如果很小，則它所產生的影響也就很小。

通常我們選擇的形式如下所示：

上式中參數爲新預測的樣本特徵數據，它是一個向量，參數控制了權值變化的速率，和的圖像如下

可以看到（感覺這幅圖並不太好，雖然大致的意思（分佈上）表達出來了）

（1）如果，則。

（2）如果，則。

也即，離很近的樣本，權值接近於1，而對於離很遠的樣本，此時權值接近於0，這樣就是在局部構成線性迴歸，它依賴的也只是周邊的點。

圖中紅色直線使用線性迴歸做的結果，黑色直線使用LWR做的結果，可以看到局部加權迴歸的效果較好。

參數τ控制權重函數的寬度，τ越大，權重函數越寬，也就是下降越慢，τ越小，則對於距離越敏感：

總結

這個模型相對比較簡單，雖然可以在一定程度上解決欠擬合的問題，但有相當明顯的缺陷。

當數據量比較大的時候，存儲量比較大，計算量比較大，代價較大。
每次進來新的x時，需要重新根據訓練數據得到局部加權迴歸模型。
不一定能夠解決under-fitting的問題

參考文章：

線性迴歸及其概率解釋

線性迴歸概率解釋(Linear Regression)

發佈了50 篇原創文章 · 獲贊 183 · 訪問量 19萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

還能報名！風靡硅谷開發者的Unstructured Data Meetup 杭州站與您6月15日見面！

"最硅谷"的Unstructured Data Meetup即將來到杭州西溪！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2027年，全球數據總量中將有超過 86.7

2024-06-12 14:15:35

一文搞懂DevOps、DataOps、MLOps、AIOps：所有“Ops”的比較

引言近年來，"Ops"一詞在 IT 運維領域的使用迅速增加。IT 運維正在向自動化過程轉變，以改善客戶交付。傳統的應用程序開發採用 DevOps 實施持續集成（CI）和持續部署（CD）。但對於數據密集型的機器學習和人工智能（AI）應用，精

2024-06-07 14:08:38

首批！Zilliz 獲得亞馬遜雲科技生成式 AI 合作伙伴能力認證

Zilliz 正式宣佈通過亞馬遜雲科技生成式 AI 能力認證！這一認證不僅肯定了 Zilliz 在人工智能和非結構化數據領域的卓越能力，也標誌着 Zilliz 在推動 AI 技術創新和應用的道路上邁出了重要一步。亞馬遜雲科技生

2024-06-06 14:16:04

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

還能報名！風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基於 Milvus + LlamaIndex 實現高級 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上學不會游泳 | 算法校招生的高效成長總結

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球廠商之最，華爲17篇論文入選國際數據庫頂會ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

24小時熱門文章

最新文章

最新評論文章