正態分佈最通俗的解釋---今天你正太分佈了嗎?

正態分佈這一現象有多重要?可以說我們的生活中隨處都可遇見,只是沒有被人留意。但是當你接觸機器學習的時候,正態分佈是你無法避開的話題。既然這麼重要,我決定寫一篇文章介紹一下正太分佈,當然裏面整理了一些網上的說法,後面我會標識出來。

本文我會遵照以下思路展開:
1,生活中正態分佈的現象;
2,正態分佈名字的由來;
3,爲什麼機器學習中要經常用到正態分佈?
let’s go!

生活中的正態分佈現象

現象一:
記得我在上高中的時候,成績大概是班級15名附近。每次考試結束的時候都會和同桌討論答案。情況如下圖所示:
在這裏插入圖片描述
大家看,這個情況是不是很熟悉,每次考試,不管你對完答案心情如何,結果都差不多,成績並沒有大幅度變化。(當然會有個別猛人逆襲,不過逆襲的都是個別人,這也符合正太分佈的規律。正太分佈什麼規律?別急,後面會跟大家介紹)

現象二:
我家住在城西,我在城東上班。我每天預留50分鐘的上班世間,有時候我20分鐘就到單位了,有時候會用到接近50分鐘。但是平均下來大概是30分鐘,且大多數時候都在25-35分鐘之間。這個規律也符合正太分佈

現象三:
在這裏插入圖片描述
還記得我們上學拍合照嗎?去掉幾個特別高的和幾個特別矮的,大部分人的身高是差不多的。不是嗎?這也符合正太分佈的規律。

正太分佈名字的由來

關於正太分佈的小實驗
正太分佈這個現象可以說歷史悠久,但是人們研究這個現象卻是有跡可循的。

考慮一個預測模型,該模型可以是我們的數據科學研究中的一個組件。

如果我們想精確預測一個變量的值,那麼我們首先要做的就是理解該變量的潛在特性。

首先我們要知道該變量的可能取值,還要知道這些值是連續的還是離散的。簡單來講,如果我們要預測一個骰子的取值,那麼第一步就是明白它的取值是1 到 6(離散)。第二步就是確定每個可能取值(事件)發生的概率。如果某個取值永遠都不會出現,那麼該值的概率就是 0 。

事件的概率越大,該事件越容易發生。

在實際操作中,我們可以大量重複進行某個實驗,並記錄該實驗對應的輸出變量的結果。

我們可以將這些取值分爲不同的集合類,在每一類中,我們記錄屬於該類結果的次數。例如,我們可以投10000次骰子,每次都有6種可能的取值,我們可以將類別數設爲6,然後我們就可以開始對每一類出現的次數進行計數了。

我們可以畫出上述結果的曲線,該曲線就是概率分佈曲線。目標變量每個取值的可能性就由其概率分佈決定。

一旦我們知道了變量的概率分佈,我們就可以開始估計事件出現的概率了,我們甚至可以使用一些概率公式。至此,我們就可更好的理解變量的特性了。概率分佈取決於樣本的一些特徵,例如平均值,標準偏差,偏度和峯度。

如果將所有概率值求和,那麼求和結果將會是100%。

世界上存在着很多不同的概率分佈,而最廣泛使用的就是正態分佈了。

正太分佈名字的由來

這要從發明這個東東的人說起。

維多利亞時期的學者Francis Galton對數據分佈很着迷,他製造了一臺可以產生‘數據分佈’的裝置。他發現這種裝置適用於很多數據,他將其命名爲‘正態分佈’(The Normal Distribution)。
該裝置名稱爲高爾頓釘板,如下圖所示:
在這裏插入圖片描述

爲什麼機器學習中要經常用到正態分佈

正太分佈的含義
我們先來看一張經典的數據分佈圖像
在這裏插入圖片描述
上圖代表的是正太分佈的數據,數值分佈的形式。
其中NN是這一組數據的平均值,±σ±σ代表這組數據的分佈範圍。這個圖的意思是說,有接近68%的數據分佈在N±σN±σ之間,有95.4%的數據分佈在N±2σN±2σ之間,有99.7%的數據分佈在N±3σN±3σ之間。我們可以認爲幾乎所有數據都分佈在N±3σN±3σ之間。

這一點很重要,這樣我們可以很容易鎖定數據的取值區間。

機器學習用正態分佈的意義
實際上存在很多不同的分佈形式,但是如果我們將大量具有不同分佈的隨機變量加起來,所得到的新變量將最終具有正態分佈。

服從正態分佈的變量總是服從正態分佈。 例如,假設 A 和 B 是兩個具有正態分佈的變量,那麼:
A x B 是正態分佈
A + B 是正態分佈
因此,使用正態分佈,預測變量並在一定範圍內找到它的概率會變得非常簡單.

部分內容參考自博客
機器學習中,正態分佈爲何如此重要?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章