重要公式回顧
排列:從n個不同元素中取出m個元素排成一列的可能情況有 A(n,m種。
組合:從n個不同元素中取出m個元素的所有組合的個數有C(n,m)種。
相關的一些性質如下:
重要概念回顧
下面介紹統計學裏一些基礎的概念
- 均值(平均值)
均值描述的是樣本集合的中間點,它告訴我們的信息是有限的。
離散和連續的變量求均值的方式不同。
統計學裏叫平均值,線代裏叫均值。
- 方差
概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。
統計中的方差(樣本方差)是各個數據分別與其平均數之差的平方的和的平均數。
方差是衡量源數據和期望值相差的度量值。
- 標準差
標準差給我們描述的是樣本集合的各個樣本點到均值的距離之平均,是方差的開根號。
- 協方差
標準差和方差一般是用來描述一維數據的,但是通常我們還想了解更多,比如,一個男孩子的猥瑣程度跟他受女孩子的歡迎程度是否存在一些聯繫。協方差就是這樣一種用來度量兩個隨機變量關係的統計量。
當x=y時:
協方差的結果有什麼意義呢?如果結果爲正值,則說明兩者是正相關的(從協方差可以引出“相關係數”的定義),也就是說一個人越猥瑣越受女孩歡迎。如果結果爲負值, 就說明兩者是負相關,越猥瑣女孩子越討厭。如果爲0,則兩者之間沒有關係,猥瑣不猥瑣和女孩子喜不喜歡之間沒有關聯,就是統計上說的“相互獨立”。
- 協方差矩陣
協方差也只能處理二維問題,那維數多了自然就需要計算多個協方差,比如n維的數據集就需要計算C(n,2)個協方差,那自然而然我們會想到使用矩陣來組織這些數據。如下圖的三維:
可見,協方差矩陣是一個對稱的矩陣,而且對角線是各個維度的方差。
- 相關係數
協方差作爲描述X和Y相關程度的量,在同一物理量綱之下有一定的作用,但同樣的兩個量採用不同的量綱使它們的協方差在數值上表現出很大的差異。
爲此引入相關係數,它是研究變量之間線性相關程度的量。
若X和Y獨立,則必有相關係數等於0 ,因而X和Y不相關;若X和Y不相關,則僅僅是不存在線性關係,可能存在其他關係
離散型隨機變量的五大分佈
- 0-1分佈
0-1分佈就是n等於1的二項分佈,表示只進行一次試驗,且該事件發生的概率爲p,則不發生概率爲1-p,記作 B(1,p);
- 二項分佈B(n,p)
二項分佈指的是進行n次獨立的試驗,每一次試驗就兩種結果,yes或no,假定yes的概率爲p,no概率爲1-p。則進行n次試驗,出現了k次yes的概率如下:
二項分佈的期望E(X)=np
二項分佈的方差D(X)=np(1-p)
- 泊松分佈
泊松分佈的參數λ是單位時間(或單位面積)內隨機事件的平均發生次數。 泊松分佈適合於描述單位時間內隨機事件發生的次數。
泊松分佈的期望和方差均爲λ
- 幾何分佈
在n次伯努利試驗中,試驗k次纔得到第一次成功的機率。詳細地說,是:前k-1次皆失敗,第k次成功的概率。
均值和方差如下:
- 超幾何分佈
描述了從有限N個物件(其中包含M個指定種類的物件)中抽出n個物件,成功抽出該指定種類的物件的次數(不放回)X服從超幾何分佈,記爲X∼h(n,N,M)。
均值和方差如下:
連續型隨機變量的三大分佈
- 均勻分佈
在區間(a,b)內的概率是一樣的,在其他區間的概率爲0;
若a = 0並且b = 1,所得分佈U(0,1)稱爲標準均勻分佈。
均值和方差如下:
- 指數分佈
在區間0至無窮,它的概率服從λ指數的分佈。
均值和方差如下:
特性:指數函數的一個重要特徵是無記憶性(Memoryless Property,又稱遺失記憶性)。
- 正態分佈
隨機變量X服從一個數學期望爲μ、方差爲σ2的正態分佈,記爲N(μ,σ2)。其概率密度函數爲正態分佈的期望值μ決定了其位置,其標準差σ決定了分佈的幅度。當μ = 0,σ = 1時的正態分佈是標準正態分佈。
σ越大,數據分佈越分散,σ越小,數據分佈越集中。也稱爲是正態分佈的形狀參數,σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。
均值爲0,方差爲1的正太分佈又叫標準正態分佈: