機器學習之統計分析(2)

前言

最近在阿里雲數加平臺上學習一下機器學習,把學習中整理的資料記錄於此,已備查看,以下資料主要是概念解釋及應用。


相關係數矩陣

瞭解相關矩陣前先了解相關係數。

相關係數的取值範圍爲[-1,1],當相關係數爲1時,表示正相關;當相關係數爲-1時,表示負相關;當相關係數爲0時,表示不相關。
正相關:因變量隨着自變量的增大而增大
負相關:因變量隨着自變量的增大而減小

計算公式:

這裏寫圖片描述

相關矩陣

相關矩陣中每個值都是代表原矩陣中各列之間的相關係數(相關矩陣爲方陣,階數爲原矩陣的列數),對角線上都是原矩陣各列與自身的相關係數,所以對角線的值均爲1。

參考資料

百度百科

煉數成金 論壇


樣本檢驗

雙樣本T檢驗

  1. 獨立樣本是指兩個樣本之間彼此獨立。獨立樣本T檢驗是檢測兩個樣本之間是否有顯著性差異。前提是兩個樣本相互獨立,來自的兩個總體服從正態分佈。
  2. 配對樣本T檢驗是檢驗來自兩配對總體的均值是否有顯著性差異。

來自維基百科的定義:

其零假設爲兩個正態分佈的總體的均值之差爲某實數,例如檢驗二羣人的身高之平均是否相等。這一檢驗通常被稱爲學生t檢驗。但更爲嚴格地說,只有兩個總體的方差是相等的情況下,才稱爲學生t檢驗;否則,有時被稱爲Welch檢驗。以上談到的檢驗一般被稱作“未配對”或“獨立樣本”t檢驗,我們特別是在兩個被檢驗的樣本沒有重疊部分時用到這種檢驗方式。

單樣本T檢驗

單樣本T檢驗是檢驗某個變量的總體均值和某指定值之間是否存在顯著差異。T檢驗的前提是樣本總體服從正態分佈。

來自維基百科的定義:

檢驗一個正態分佈的總體的均值是否在滿足零假設的值之內,例如檢驗一羣人的身高的平均是否符合170公分。

參考資料

維基百科
微博 文章


正態檢驗

正態性檢驗是檢驗觀測值是否服從正態分佈,本組件由三種檢驗方法組成,包括Anderson-Darling Test, Kolmogorov-Smirnov Test,以及QQ圖。

原假設H0:觀測值服從正態分佈,H1:觀測值不服從正態分佈

KS的p值計算方法採用漸進計算KS分佈的CDF,無論樣本量多大都採用的是該方法

QQ圖在樣本量>1000時,會採樣進行計算和畫圖輸出,因此圖中的數據點不一定覆蓋所有樣本

效果圖

這裏寫圖片描述


洛倫茲曲線

洛倫茲曲線研究的是國民收入在國民之間的分配問題。爲了研究國民收入在國民之間的分配問題,美國統計學家(或說奧地利統計學家)M.O.洛倫茲(Max Otto Lorenz,1903- )1907年(或說1905年)提出了著名的洛倫茲曲線。意大利經濟學家基尼在此基礎上定義了基尼係數。 畫一個矩形,矩形的高衡量社會財富的百分比,將之分爲N等份,每一等分爲1/N的社會總財富。在矩形的長上,將所有家庭從最貧者到最富者自左向右排列,也分爲N等分,第一個等份代表收入最低的1/N的家庭。在這個矩形中,將每1/N的家庭所有擁有的財富的佔比累積起來,並將相應的點畫在圖中,便得到了一條曲線就是洛倫茲曲線。

效果圖

這裏寫圖片描述

參考資料

維基百科


分位數及百分位數

Quartile(四分位數)

四分位數(Quartile)是統計學中分位數的一種,即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。

第一四分位數 (Q1),又稱“較小四分位數”,等於該樣本中所有數值由小到大排列後第25%的數字。
第二四分位數 (Q2),又稱“中位數”,等於該樣本中所有數值由小到大排列後第50%的數字。
第三四分位數 (Q3),又稱“較大四分位數”,等於該樣本中所有數值由小到大排列後第75%的數字。
第三四分位數與第一四分位數的差距又稱四分位距(InterQuartile Range, IQR)

百分位

計算某列的百分位。

維基百科定義:

百分位數,統計學術語,如果將一組數據從小到大排序,並計算相應的累計百分位,則某一百分位所對應數據的值就稱爲這一百分位的百分位數。運用在教育統計學中,例如表現測驗成績時。(維基百科)

參考資料

維基百科


皮爾森係數

在統計學中,皮爾遜積矩相關係數(英語:Pearson product-moment correlation coefficient,又稱作 PPMCC或PCCs[1], 文章中常用r或Pearson’s r表示)用於度量兩個變量X和Y之間的相關(線性相關),其值介於-1與1之間。在自然科學領域中,該係數廣泛用於度量兩個變量之間的相關程度。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來的。[2][3]這個相關係數也稱作“皮爾森相關係數r”。

公式定義

兩個變量之間的皮爾遜相關係數定義爲兩個變量之間的協方差和標準差的商:

這裏寫圖片描述

數值含義

樣本的簡單相關係數一般用r表示,其中n 爲樣本量, 分別爲兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的取值在-1與+1之間,若r>0,表明兩個變量是正相關,即一個變量的值越大,另一個變量的值也會越大;若r<0,表明兩個變量是負相關,即一個變量的值越大另一個變量的值反而會越小。r 的絕對值越大表明相關性越強,要注意的是這裏並不存在因果關係。若r=0,表明兩個變量間不是線性相關,但有可能是其他方式的相關(比如曲線方式)

參考資料

維基百科

百度百科


直方圖(多字段)

可選擇多個字段查看直方圖


離散值特徵分析

  1. 統計離散值的gini係數、entropy、對應label個數等
  2. 空值不過濾,當做一個枚舉值計算
  3. 稀疏格式表示,某列的某個枚舉值如果只有1個Label,對於未出現的label不輸出0
  4. 對於每個離散值的gini,entropy都乘以該離散值的概率

圖示如下:
這裏寫圖片描述

gini 係數

維基百科定義:

基尼係數(英語:Gini coefficient),是20世紀初意大利學者科拉多·基尼根據勞倫茨曲線所定義的判斷年收入分配公平程度的指標[2]。是比例數值,在0和1之間。基尼指數(Gini index)是指基尼係數乘100倍作百分比表示。在民衆收入中,如基尼係數最大爲“1”,最小爲“0”。前者表示居民之間的年收入分配絕對不平均(即該年所有收入都集中在一個人手裏,其餘的國民沒有收入),而後者則表示居民之間的該年收入分配絕對平均,即人與人之間收入絕對平等,這基尼係數的實際數值只能介於這兩種極端情況,即0~1之間。基尼係數越小,年收入分配越平均,基尼係數越大,年收入分配越不平均。要注意基尼係數只計算某一時段,如一年的收入,不計算已有財產,因此它不能反映國民的總積累財富分配情況。

entropy(熵)

系統的熵值直接反映了它所處狀態的均勻程度,系統的熵值越小,它所處的狀態越是有序,越不均勻;系統的熵值越大,它所處的狀態越是無序,越均勻。

鏈接資料

熵,信息增益,信息增益率,Gini

發佈了207 篇原創文章 · 獲贊 1656 · 訪問量 216萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章