機器學習之統計分析(1)

前言

最近在阿里雲數加平臺上學習一下機器學習,把學習中整理的資料記錄於此,已備查看,以下資料主要是概念解釋及應用。

數據視圖

大數據通用可視化控件,提供所選擇字段的直方圖,如下圖所示:

這裏寫圖片描述

協方差

相關係數算法用於計算一個矩陣中每一列之間的協方差 (變化趨勢相同,協方差爲正,變化趨勢相反,協方差爲負,如果相互獨立,則數值爲0,但數值爲0,不一定是相互獨立)協方差矩陣計算的是不同維度之間的協方差,而不是不同樣本之間的。

計算公式:

這裏寫圖片描述

在維基百科中,協方差的定義:

協方差(Covariance)在概率論和統計學中用於衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。

這裏寫圖片描述

資料地址

協方差

經驗概率密度圖

概率密度函數的維基百科定義如下:

在數學中,連續型隨機變量的概率密度函數(在不至於混淆時可以簡稱爲密度函數)是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數。而隨機變量的取值落在某個區域之內的概率則爲概率密度函數在這個區域上的積分。當概率密度函數存在的時候,累積分佈函數是概率密度函數的積分。概率密度函數一般以大寫“PDF”(Probability Density Function)標記[1]。
概率密度函數有時也被稱爲概率分佈函數,但這種稱法可能會和累積分佈函數或概率質量函數混淆。

在數加平臺上,效果圖如下:

這裏寫圖片描述

全表統計

分別計算全表的每個字段的統計信息,包括缺省值、最大最小值、方差、偏值等等。

表中各字段意義:

  • datatype : 數值類型
  • totalcount、count : 數據數量
  • missingcount : 丟失的數目
  • nancount: (非數) : 錯誤值數量 。是計算機科學中數值數據類型的一類值,表示未定義或不可表示的值
  • positiveinfinitycount : 正無窮大值的數量
  • negativeinfinitycount : 負無窮大值的數量
  • min : 最小數
  • max : 最大數
  • mean : 平均數
  • variance : 方差
  • standarddeviation : 標準差
  • standarderror : 標準誤差

  • skewness : 偏度 (在機率論和統計學中,偏度衡量實數隨機變量概率分佈的不對稱性。偏度的值可以爲正,可以爲負或者甚至是無法定義。在數量上,偏度爲負(負偏態)就意味着在概率密度函數左側的尾部比右側的長,絕大多數的值(包括中位數在內)位於平均值的右側。偏度爲正(正偏態)就意味着在概率密度函數右側的尾部比左側的長,絕大多數的值(但不一定包括中位數)位於平均值的左側。偏度爲零就表示數值相對均勻地分佈在平均值的兩側,但不一定意味着其爲對稱分佈。)

  • Kurtosis : 峯態 在統計學中,峯度(Kurtosis)衡量實數隨機變量概率分佈的峯態。峯度高就意味着方差增大是由低頻度的大於或小於平均值的極端差值引起的。

  • moment2:炬相關概念,暫時沒有理解,在維基百科中有如下解釋:

    在數學中,矩的概念是用來度量一組具有一定形態特點的點陣。舉個常用的例子,一個“二階矩”,我們在一維上可以測量它的“寬度”;而在更高階的維度上,由於其適用於橢球的空間分佈,我們還可以對點的雲結構進行測量和描述。其他的矩用來描述諸如與均值的歪斜分佈情況(偏態),或峯值的分佈情況(峯態)等其他方面的分佈特點。

因爲我們常常會將隨機變量(先假定有任意階矩)作一個線性變換,把一階矩(期望)歸零,二階矩(方差)歸一,以便統一研究一些問題。這時候,在同樣期望爲0方差爲1的標準情況下(以下均假設隨機變量滿足該條件),隨機變量最重要的指標就變成了接下來的兩個矩了。

三階矩,就是我們所稱的「偏度」。粗略來說,一個典型的正偏度變量X的分佈滿足這樣的特徵:很大的概率X會取絕對值較小的負值,但在極少數情況下,X會取特別大的正值。可以理解爲「一般爲負,極端值爲正」。典型的正偏度投資,就是彩票和保險:一般來說,你花的那一點小錢就打水漂了,但是這一點錢完全是在承受範圍內的;而這點錢則部分轉化爲小概率情況下的巨大收益。而負偏度變量則正好相反,「一般爲正,極端值爲負」,可以參照一些所謂的「灰色產業」:一般情況下是可以賺到一點錢的,但是有較小的概率「東窗事發」,賠得血本無歸。

四階矩,又稱峯度,簡單來說相當於「方差的方差」,和偏度類似,都可以衡量極端值的情況。峯度較大通常意味着極端值較常出現,峯度較小通常意味着極端值即使出現了也不會「太極端」。峯度是大還是小通常與3(即正態分佈的峯度)相比較。

至於爲什麼五階以上的矩沒有專門的稱呼,主要是因爲我們習慣的線性變換,只有兩個自由度,故最多隻能將前兩階矩給「標準化」。這樣,標準化以後,第三、第四階的矩就比較重要了,前者衡量正負,後者衡量偏離程度,與均值、方差的關係類似。換句話說,假如我們能把前四階矩都給「標準化」了,那麼五階、六階的矩就會比較重要了吧。

  • sum : 求和

卡方檢驗

卡方檢驗是比較您數據的實測分佈與數據的預期分佈的假設檢驗。

有多種類型的卡方檢驗:
卡方擬合優度檢驗
使用此分析檢驗分類數據樣本與某個理論分佈的擬合程度。
例如,通過多次擲骰子並使用卡方擬合優度檢驗來確定結果是否服從均勻分佈,可以檢驗骰子是否是正 6 面形的。在此情況下,卡方統計量會將計數的實測分佈不同於假設分佈的程度進行量化。
相關性和獨立性的卡方檢驗
這些檢驗的計算方法都相同,但您嘗試回答的問題可能會有所不同。

  • 相關性檢驗:使用相關性檢驗確定一個變量是否與另一個變量相關。例如,確定不同顏色汽車的銷量是否取決於在哪個城市銷售它們。

  • 獨立性檢驗:使用獨立性檢驗確定一個變量的觀測值是否取決於另一個變量的觀測值。例如,確定某人投票的候選人是否與投票人的性別無關。

在維基百科中,卡方擬合性檢驗有如下定義:

卡方擬合性檢驗是檢驗單個多項分類名義型變量各分類間的實際觀測次數與理論次數之間是否一致的問題,其零假設是觀測次數與理論次數之間無差異。

它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。

皮爾森卡方檢驗

(英語:Pearson’s chi-squared test)是最有名卡方檢驗之一(其他常用的卡方檢驗還有葉氏連續性校正、似然比檢驗、一元混成檢驗等等--它們的統計值之概率分配都近似於卡方分配,故稱卡方檢驗)。“皮爾森卡方檢驗”最早由卡爾·皮爾森在1900年發表,[1] 用於類別變數的檢驗。科學文獻中,當提及卡方檢驗而沒有特別指明類型時,通常即指皮爾森卡方檢驗。

資料地址

minitab support

minitab wiki

wikipedia

箱線圖

枚舉類變量與連續變量的箱線圖,擾動點圖

箱形圖(英文:Box-plot),又稱爲盒須圖、盒式圖、盒狀圖或箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因型狀如箱子而得名。在各種領域也經常被使用,常見於品質管理。不過作法相對較繁瑣。

資料地址

wikipedia

散點圖

數據點在直角座標系平面上的分佈圖。

散點圖表示因變量隨自變量而變化的大致趨勢,據此可以選擇合適的函數對數據點進行擬合。
用兩組數據構成多個座標點,考察座標點的分佈,判斷兩變量之間是否存在某種關聯或總結座標點的分佈模式。散點圖將序列顯示爲一組點。值由點在圖表中的位置表示。類別由圖表中的不同標記表示。散點圖通常用於比較跨類別的聚合數據。

資料地址

百度百科

知乎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章