數理統計的相關知識

閒情逸致,寫幾篇小文,也算是安慰一下自己

------------統計分析常用分析方法-------------

下圖總結了統計學中我們常用到的一些統計分析方法,圖表來源於Ben老師。從大類來看,分析包含四大類:探索性分析(新產品如何定價[成本、市場競爭和需求]),描述性分析(昨天交易情況如何,偏向於統計維度),解釋性分析(指標爲什麼下降[先看同比情況;然後查看其他因素,週六日、節假日、服務器崩潰、產品做出調整;根據指標構成,層層細分]),預測性分析(明天銷量是多少)。
在這裏插入圖片描述

輸入變量只有一個,即單變量

列聯表分析:
當輸入變量X和輸出變量Y都是離散的時候,我們一般怎麼樣對數據來進行描述呢?一般都是用一個二維表,其實就是列聯表分析,也稱爲交叉分析,在風控領域可能用的比較多,就是通過做交叉分析來卡對應閾值,上線策略。對於離散變量而言,其實有兩種展示的維度,一個是統計頻次或者說數量,另外一個就是佔比,包括總佔比、行彙總、列彙總百分比。
卡方檢驗:
做了列聯表分析之後,我們想看離散變量X和Y之間相關性怎麼辦呢?這就是卡方檢驗
t檢驗:
當變量X和Y,一個是離散(只包含2種類別),一個是連續的,怎麼來描述他們呢?那就是t檢驗,t檢驗是檢驗2組樣本之間的均值是否存在統計學上的差異,比如說班級上男女同學的數學成績是否存在明顯差異,這時候可以用t檢驗(當然A/B測試也可以使用這種方式),用spss做t檢驗之後,看p值,一般小於0.05,我們認爲男女同學的數學成績是有明顯差異的。在spss裏面t檢驗分爲單樣本t檢驗、獨立樣本t檢驗(例子就是這種檢驗方式)、配對樣本t檢驗(檢驗患者在使用某種藥物前後的身體指標是否存在統計學差異)。
單因素方差分析:
t檢驗是2組樣本的均值是否存在統計學差異,如果有3組、4組呢,那麼這個時候就是用到了單因素方差分析,方法類似。和t檢驗和單因素方差分析需要獨立性、正態性和方差齊性。
相關分析:
卡方檢驗是檢驗離散變量之間的相關性,而連續變量之間的相關性怎麼檢驗呢:使用相關分析,相關性分爲正相關和負相關

輸入變量有多個

在機器學習中,當預測變量是離散的,統稱爲分類問題,當預編變量是連續的,統稱爲迴歸問題。當預測變量是二分類變量,如0,1,是否違約,可以使用邏輯迴歸;當預測變量是連續變量可以使用線性迴歸,當迴歸係數爲正,代表正相關,爲負,代表負相關;線性迴歸和邏輯迴歸本質上是有區別的,雖然都稱爲迴歸,但邏輯迴歸解決的是分類問題,實際上就是在線性迴歸的基礎上,增加了一個sigmod函數,將其映射到(0,1)區間內,然後再增加一個閾值判斷,比如大於0.5判定爲1,小於等於0.5判定爲0。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章