統計學、統計學習和統計推斷之間的關係

統計學、統計學習和統計推斷之間的關係

什麼是統計學?

百度百科的定義:

統計學是應用數學的一個分支,主要通過利用概率論建立數學模型,收集所觀察系統的數據,進行量化的分析、總結,並進而進行推斷和預測,爲相關決策提供依據和參考。它被廣泛的應用在各門學科之上,從物理和社會科學到人文科學,甚至被用來工商業及政府的情報決策之上。

統計學主要又分爲描述統計學和推斷統計學。給定一組數據,統計學可以摘要並且描述這份數據,這個用法稱作爲描述統計學。另外,觀察者以數據的形態建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體,這種用法被稱做推論統計學。這兩種用法都可以被稱作爲應用統計學。另外也有一個叫做數理統計學的學科專門用來討論這門科目背後的理論基礎。

統計學習

統計學習和統計學,僅僅相差一個字,但是確實完全不同的兩個研究方向。

統計學習是由萬普尼克(Vapnik)建立的一套機器學習理論,使用統計的方法,因此有別於歸納學習等其它機器學習方法。

由這套理論所引出的支持向量機對機器學習的理論界以及各個應用領域都有極大的貢獻。

統計學習(statistical learning)是關於計算機基於數據構建概率統計模型並運用模型對數據進行預測與分析的一門學科,也稱爲統計機器學習(statistical machine learning)。統計學習是概率論,統計學,信息論,計算理論,最優化理論及計算機科學等多個領域的交叉學科

《統計學習方法》是2012年清華大學出版的圖書,作者是李航。本書全面系統地介紹了統計學習的主要方法,適用於高等院校文本數據挖掘、信息檢索及自然語言處理等專業的大學生、研究生,也可供從事計算機應用相關專業的研發人員參考。

該書中全面系統地介紹了統計學習的主要方法,特別是監督學習方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦迴歸與最大熵模型、支持向量機、提升方法、em算法、隱馬爾可夫模型和條件隨機場等。除第1章概論和最後一章總結外,每章介紹一種方法。敘述從具體問題或實例入手,由淺入深,闡明思路,給出必要的數學推導,便於讀者掌握統計學習方法的實質,學會運用。

 

統計推斷

統計推斷,或者叫做推斷統計學(statistical inference)

統計推斷是通過樣本推斷總體的統計方法。總體是通過總體分佈的數量特徵即參數 (如期望和方差) 來反映的。因此,統計推斷包括: 對總體的未知參數進行估計;對關於參數的假設進行檢查; 對總體進行預測預報等。科學的統計推斷所使用的樣本,通常通過隨機抽樣方法得到。統計推斷的理論和方法論基礎,是概率論和數理統計學。

統計推斷是指統計學中研究如何根據樣本數據去推斷總體數量特徵的方法。統計推斷主要可以分爲兩大類:一類是參數估計問題;另一類是假設檢驗問題。



三者之間的關係

如果想說明 統計學、統計學習和統計推斷之間的關係,還涉及另外兩個領域,即概率論和數理統計。

概率論是數理統計的基礎;而統計學包含:概率論和數理統計。

學習數理統計,就涉及到統計推斷;所以統計學和統計推斷之間存在關係;從上面各個學科的描述又可以看到統計學實際上是包含統計推斷,即推斷統計學的。

統計學習是機器學習的一個領域。統計學習是概率論,統計學,信息論,計算理論,最優化理論及計算機科學等多個領域的交叉學科顯然涉及的面和領域更廣泛。

 

Lary Wasserman 在 All of Statistics 的序言裏有說過概率論和統計推斷的區別:

The basic problem that we study in probability is:
Given a data generating process, what are the properities of the outcomes?
...
The basic problem of statistical inference is the inverse of probability:
Given the outcomes, what can we say about the process that generated the data?

概率論是統計推斷的基礎,在給定數據生成過程下觀測、研究數據的性質;而統計推斷則根據觀測的數據,反向思考其數據生成過程。預測、分類、聚類、估計等,都是統計推斷的特殊形式,強調對於數據生成過程的研究。

參考:https://betterexplained.com/articles/a-brief-introduction-to-probability-statistics/

統計和概率是方法論上的區別:一個是推理,一個是歸納。

打個比方,概率論研究的是一個白箱子,你知道這個箱子的構造(裏面有幾個紅球、幾個白球,也就是所謂的分佈函數),然後計算下一個摸出來的球是紅球的概率。而統計學面對的是一個黑箱子,你只看得到每次摸出來的是紅球還是白球,然後需要猜測這個黑箱子的內部結構,例如紅球和白球的比例是多少?(參數估計)能不能認爲紅球40%,白球60%?(假設檢驗)

而概率論中的許多定理與結論,如大數定理、中心極限定理等保證了統計推斷的合理性。做統計推斷一般都需要對那個黑箱子做各種各樣的假設,這些假設都是概率模型,統計推斷實際上就是在估計這些模型的參數。
 

 

 


 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章