人工智能數學基礎——數理統計

    基礎的統計理論有助於對機器學習的算法和數據挖掘的結果做出解釋,只有做出合理的解讀,數據的價值才能夠體現。數理統計(mathematical statistics)根據觀察或實驗得到的數據來研究隨機現象,並對研究對象的客觀規律做出合理的估計和判斷。

    數理統計以概率論爲理論基礎,但兩者之間存在方法上的本質區別。概率論作用的前提是隨機變量的分佈已知,根據已知的分佈來分析隨機變量的特徵與規律;數理統計的研究對象則是未知分佈的隨機變量,研究方法是對隨機變量進行獨立重複的觀察,根據得到的觀察結果對原始分佈做出推斷。

    在數理統計中,可用的資源是有限的數據集合,這個有限數據集被稱爲樣本(sample)。相應地,觀察對象所有的可能取值被稱爲總體(population)。數理統計的任務就是根據樣本推斷總體的數字特徵。樣本通常由對總體進行多次獨立的重複觀測而得到,這保證了不同的樣本值之間相互獨立,並且都與總體具有相同的分佈。

    在統計推斷中,應用的往往不是樣本本身,而是被稱爲統計量的樣本的函數。統計量本身是一個隨機變量,是用來進行統計推斷的工具。樣本均值樣本方差是兩個最重要的統計量:

  • 樣本均值:X=1ni=1NXi
  • 樣本方差:S2=1n1i=1n(XiX)2

    統計推斷的基本問題可以分爲兩大類:參數估計(estimation theory)和假設檢驗(hypothesis test)

參數估計

    參數估計是通過隨機抽取的樣本來估計總體分佈的方法,又可以進一步劃分爲點估計(point estimation)和區間估計(interval estimation)。在已知總體分佈函數形式,但未知其一個或者多個參數時,藉助於總體的一個樣本來估計未知參數的取值就是參數的點估計。點估計的核心在於構造合適的統計量 θ ,並用這個統計量的觀察值作爲未知參數θ 的近似值。點估計的具體方法包括矩估計法(method of moments)和最大似然估計法(maximum likelihood estimation)

    矩表示的是隨機變量的分佈特徵,k 階矩的定義爲隨機變量的 k 次方的均值,即 E(Xk) 。矩估計法的思想在於用樣本的k 階矩估計總體的k 階矩,其理論依據在於樣本矩的函數幾乎處處收斂於總體矩的相應函數,這意味着當樣本的容量足夠大時,幾乎每次都可以根據樣本參數得到相應總體參數的近似值。

    相對於基於大數定律的矩估計法,最大似然估計法源於頻率學派看待概率的方式。

    在最大似然估計中,似然函數被定義爲樣本觀測值出現的概率,確定未知參數的準則是讓似然函數的取值最大化,也就是微積分中求解函數最大值的問題。由於不同的樣本值之間相互獨立,因而似然函數可以寫成若干概率質量函數 / 概率密度函數相乘的形式,並進一步轉化爲對數方程求解。

    矩估計法和最大似然估計法代表了兩種推斷總體參數的思路,但對於同一個參數,用不同的估計方法求出的估計量很可能存在差異,這就引出瞭如何對估計量進行評價的問題。在實際應用中,估計量的評價通常要考慮以下三個基本標準。

  • 無偏性:估計量的數學期望等於未知參數的真實值;
  • 有效性:無偏估計量的方差儘可能小;
  • 一致性:當樣本容量趨近於無窮時,估計量依概率收斂於未知參數的真實值。

    以上三個要求是對點估計量的整體判定標準。無偏性意味着給定樣本值時,根據估計量得到的估計值可能比真實值更大,也可能更小。但如果保持估計量的構造不變,而是進行多次重新抽樣,每次都用新的樣本計算估計值,那麼這些估計值與未知參數真實值的偏差在平均意義上等於 0,這意味着不存在系統誤差。

    雖然估計值與真實值之間的偏差不可避免,但個體意義上的偏差越小意味着估計的性能越精確,有效性度量的正是估計量和真實值之間的偏離程度。而偏離程度不僅僅取決於估計量的構造方式,還取決於樣本容量的大小,一致性考慮的就是樣本容量的影響。一致性表示的是隨着樣本容量的增大,估計量的值將穩定在未知參數的真實值上

    對估計量的判別標準涉及了估計誤差的影響,這是和估計值同樣重要的參量。在估計未知參數 θ 的過程中,除了求出估計量,還需要估計出一個區間,並且確定這個區間包含 θ 真實值的可信程度。在數理統計中,這個區間被稱爲置信區間(confidence interval),這種估計方式則被稱爲區間估計

    置信區間可以理解爲:對總體反覆抽樣多次,每次得到容量相同的樣本,則根據每一組樣本值都可以確定出一個置信區間 (θ,θ¯) ,其上界和下界是樣本的兩個統計量,分別代表了置信上限和置信下限。

    每個置信區間都存在兩種可能性:包含 θ 的真實值或不包含θ 的真實值。如果對所有置信區間中包含 θ 真實值的比率進行統計,得到的比值就是置信水平。因此,區間估計相當於在點估計的基礎上進一步提供了取值範圍和誤差界限,分別對應着置信區間和置信水平。

假設檢驗

    參數估計的對象是總體的某個參數,假設檢驗的對象則是關於總體的某個論斷,即關於總體的假設。假設檢驗中的假設包含原假設 H0 和備擇假設H1 ;檢驗的過程就是根據樣本在 H0H1 之間選擇一個接受的過程。

    理想的情況是假設 H0(H1) 爲真並且這個假設被接受。但由於檢驗是基於樣本做出的,錯誤的決策終歸會出現,其形式可以分爲兩種:第 I 類錯誤對應假設H0 爲真但是被拒絕的情況,也就是“棄真”類型的錯誤;第 II 類錯誤對應假設 H0 不真但是被接受的情況,也就是“取僞”類型的錯誤。

    假設檢驗的思維方式建立在全稱命題只能被證僞不能被證實的基礎上。要證明原假設H0 爲真,更容易的方法是證明備擇假設 H1 爲假,因爲只要能夠舉出一個反例就夠了。但在假設檢驗中,反例並非絕對意義上對假設的違背,而是以小概率事件的形式出現。

    在數理統計中,發生概率小於 1 % 的事件被稱作小概率事件,在單次實驗中被認爲是不可能發生的。如果在一次觀測得到的樣本中出現了小概率事件,那麼就有理由認爲這不是真正意義上的小概率事件,原始的假設也就此被推翻。如果是備擇假設被推翻,就意味着接受原假設;反之,如果是原假設被推翻,則意味着拒絕原假設。

    從數理統計的角度看,監督學習算法的任務就是在假設空間中搜索能夠針對特定問題做出良好預測的假設。學習器通過對測試數據集的學習得到具有普適性的模型,這個模型適用於不屬於測試集的新樣本的能力被稱爲泛化能力。顯然,泛化能力越強,學習器就越好。

    假設檢驗的作用就在於根據學習器在測試集上的性能推斷其泛化能力的強弱,並確定所得結論的精確程度,可以進一步推廣爲比較不同學習器的性能。由於度量學習器性能的常用指標是錯誤率,假設檢驗中的假設就是對學習器的泛化錯誤率的推斷,推斷的依據就是在測試數據集上的測試錯誤率。

    除了推斷之外,對泛化性能的解釋也是機器學習算法分析的重要內容。泛化誤差的構成可以分爲三部分:偏差(bias)、方差(variance)和噪聲(noise)

    偏差表示算法預測值和真實結果之間的偏離程度,刻畫的是模型的欠擬合特性;方差表示數據的擾動對預測性能的影響,刻畫的是模型的過擬合特性;噪聲表示在當前學習任務上能夠達到的最小泛化誤差,刻畫的是任務本身的難度。對任何實際的模型來說,偏差和方差都難以實現同時優化,反映出欠擬合與過擬合之間難以調和的矛盾。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章