On Optimal and Data-Based Histograms

摘要

在本文中給出了最佳直方圖單元格寬度的公式,該公式漸近地使積分均方誤差最小化。 蒙特卡羅方法用於驗證該公式對小樣本的有效性。提出了一種基於數據的選擇箱寬參數的程序,該程序採用高斯參考標準,並且僅需要樣本大小和標準偏差的估計值。使用幾種違反高斯假設的概率模型研究了該過程的敏感性。

關鍵詞:頻率分佈 直方圖 非參數密度估計 最佳箱寬

1. 全文簡介

直方圖是經典的非參數密度估計量可以追溯到1662年John Graunt的死亡率研究。如今直方圖仍然是顯示和彙總數據的重要統計工具。另外它提供了對真實潛在概率密度函數的一致估計。當前用於構建直方圖的準則並未直接解決估計偏差和方差的問題。相反它們在很大程度上取決於研究人員的直覺和過去的經驗。在本文中,我們提出了一種新的準則通過考慮均方誤差準則來減少直方圖構建中的主觀性。

2. 研究背景

我們僅研究等距網格{tni;<i<+}\{t_{ni}; -\infty <i < +\infty \}且箱寬度爲hn=tn(i+1)tnh_n = t_{n(i+1)}-t_n的直方圖,其中n表示樣本大小並強調網格和箱寬度對樣本大小的依賴性。對於固定點xx,其真實概率密度f(x)f(x)與直方圖估計密度f^(x)\hat{f}(x)的均方誤差定義爲:

MSE(x)=E{f^(x)f(x)}2 \bf MSE \it (x) = E\{\hat{f}(x) - f(x) \}^2

對於來自ff的大小爲nn的隨機樣本,Cencov(1962)證明MSE(x)\bf MSE\it(x)O(n2/3)O(n^{-2/3})的速率漸近收斂到零。此速率非常接近O(n1)O(n^{-1})的Cramer-Rao下界。積分均方誤差代表直方圖估計值的整體誤差度量,由下式定義:

IMSE(x)=E{f^(x)f(x)}2dx \bf IMSE \it (x) = \int E\{\hat{f}(x) - f(x) \}^2 dx

由於最關心的是概率密度的曲線形狀,因此IMSE比密度均方誤差更有意義。隨着數據量以O(n2/3)O(n^{-2/3})的速率增長,直方圖的IMSE也收斂爲零。

爲了達到這樣的收斂速度需要正確選擇直方圖的兩個參數:箱寬度hnh_n和網格的相對位置。後者由任何特定的網格點(例如tn0t_{n0})來確定。統計學文獻中提出了選擇這兩個參數的多種方法。

  • 首先通過在樣本範圍內選擇適當數量的箱來間接確定箱寬度。大多數作者建議5-20個bin通常足以用於真實數據集(Haber&Runyon; Guttman&Wilks)。類似於Sturges在1926年提出的公式,Larson建議使用1+22log10n1+ 2 \cdot 2 \log_{10} n個箱體作爲第一選擇。hnh_n的最終選擇通常是與數據集精度有關的整數或分數。
  • 接下來選擇合適的tn0t_{n0}使數據不會落在箱邊界上。如果我們假設數據的測量精度是無限的,那麼隨着樣本量的增加tn0t_{n0}的選擇就變得不那麼重要了。由於我們關注一致性,因此我們將在續篇中假設tn0=0t_{n0} = 0
  • 但是hnh_n的選擇非常重要。如果hnh_n太小則直方圖將太粗糙;如果hnh_n太大則直方圖將過於平滑,這兩種情況在統計上分別等效於大方差和大偏差。應通過最小化積分均方誤差 來選擇正確的hnh_n以平衡偏差和方差。

在過去的20年中,提出並研究了新的非參數密度估計量(Tapia&Thompso;Wegman)。這些新估計量中應用最廣的是Rosenblatt和Parzen開發的核概率密度估計量。核估計量也是一致的而且其收斂速度爲IMSE=O(n4/5)\bf IMSE = \it O(n^{-4/5}),相較直方圖有所改進。 儘管出現這些改進方法,但直方圖依靠其易於計算且易於理解的優勢依然在數據表示和密度估計中保持重要作用。 幸運的是通過使用核密度估計一致性證明中使用的技術,現在可以得出直方圖的箱寬度hnh_n的最佳選擇。

3. 最佳直方圖箱寬度的求導

假設x1,,xnx_1,\dots,x_n是來自具有連續概率密度函數ff分佈產生的隨機樣本, 且函數ff二階導連續有界。當nn變化時我們需要確定包含固定點xx的區間間隔。 令In(x)I_n(x)間表示間隔,tn(x)t_n(x)表示In(x)I_n(x)的左端點。 定義箱概率爲:

pn(x)=tn(x)tn(x)+hnf(y)dy p_n(x) = \int^{t_n(x) + h_n}_{t_n(x)} f(y) dy

(略)

4. 小樣本特性

(略)

5. 基於數據集的直方圖

hnh_n的最佳選擇需要了解真實概率密度函數ff。在另一篇文章中,Tukey建議使用高斯密度作爲參考標準,這一做法被廣泛採用但使用時需謹慎。 因此我們提出了基於數據集的箱寬選擇:

hn=3.49sn1/3(6) h_n = 3.49 sn^{-1/3} \tag{6}
其中s是樣本標準差的估計量。儘管高斯概率密度是該公式的基礎,但這一假設不如樣本符合高斯分佈假設強,即在非高斯數據上使用公式(6)不會導致生成看起來像高斯分佈的直方圖。對於方差相等的密度函數,基於數據的選擇(6)會求得相同的箱寬度。爲了證明(6)對很大的一類概率密度有用,我們考慮了具有相同方差的高斯和非高斯密度並觀察了它們在理論上的最佳箱寬(5)有何不同。 特別是,我們考慮了三種非高斯分佈模型:偏態,重尾和雙峯密度。
在這裏插入圖片描述

6. 樣例

在圖2中我們展示了由1000個生成自標準蒙特卡洛正態分佈的數據集繪製的三個直方圖。樣本標準差爲1.011,箱寬hh分別爲 0.1760.3530.7060.176、0.353和0.706,其中第二個箱寬選擇 由公式(6)計算得出。開始 許多統計學家喜歡較小的箱寬和較粗糙的直方圖,再由人眼判斷完成最終的平滑處理。
在這裏插入圖片描述
爲了驗證非常大樣本量時的估計情況,Kendall&Stuart曾研究301785個澳大利亞新郎年齡,箱寬爲3年的直方圖。這些數據的樣本標準差和偏差分別爲7.977.971.931.93。 因此hh基於數據的選擇是0.41年,使用圖1(a)求得的偏度校正因子爲0.43,最終基於數據的選擇是0.18年。 如果樣本足夠大使用1年甚至3個月的箱寬就可以保證精度。

7. 討論

我們在研究直方圖的最佳構造時既給出真實的潛在概率密度也給出更具普遍性的數據集。Waterman&Whiteman在近期對Rosenblatt的核估計器也進行了類似的處理。核估計比直方圖收斂到真實概率密度的速度更快,因此積分均方誤差對平滑參數的選擇更爲敏感(見Silverman1978)。此外核估計需要對整個數據集進行評估。因此在一些現代的自動數據收集器中,順序地總結出相對較多的樣本並使用少量訓練樣本來校準直方圖的做法更經濟。

在近期密度估計的非參數技術的發展中,研究者採用從構建直方圖開始然後對其進行平滑處理(參見Boneva,Kendall和Stefanov 1971)。我們的程序可用於直接從數據中構建所需的直方圖。 我們注意到,我們的分析很容易擴展到更高維度的直方圖。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章