On Optimal and Data-Based Histograms

摘要

在本文中給出了最佳直方圖單元格寬度的公式，該公式漸近地使積分均方誤差最小化。蒙特卡羅方法用於驗證該公式對小樣本的有效性。提出了一種基於數據的選擇箱寬參數的程序，該程序採用高斯參考標準，並且僅需要樣本大小和標準偏差的估計值。使用幾種違反高斯假設的概率模型研究了該過程的敏感性。

關鍵詞：頻率分佈直方圖非參數密度估計最佳箱寬

1. 全文簡介

直方圖是經典的非參數密度估計量可以追溯到1662年John Graunt的死亡率研究。如今直方圖仍然是顯示和彙總數據的重要統計工具。另外它提供了對真實潛在概率密度函數的一致估計。當前用於構建直方圖的準則並未直接解決估計偏差和方差的問題。相反它們在很大程度上取決於研究人員的直覺和過去的經驗。在本文中，我們提出了一種新的準則通過考慮均方誤差準則來減少直方圖構建中的主觀性。

2. 研究背景

我們僅研究等距網格 $\{t_{ni}; -\infty <i < +\infty \}$ 且箱寬度爲 $h_n = t_{n(i+1)}-t_n$ 的直方圖，其中n表示樣本大小並強調網格和箱寬度對樣本大小的依賴性。對於固定點 $x$ ，其真實概率密度 $f(x)$ 與直方圖估計密度 $\hat{f}(x)$ 的均方誤差定義爲：

$\bf MSE \it (x) = E\{\hat{f}(x) - f(x) \}^2$

對於來自 $f$ 的大小爲 $n$ 的隨機樣本，Cencov（1962）證明 $\bf MSE\it(x)$ 以 $O(n^{-2/3})$ 的速率漸近收斂到零。此速率非常接近 $O(n^{-1})$ 的Cramer-Rao下界。積分均方誤差代表直方圖估計值的整體誤差度量，由下式定義：

$\bf IMSE \it (x) = \int E\{\hat{f}(x) - f(x) \}^2 dx$

由於最關心的是概率密度的曲線形狀，因此IMSE比密度均方誤差更有意義。隨着數據量以 $O(n^{-2/3})$ 的速率增長，直方圖的IMSE也收斂爲零。

爲了達到這樣的收斂速度需要正確選擇直方圖的兩個參數：箱寬度 $h_n$ 和網格的相對位置。後者由任何特定的網格點（例如 $t_{n0}$ ）來確定。統計學文獻中提出了選擇這兩個參數的多種方法。

首先通過在樣本範圍內選擇適當數量的箱來間接確定箱寬度。大多數作者建議5-20個bin通常足以用於真實數據集（Haber＆Runyon; Guttman＆Wilks）。類似於Sturges在1926年提出的公式，Larson建議使用 $1+ 2 \cdot 2 \log_{10} n$ 個箱體作爲第一選擇。 $h_n$ 的最終選擇通常是與數據集精度有關的整數或分數。
接下來選擇合適的 $t_{n0}$ 使數據不會落在箱邊界上。如果我們假設數據的測量精度是無限的，那麼隨着樣本量的增加 $t_{n0}$ 的選擇就變得不那麼重要了。由於我們關注一致性，因此我們將在續篇中假設 $t_{n0} = 0$ 。
但是 $h_n$ 的選擇非常重要。如果 $h_n$ 太小則直方圖將太粗糙；如果 $h_n$ 太大則直方圖將過於平滑，這兩種情況在統計上分別等效於大方差和大偏差。應通過最小化積分均方誤差來選擇正確的 $h_n$ 以平衡偏差和方差。

在過去的20年中，提出並研究了新的非參數密度估計量（Tapia＆Thompso;Wegman）。這些新估計量中應用最廣的是Rosenblatt和Parzen開發的核概率密度估計量。核估計量也是一致的而且其收斂速度爲 $\bf IMSE = \it O(n^{-4/5})$ ，相較直方圖有所改進。儘管出現這些改進方法，但直方圖依靠其易於計算且易於理解的優勢依然在數據表示和密度估計中保持重要作用。幸運的是通過使用核密度估計一致性證明中使用的技術，現在可以得出直方圖的箱寬度 $h_n$ 的最佳選擇。

3. 最佳直方圖箱寬度的求導

假設 $x_1,\dots,x_n$ 是來自具有連續概率密度函數 $f$ 分佈產生的隨機樣本，且函數 $f$ 二階導連續有界。當 $n$ 變化時我們需要確定包含固定點 $x$ 的區間間隔。令 $I_n(x)$ 間表示間隔， $t_n(x)$ 表示 $I_n(x)$ 的左端點。定義箱概率爲：

$p_n(x) = \int^{t_n(x) + h_n}_{t_n(x)} f(y) dy$

（略）

4. 小樣本特性

（略）

5. 基於數據集的直方圖

$h_n$ 的最佳選擇需要了解真實概率密度函數 $f$ 。在另一篇文章中，Tukey建議使用高斯密度作爲參考標準，這一做法被廣泛採用但使用時需謹慎。因此我們提出了基於數據集的箱寬選擇：

$h_n = 3.49 sn^{-1/3} \tag{6}$
其中s是樣本標準差的估計量。儘管高斯概率密度是該公式的基礎，但這一假設不如樣本符合高斯分佈假設強，即在非高斯數據上使用公式(6)不會導致生成看起來像高斯分佈的直方圖。對於方差相等的密度函數，基於數據的選擇(6)會求得相同的箱寬度。爲了證明(6)對很大的一類概率密度有用，我們考慮了具有相同方差的高斯和非高斯密度並觀察了它們在理論上的最佳箱寬(5)有何不同。特別是，我們考慮了三種非高斯分佈模型：偏態，重尾和雙峯密度。

6. 樣例

在圖2中我們展示了由1000個生成自標準蒙特卡洛正態分佈的數據集繪製的三個直方圖。樣本標準差爲1.011，箱寬 $h$ 分別爲 $0.176、0.353和0.706$ ，其中第二個箱寬選擇由公式(6)計算得出。開始許多統計學家喜歡較小的箱寬和較粗糙的直方圖，再由人眼判斷完成最終的平滑處理。

爲了驗證非常大樣本量時的估計情況，Kendall＆Stuart曾研究301785個澳大利亞新郎年齡，箱寬爲3年的直方圖。這些數據的樣本標準差和偏差分別爲 $7.97$ 和 $1.93$ 。因此 $h$ 基於數據的選擇是0.41年，使用圖1(a)求得的偏度校正因子爲0.43，最終基於數據的選擇是0.18年。如果樣本足夠大使用1年甚至3個月的箱寬就可以保證精度。

7. 討論

我們在研究直方圖的最佳構造時既給出真實的潛在概率密度也給出更具普遍性的數據集。Waterman＆Whiteman在近期對Rosenblatt的核估計器也進行了類似的處理。核估計比直方圖收斂到真實概率密度的速度更快，因此積分均方誤差對平滑參數的選擇更爲敏感（見Silverman1978）。此外核估計需要對整個數據集進行評估。因此在一些現代的自動數據收集器中，順序地總結出相對較多的樣本並使用少量訓練樣本來校準直方圖的做法更經濟。

在近期密度估計的非參數技術的發展中，研究者採用從構建直方圖開始然後對其進行平滑處理（參見Boneva，Kendall和Stefanov 1971）。我們的程序可用於直接從數據中構建所需的直方圖。我們注意到，我們的分析很容易擴展到更高維度的直方圖。

On Optimal and Data-Based Histograms

摘要

1. 全文簡介

2. 研究背景

3. 最佳直方圖箱寬度的求導

4. 小樣本特性

5. 基於數據集的直方圖

6. 樣例

7. 討論

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

01 穩定性（一）如何應對事故並做好覆盤？

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

Stream流常用方法總結

論文翻譯——基於數據的最優直方圖

綜述論文：深度學習在心臟圖像分割的應用

論文翻譯——使用深度卷積網絡處理ImageNet分類

正規化和模型選擇(Regularization and model selection)

資料翻譯——核密度估計簡介

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結