什麼是集成學習？

集成學習：簡單概括就是通過某種合理的方式將多個簡單的基學習器結合起來，以期獲得更準確，更高效的模型。 對某些機器學習任務，有的時候我們使用單個模型已經調到最優，很難再有改進。這時候爲了提高性能，往往會用很少量的工作，組合多個基模型（基學習器），使得系統性能提高。如果基學習器是從某⼀種學習算法從訓練數據中產⽣，稱該集成學習是同質的（homogenerous）。如果基學習器是從⼏種不同學習算法從訓練數據中產⽣，則稱集成學習是異質的（heterogenous ）。集成學習中，通常基學習器之間的互補性越強，或者基學習器更多樣的話，集成效果更好。

爲了幫助大家更好的理解各種集成模型到底在作什麼，以及如何減少誤差提升性能的；我們先來看一下誤差的偏差-方差分解。

誤差的偏差-方差分解

點估計的偏差和方差

記訓練樣本數據集 $D$ 上對參數 $\theta$ 的點估計爲: $\hat \theta = g(D)$ ,根據頻率學派的觀點，真實值 $\theta$ 是固定的，但是未知，而 $\hat \theta$ 是一個關於數據 $D$ 的函數。由於數據是隨機採樣的，因此 $\hat \theta$ 是一個隨機變量。
於是，點估計的偏差定義爲：
$bias(\hat \theta) = \mathbb{E}[\hat\theta] - \theta$
這裏的期望作用在所有數據上。爲了理解這裏的期望，假設我們可以對整個流程重複多次，每次收集得到數據集 $D$ ，利用訓練數據得到估計 $\hat \theta$ , 如果將每次收集到的訓練樣本 $D$ 看成是關於總體數據的獨立同分布的樣本，那麼每次收集到的D會有些不同，從而每次得到的參數估計 $\hat \theta$ 肯定也會不同，這多個不同的估計可以看成是期望 $\mathbb{E}[\hat\theta]$ 的估計。
如果 $bias(\hat \theta)=0$ ，那麼我們就稱這個估計是無偏的。

順便提一嘴，統計上還有個概念叫Fisher一致性，它是從穩健性估計的角度來看

點估計的⽅差爲 $\mathbb{V}(\hat \theta)$ ，它刻畫的是從潛在的數據分佈中獨⽴地獲取樣本集時，點估計的變化程度。

例題：從均值爲 $\mu$ 的伯努利分佈中，得到獨立同分布樣本 $x_1, x_2, \dots, x_N$ , $\mathbb{E}(x_i) = \mu, \mathbb{V}(x_i) = \mu(1- \mu)$ 。
樣本均值可作爲參數 $\mu$ 的⼀個點估計,即: $\hat \mu =\frac{1}{N} \sum_{i=1}^Nx_i$
因爲
$\mathbb{E}(\hat \mu) = \mathbb{E}[\frac{1}{N} \sum_{i=1}^Nx_i] = \frac{1}{N} \mathbb{E}[\sum_{i=1}^Nx_i] = \mu$
所以 $\hat \mu$ 爲 $\mu$ 的一個無偏估計。
估計的⽅差爲：
$\mathbb{V}(\mu) = \mathbb{V}[\frac{1}{N} \sum_{i=1}^Nx_i] = \frac{1}{N^2}\mathbb{V}[\sum_{i=1}^Nx_i] = \frac{1}{N}\mu(1- \mu)$

這表明估計的方差隨樣本數量 $N$ 增加而下降，估計的⽅差隨着樣本數量的增加⽽下降，這是所有估計的共性，這也是爲什麼說可能的情況下，我們希望訓練樣本數據越多越好。

預測誤差的偏差-方差分解

我們希望模型能夠儘可能準確的描述數據產生的真實規律，這裏的準確是指模型測試集上的預測誤差儘可能小。模型在未知數據上的誤差，稱爲泛化誤差。，它主要有三種來：隨機誤差，偏差和方差。

隨機誤差。
隨機誤差 $\eta$ 是不可消除的，與我們數據的產生或收集機制密切相關，並且認爲其與真值 $y^*$ 是獨立的，若 $y^*$ 爲實值則一般認爲其隨機誤差服從 $\eta \sim N(0,\sigma_{\eta}^2)$ 的正態分佈, 於是可以的真實值 $y^*$ 與我們的觀測值 $y$ 的關係如下：
$y = y^* + \eta$
也就是說觀測值 $y$ 是服從 $y \sim N(y^*, \sigma_{\eta}^2)$ 的正態分佈。
偏差。偏差來源於模型中的錯誤假設。偏差過高就意味着模型所代表的特徵和標籤之間的關係是錯誤的，對應欠擬合現象。

給定數據 $D$ ,在 $D$ 上訓練得到我們的模型設爲 $f_D$ 。根據 $f_D$ 對訓練樣本進行測試，得到的預測結果記爲 $\hat y_D = f_D(x)$ 。模型預測的偏差的平方度量模型預測 $\hat y_D$ 的期望與真實值 $y^*$ 之間的差異：
$bias^2(\hat y_D) = (\mathbb{E}(\hat y_D) - y^*)^2$
偏差表示學習算法的期望預測與真實值之間的偏離程度，即偏差刻畫了我們的模型本身對數據的擬合能力。
方差。方差來源於模型對訓練數據波動的過度敏感。方差過高意味着模型對
數據中的隨機噪聲也進行了建模，將本不屬於“特徵– 標籤”關係
中的隨機特性也納入到模型之中，對應着過擬合現象.

$\mathbb{V}[\hat y_D] = \mathbb{E}[(\hat y_D - \mathbb{E}[\hat y_D])^2]$
方差表示由於訓練集的變動所導致的學習性能的變化（不穩定性），刻畫了數據擾動造成的影響。

偏差-方差分解推導

通常情況下，我們一般使用 $L_2$ 損失作爲我們的損失函數
$\mathcal{L}(\hat y_D, y) = (y - \hat y_D)^2$ ,
注意這裏的 $y$ 爲上面提到的觀測值， $y = y^* + \eta$ 。
令 $\overline y = \mathbb{E}[\hat y_D]$ ,泛化誤差定義爲損失函數的數學期望：
$\begin{aligned} Err &= \mathbb{E}[(y - \hat y_D)^2] = \mathbb{E}[(\hat y_D - (y^* + \eta))^2] \\ &= \mathbb{E}[(\hat y_D - y^*)^2 + \eta^2 - 2\eta(\hat y_D - y^*) ] \\ &= \mathbb{E}[(\hat y_D - y^*)^2] + \mathbb{E}[\eta^2] \\ &= \mathbb{E}[(\hat y_D - y^*)^2] + \mathbb{var}[\eta] \\ &= \mathbb{E}[(\hat y_D - \overline y) + (\overline y - y^*)^2] + \mathbb{var}[\eta] \\ &= \mathbb{E}[(\hat y_D - \overline y)^2] + \mathbb{E}[(\overline y - y^*)^2] + 2\mathbb{E}[(\hat y_D - \overline y)(\overline y - y^*)] + var[\eta] \\ &= var[\hat y_D] + (\overline y - y^*)^2 + 2(\overline y - y^*)^2(\mathbb{E}[\hat y_D] - \overline y) + var[\eta] \\ &= var[\hat y_D] + bias^2(\hat y_D) + var[\eta] \end{aligned}$
即泛化誤差可以分解爲爲預測的偏差的平方、預測的⽅差以及數據的噪聲。我們稱之爲泛化誤差的偏差——方差分解。雖然其他損失函數不能解析證明泛化誤差可分解爲偏差的平方、方差和噪聲，但大致趨勢相同。
偏差-方差分解表明模型的性能是由模型的擬合能力，數據的充分性以及學習任務本身的難度共同決定的：

偏差：度量模型的期望預測與真實結果之間的偏離程度，刻畫了模型本身的擬合能力。
方差：度量訓練集的變動所導致的模型性能的變化，刻畫了數據擾動造成的影響。
噪聲：度量在當前任務上任何模型所能達到的期望泛化誤差的下界，刻畫了學習問題本身的難度。

至此，看完了偏差——方差分解，我們已經清楚對於某個任務來說，模型的性能受哪幾方面的影響，由於噪聲的存在且我們很難去減少噪聲，所以主要是從減少模型的偏差（Bagging方法）和減少模型的方差（Boosting等）兩方面提高模型的性能，這也是主流集成學習所希望完成的事情。

結合策略

下面簡單介紹下集成學習對基學習器幾種簡單的結合策略，爲我們下一篇打下基礎。

集成學習(ensemble learning)乾貨系列(1)——集成學習概述

什麼是集成學習？

誤差的偏差-方差分解

點估計的偏差和方差

預測誤差的偏差-方差分解

偏差-方差分解推導

結合策略

Geometric Average Rule

Arithmetic Average Rule

Majority Voting Rule

參考文獻

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

千兆寬帶實際網速能到達多少？

最近鄰搜索神器——一文讀懂局部敏感哈希LSH原理

Attention Is All You Need論文詳解與理解

Easy Algorithms系列——詳解遞歸與分治

小白學變分推斷(1)——變分推斷概述

Variational Inference with Normalizing Flows 論文小結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結