集成學習系列：

Blending and Bagging

1 - 爲什麼要用aggregation

如果我們已經有了一些模型 $h y p o t h e s i s$ ，或者已經有了一些 $f e a t u r e$ ，這些 $h y p o t h e s i s$ 可以幫助我們做預測，我們怎麼樣將這些已有的 $h y p o t h e s i s$ 或者是有有預測性的 $f e a t u r e$ 結合起來，讓它們在一起的時候可以work的更好。這樣的模型我們稱之爲 $a g g r e g a t i o n m o d e l$ ，也就是融合起來的模型。本篇介紹在 $a g g r e g a t i o n$ 中非常典型的兩個做法， $b l e n d i n g$ 和 $b a g g i n g$ 。

那麼爲什麼要用 $a g g r e g a t i o n$ 呢？

1.1 - 一個關於aggregation的故事

假如你有15個朋友，這15個朋友都告訴你明天股市的漲跌預測，那麼你在聽取了這15個朋友的預測之後，如何決定呢？

$s e l e c t f r o m u s u a l p e r f o r m a n c e$
從他們的平常的表現中選擇最厲害的那個人，聽取他的意見作爲最後的決策依據，這也就是我們以前學過的 $v a l i d a t i o n$ 的方法，
$m i x u n i f o r m l y$
但是如果只聽一個人的，白白浪費了其餘人的判斷力，浪費了資源。所以另一種方式是以每人一票的方式，讓這15個朋友進行投票，綜合他們的判斷做出最後的結果，
$m i x n o n$ - $u n i f o r m l y$
但是考慮到可能每一個人的能力確實不盡相同，所以可以選擇另外一種投票的方式：可以信賴的人給多一點的票數，不是那麼可以信賴的人的票數可以少一點。
$c o m b i n e c o n d i t i o n a l l y$
又或者是可以根據具體的情況來進行選擇，例如這些朋友中有些人擅長分析科技類的股票，有些人擅長傳統產業的股票，那麼在不同的情況下，就選擇聽取不同的人的意見。
$\dots$

我們想要將這15個人的意見融合起來的事情，就是 $a g g r e g a t i o n$ 想要做的事情，將每個人的預測結果融合起來以達到最好的結果。

我們將上述的這個問題用數學的形式表示出來：每一個朋友就代表每一個 $h y p o t h e s i s$ ： $g_{1}, g_{2}, \dots, g_{T}$ ，也就是說這樣就一共有15個預測模型。

$s e l e c t f r o m u s u a l p e r f o r m a n c e$
$G (x) = g_{t_{*}} w i t h t_{*} = a r g m i n_{t \in 1, 2, \dots, T} E_{v a l} (g_{t}^{-})$
$m i x u n i f o r m l y$
$G (x) = s i g n (\sum_{t = 1}^{T} 1 \cdot g_{t} (x))$
-

$G (x) = s i g n (\sum_{t = 1}^{T} α_{t} \cdot g_{t} (x)) w i t h α_{t} \geq 0$

通過參數給每一個不同的權重。這種情況是包括前兩種情況的：
- 當 $α_{t} = | [E_{v a l} (g_{t}) s m a l l e s t] |$ 的時候，是第一種情況。（其中 $1 = | [◯] |, i f ◯$ 成立； $0 = | [◯] |, i f ◯$ 不成立）
- 當 $α_{t} = 1$ 的時候，是第二種情況。
$G (x) = s i g n (\sum_{t = 1}^{T} q_{t} (x) \cdot g_{t} (x)) w i t h q_{t} (x) \geq 0$

權重的參數不再是 $α$ ，而是變成了和輸入特徵 $x$ 相關的函數 $q_{t} (x)$ 。
- 當 $q_{t} (x) = α_{t}$ 的時候，就是以上的第三種情形。

1.2 - Selection by Validation

G (x) = g_{t_{*}} w i t h t_{*} = \underset{t \in 1, 2, \dots, T}{a r g m i n} E_{v a l} (g_{t}^{-})

考慮上述提出的最簡單的第一種情形，利用

V a l i d a t i o n

來選擇最好的

g_{t}

。這個方法的優點是簡單。但是該方法中有一個重要的假設，如果最終想要得到一個比較好的

g_{t_{*}}

，那麼首先在得到的一堆

g_{t}^{-}

中至少要有一個不錯的，或者說是

s t r o n g

的。如果你的所有的朋友都對股市其實只是一知半解，那麼你最終得到的最好的那一個人的意見也不見得會好到那裏去。
而這裏我們重點要談論的

a g g r e g a t i o n

不是這樣的。 $a g g r e g a t i o n$ 擅長做的事情是，在沒有一個很強的 $h y p o t h e s i s$ 的時候，或者說有一堆比較弱弱的但是還勉強的 $h y p o t h e s i s$ 的時候，把他們融合起來，通過集體的智慧，可以使得他們變的很強。這篇會講解具體的不同的 $a g g r e g a t i o n$ 的做法。

1.3 - 爲什麼Aggregation可以work的很好呢

爲什麼 $a g g r e g a t i o n$ 可以很好的 $w o r k$ 呢，討論如下的一個二分類的問題，假設我們只可以使用垂直的線和水平的線對上述的 $d a t a$ 進行分類(這樣的話模型的複雜度很低)，那麼只用一條分割線無論如何都是不能完全劃分的。但是如果可以將不同的垂直的線和水平的線結合起來對數據進行劃分呢(這裏垂直的線和水平的線就是不同的 $h y p o t h e s i s$ )，可能就可以得到比較好的結果。如下是結合了三條線對數據進行了劃分。

從以上的結果可以看出來，如果只有一些弱弱的 $h y p o t h s i s$ ，即那些只能是垂直或者是水平的線，但是如果將他們通過一定的方式合併起來的話，可能就會得到比較好的結果，這裏例子中就是得到了一個比較複雜的分類邊界。這可能說明 $a g g r e g a t i o n$ 拓展了 $m o d e l$ 的複雜度，這樣看來 $a g g r e g a t i o n$ 的作用就好像是 $f e a t u r e t r a n s f o r m$ 一樣。

另一個對 $a g g r e g a t i o n$ 可以 $w o r k$ 的不錯的解釋是，當使用 $P L A$ 算法對如下的 $d a t a$ 進行劃分的時候，會得到不同的分割線，其中的每一個都能將數據完美的分開，但是我們知道如果通過 $S V M$ 的話，可以得到有 $l a r g e$ - $m a r g i n$ 的分隔超平面。而使用 $P L A$ 得到的可能就是圖中灰色的任意一條，但是通過 $a g g r e g a t i o n$ ，或者說所有的這些灰色的線投票之後，就會得到一條比較 $l a r g i n m a r g i n$ 的線，在這種情況下 $a g g r e g a t i o n$ 就會有 $l a r g e m a r g i n$ 的類似於 $r e g u l a r i z a t i o n$ 的效果。

以前我們的認識是， $f e a t u r e t r a n s f o r m$ 和 $r e g u l a r i z a t i o n$ 是在做相反的事情，前者就像在踩油門，後者像是在踩剎車。而在做 $a g g r e g a t i o n$ 的時候，好像同時在做這兩件事情：可能是 $f e a t u r e t r a n s f o r m$ ，使得 $m o d e l$ 更加的 $p o w e r f u l$ ；也可能是 $r e g u l a r i z a t i o n$ ，在幫助模型做一個比較適中的選擇。所以如果可以把 $a g g r e g a t i o n$ 做好的話，可能就同時將 $f e a t u r e t r a n s f o r m$ 和 $r e g u l a r i z a t i o n$ 做好了。

2 - Uniform Blending

上面比較直觀的講解了 $a g g r e g a t i o n$ 的好處，接下來我們開始講解應該怎麼樣來做 $a g g r e g a t i o n$ ，即怎麼樣把這些 $h y p o t h e s i s$ 融合起來。
我們可以使用 $b l e n d i n g$ 的方法來做 $a g g r e g a t i o n$ ， $b l e n d i n g$ 這種方法主要用在我們已經收集到了一堆 $h y p o t h e s i s$ ，即已經有了一些已知的模型，需要對它們進行融合的情形。

如果對所有的 $h y p o t h e s i s$ 一視同仁，即給每一個 $g (x)$ 相同的權重來進行組合的話，這種方式成爲 $u n i f o r m b l e n d i n g 。$

2.1 - Uniform Blending用於分類

對於二元分類 $b i n a r y c l a s s i f i c a t i o n$ 來說， $u n i f o r m b l e n d i n g$ 給每一個 $h y p o t h e s i s$ 相同的權重（所以叫 $u n i f o r m$ ）來進行融合。根據融合的結果給出最終的判斷，如下：

G (x) = s i g n (\sum_{t = 1}^{T} 1 \cdot g_{t} (x))

如果所有已知的 $g (x)$ 是相同的，那麼 $a g g r e g a t i o n$ 是沒有效果的
如果所有已知的 $g (x)$ 差距很大，多數的意見會糾正少數的意見。例如在以下的問題中，共有三個 $g (x)$ ：兩個垂直線，一個水平線。對於數據點1和2來說，有兩條線說它們是 $\circ$ （左邊的垂直線和水平線），一條線（右邊的的垂直線）說它們是 $\times$ ，所以它們被劃分爲 $\circ$ 。對於其他的數據點來說也是使用這樣的規則來進行劃分的。
如果是多分類問題：那麼我們就需要統計數據點在每一個類別上的“得票數”，將得票數最多的爲該數據點的類別。 $G (x) = \underset{1 \leq k \leq K}{a r g m a x} \sum_{t = 1}^{T} | [g_{t} (x) = k] |$

2.2 - Uniform Blending用於迴歸

$u n i f o r m b l e n d i n g$ 將所有迴歸的值取平均：

G (x) = \frac{1}{T} \sum_{t = 1}^{T} g_{t} (x)

如果所有已知的 $g (x)$ 是相同的，那麼 $a g g r e g a t i o n$ 是沒有效果的
如果所有已知的 $g (x)$ 差距很大，那麼對於一個數據點來說，有些 $g (x)$ 可能低估了，有些 $g (x)$ 可能高估了，這樣的話，它們的平均值就可能會估計的更準確一下。

小結：如果 $a g g r e g a t i o n$ 這樣的方法想要 $w o r k$ 的很好的話，有一個很重要的前提是 $g (x)$ 要有一定的多樣性 $d i v e r s e$ 。當 $g (x)$ 有一定的多樣性的時候，即使只是做很簡單的融合的操作，例如說 $u n i f o r m b l e n d i n g$ ，也會有很好的結果。

2.3 - Uniform Blending的理論分析

針對 $u n i f o r m b l e n d i n g$ 用於 $r e g r e s s i o n$ ，我們可以做簡單的理論分析來解釋爲什麼通過這樣的 $a g g r e g a t i o n$ 的方式可以得到比單個的 $h y p o t h e s i s$ 更好的結果。
$u n i f o r m b l e n d i n g$ 用於 $r e g r e s s i o n$ 的一般方式是：

G (x) = \frac{1}{T} \sum_{t = 1}^{T} g_{t} (x)

如果只是針對特定的

x

，那麼上式可以寫作：

G = \frac{1}{T} \sum_{t = 1}^{T} g_{t}

接下來我們想要分析的問題是：

\frac{1}{T} \sum ((g_{t} - f)^{2}) = a v g (g_{t} - f)^{2}

和

(G - f)^{2}

的大小關係，前者表示的是所有

g

在

x

上的平均錯誤，也可以理解爲任選一個

g

在

x

上的平均錯誤；後者是經過

a g g r e g a t i o n

得到的

G

在

x

上的平均錯誤。
即比較

g

的平均錯誤（因爲取到哪個都是不一定的）和

G

的錯誤的大小關係。

\begin{aligned} (7) & a v g ((g_{t} - f)^{2}) & = a v g (g_{t}^{2} - 2 g_{t} f + f^{2}) \\ (8) & = a v g (g_{t}^{2}) - 2 G f + f^{2} \\ (9) & = a v g (g_{t}^{2}) - G^{2} + (G - f)^{2} \\ (10) & = a v g (g_{t}^{2}) - 2 G^{2} + G^{2} + (G - f)^{2} \\ (11) & = a v g (g_{t}^{2} - 2 g_{t} G + G^{2}) + (G - f)^{2} \\ (12) & = a v g ((g_{t} - G)^{2}) + (G - f)^{2} \end{aligned}

當對所有的 $x$ 進行計算的時候，可以得到如下的等式：

a v g (E_{o u t} (g_{t})) = a v g (ε (g_{t} - G)^{2}) + E_{o u t} (G)

所以可以得到的是：

a v g (E_{o u t} (g_{t})) \geq E_{o u t} (G)

也就是說在使用

u n i f o r m b l e n d i n g

這樣的

a g g r e g a t i o n

做

r e g r e s s i o n

的時候，得到的結果

G

確實要比所有

g

的平均表現好。儘管不知道是不是比最好的那個

g

表現好。

2.4 - variance，bias

偏差 $b i a s$ 度量了學習算法的期望預測和真實結果之間的偏離程度，即刻畫了學習算法本身的擬合能力；
方差 $v a r i a n c e$ 度量了同樣大小的訓練集的變動所導致的學習性能的變化，刻畫了數據的擾動所造成的影響。

假設在每一輪的學習中，由N筆資料訓練得到 $g_{t}$ ，共進行T輪的學習，每一輪使用來自同一分佈的不同的資料。假設T可以取到無窮多，則得到：

\bar{g} = \underset{T \to \infty}{l i m} G = \underset{T \to \infty}{l i m} \frac{1}{T} \sum_{t = 1}^{T} g_{t} = \underset{D}{ε} A (D)

a v g (E_{o u t} (g_{t})) = a v g (ε (g_{t} - \bar{g})^{2}) + E_{o u t} (\bar{g})

$a v g (E_{o u t} (g_{t}))$ 代表的是學習算法 $A$ 表現的期望； $E_{o u t}$ 稱爲 $b i a s$ ，也就是學習算法的期望預測和真實結果之間的偏離程度； $a v g (ε (g_{t} - \bar{g})^{2})$ 稱爲方差 $v a r i a n c e$ ，不知道爲什麼要寫一個 $ε$ ，西瓜書上是沒有的。
所以一個學習算法的表現可以拆分爲兩項，這個學習算法產生的共識和每一個 $g_{t}$ 和這個共識的差異。

這塊和西瓜書上寫的有點不符合：日後補充
$E (f, D) = b i a s^{2} (x) + v a r (x) + ε^{2}$ (西瓜書)

所以通過這樣的 $a g g r e g a t i o n$ 的方式，可以看到降低了 $v a r i a n c e$ ，使得最終的學習算法的表現變好。

3 - Linear and Any Blending

$l i n e a r b l e n d i n g$ 是要給每一個 $g_{t}$ 不同的權重（票數） $α_{t}$ ，模型如下所示：

G (x) = s i g n (\sum_{t = 1}^{T} α_{t} \cdot g_{t} (x)) w i t h α_{t} \geq 0

那麼現在的問題就是要求解這些參數

α_{t}

，求解的方法就是最小化

E_{i n}

。
如果我們現在要做的是

R e g r e s s i o n

問題的話，我們求解

α

的策略當然就是最小化

s q u a r e e r r o r

。

Linear blending for regression

$\underset{α_{t} \geq 0}{m i n} E_{i n} (α) = \underset{α_{t} \geq 0}{m i n} \frac{1}{N} \sum_{n = 1}^{N} (y_{n} - \sum_{t = 1}^{T} α_{t} g_{t} (x_{n}))^{2}$

如果將 $(g_{1}, g_{2}, \dots, g_{T})$ 看做是 $x_{n}$ 的特徵轉化 $Φ$ ，那麼以上的問題就可以變爲我們熟悉的帶有特徵轉換的線性模型，如下（1）所示，只不過是多了一個條件。並且這個過程和 $p r o b a b i l i t y S V M$ 中的 $t w o l e v e l l e a r n i n g$ 的方法很相像：第一步將 $S V M$ 用作一個特徵的轉換，然後使用 $l o g R e g$ 做微調。

linear regression + transformation

$\begin{matrix} (1) & \underset{w_{i} \geq 0}{m i n} \frac{1}{N} \sum_{n = 1}^{N} (y_{n} - \sum_{i = 1}^{\tilde{d}} w_{i} ϕ_{i} (x_{n})) \end{matrix}$

所以我們可以說： $l i n e a r b l e n d i n g$ 就等於一個將許多的 $h y p o t h e s i s$ 當成一個特徵轉化的線性模型，外加一個限制條件。即：
$l i n e a r b l e n d i n g = l i n a r m o d e l + h y p o t h e s i s a s t r a n s f o r m + c o n s t r a i n t s 。$

\underset{α_{i} \geq 0}{m i n} \frac{1}{N} \sum_{n = 1}^{N} e r r (y_{n} ， \sum_{t = 1}^{T} α_{t} g_{t} (x_{n}))

這個問題的求解不同於以往的僅僅是多了個 $c o n s t r a i n t s$ 。對於 $b i n a r y c l a s s i f i c a t i o n$ 問題來說，如果在求解之後發現 $α_{t} < 0$ ，那麼說明學習算法覺得這個 $α_{t}$ 對應的 $g_{t}$ 反過來用能更好的 $f i t t i n g$ 數據。所以在實際操作中通常都不考慮 $α_{t} > 0$ 這個條件限制。

所以 $l i n e a r b l e n d i n g$ 的解法就是加了 $f e a t u r e t r a n s f o r m$ 的 $l i n e a r m o d e l$ 的解法，其中的 $l i n e a r m o d e l$ 可以是線性迴歸，或者是邏輯斯蒂迴歸。

現在我們來關注一下一個基本的問題：那些 $g_{t}$ 是怎麼產生的？通常這些 $g_{t}$ 是在各自不同的 $m o d e l$ 下最小化 $E_{i n}$ 得到的。
所以如果在做 $s e l e c t i o n$ （見本篇第一節， $a g g r e g a t i o n$ 的第一種方式）的時候，如果是根據 $E_{i n}$ 來做選擇的話，模型的複雜度就會更大（是不是可以理解爲越複雜的模型越容易被選到，因爲它可以擬合的很好，做到 $E_{i n}$ 很小），所以我們通常會用 $E_{v a l i d a t i o n}$ 來做選擇。
同樣的，如果我們使用 $E_{i n}$ 作爲最小化的目標來做 $l i n e a r a g g r e g a t i o n$ ，會導致更大的模型的複雜度，更加容易導致過擬合。也就是說，在實際應用中通常不使用 $E_{i n}$ 來學習 $α$ ，因爲這樣很容易 $o v e r f i t t i n g$ ，而是在 $D_{v a l}$ 上訓練 $α$ 使得 $E_{v a l}$ 最小。並且在 $D_{t r a i n}$ 上得到一些 $g^{-}$ ，

3.1 - Linear Blending

$L i n e a r B l e n d i n g$

將數據分爲 $t r a i n d a t a$ 和 $v a l i d a t i o n d a t a$
從 $D_{t r a i n}$ 得到 $g_{1}^{-}, g_{2}^{-}, \dots, g_{T}^{-}$
將 $D_{v a l}$ 中的數據 $(x_{n}, y_{n})$ 利用 $g_{1}^{-}, g_{2}^{-}, \dots, g_{T}^{-}$ 這些“特徵轉換”變換爲 $(z_{n} = Φ^{-} (x_{n}), y_{n})$ ，其中 $Φ^{-} (x) = (g_{1}^{-} (x), \dots, g_{T}^{-} (x))$
利用線性模型求解資料 ${(z_{n}, y_{n})}$ 上的 $α$ ， $α = L i n ({(z_{n}, y_{n})})$
返回最後的結果 $G_{L i n B} (x) = L i n (i n n e r p r o b (α, Φ (x)))$ ，

需要注意的是， $Φ (x) = (g_{1} (x), \dots, g_{T} (x))$

3.2 - Any Blending

在第4步中，我們也可以考慮不使用線性模型，而是使用非線性的模型 $(n o n l i n e a r S V M)$ ，這樣的方式稱爲Any Blending或者Stacking。

$A n y B l e n d i n g$

將數據分爲 $t r a i n d a t a$ 和 $v a l i d a t i o n d a t a$
從 $D_{t r a i n}$ 得到 $g_{1}^{-}, g_{2}^{-}, \dots, g_{T}^{-}$
將 $D_{v a l}$ 中的數據 $(x_{n}, y_{n})$ 利用 $g_{1}^{-}, g_{2}^{-}, \dots, g_{T}^{-}$ 這些“特徵轉換”變換爲 $(z_{n} = Φ^{-} (x_{n}), y_{n})$ ，其中 $Φ^{-} (x) = (g_{1}^{-} (x), \dots, g_{T}^{-} (x))$
$g = A n y ({(z_{n}, y_{n})})$
返回 $G_{a n y B} = g (Φ (x))$

這樣模型會更加的 $p o w e r f u l$ ，但是同時也更加容易 $o v e r f i t t i n g$ 。所以 $a n y b l e n d i n g$ 要非常的小心，要加 $r e g u l a r i z a t i o n$ 等等。

4 - Bagging (Bootstrap Aggregation)

如果已經通過某些方法得到了很多的 $g$ ，我們可以通過 $b l e n d i n g$ 的方式將它們融合起來，使得最後的分類器表現的很好。如果每一個 $g$ 的權重（票數）是相同的，那麼可以得到 $u n i f o r m b l e n d i n g$ 的 $a g g r e g a t i o n$ 方式；如果權重不是相同的，那麼就得到了 $l i n e a r b l e n d i n g$ ；如果想要得到更爲複雜的模型，在考慮在不同的模型下使用不同的權重的話，可以使用 $s t a c k i n g$ 來做。

這裏有有一個很關鍵和很基礎的問題是，這些 $g$ 是怎麼來的呢，我們是不是可以一邊學習 $g$ ，一邊對它們進行融合。這是我們接下來要談論的問題。因爲 $a g g r e g a t i o n$ 在 $g$ 非常的 $d i v e r s e$ 的時候會做的很好，所以我們就考慮怎麼樣可以得到不一樣的 $g$ 呢？

不同的模型可能會得到不同的 $g$
對於用一個模型，不同的參數可能會得到不同的模型：例如對於 $G D$ 算法來說，當 $η = 0.001, 0.01, 0.1 \dots 10$ 的時候會得到不同的模型。
不同的初始值可能會得到不同的模型，例如 $P L A$ 算法
資料的不同可以得到不同的模型，例如當在做 $c r o s s v a l i d a t i o n$ 的時候，不用的幾份數據可能會得到不同的 $g$ 。

接下來我們使用的方式是使用同一份資料來製作不用的 $g$ （不同於 $c r o s s v a l i d a t i o n$ 只能得到不同的 $g^{-}$ ），利用的工具稱爲 $b o o t s t r a p p i n g$ ，它的作用是從手上已有的資料來模擬一些不一樣的資料。

4.1 - Bootstrapping Aggregation

bootstrapping：從原有的 $N$ 筆資料中做 $N$ 次有放回的採樣（ $s a m p l i n g w i t h r e p l a c e m e n t$ ）。既然是有放回的，那麼就可能存在原資料中的某一筆被採樣到了多次，或者一次都沒有被採樣到的情形。通過 $b o o t s t r a p p i n g$ 這樣的方式得到的資料記爲 ${\tilde{D}}_{t}$ 。

$b a g g i n g （ b o o t s t r a p a g g r e g a t i o n ）$

通過 $b o o t s t r a p p i n g$ 的方式抽取大小爲 $N^{'}$ 的資料 ${\tilde{D}}_{t}$

從資料 ${\tilde{D}}_{t}$ 利用算法 $A$ 中得到不同的 $g_{t}$

對 $g_{t}$ 做融合 $G (x) = U n i f o r m ({g_{t}})$

這樣的方法我們稱爲 $b o o t s t r a p a g g r e g a t i o n$ ，一般我們稱之爲 $B A G g i n g$ 。我們把底層的算法 $A$ 稱爲 $b a s e a l g o r i t h m$ ，建築在其上的演算法稱爲 $m e t a a l g o r i t h m$ 。

$B a g g i n g$ 通過利用 $b o o t s t r a p$ 這樣的機制生出一系列的 $g$ ，然後使用 $u n i f o r m$ 的方式進行 $a g g r e g a t i o n$ 。

4.2 - Bagging Pocket的表現

由於 $p o c k e t$ 算法對於不同的資料表現會有很不同，如下圖中的灰色的線是使用 $p o c k e t$ 算法在利用 $b o o s t r a p$ 機制得到的25組不同的資料上得到的25條不同的線。通過將這些線進行融合得到了一個非線性的邊界，如圖中黑色的線所示。

如果算法 $b a s e a l g o r i t h m$ $A$ 對於數據的隨機性越敏感，那麼就會得到越多樣性的 $g$ ，這樣通過 $a g g r e g a t i o n$ 的方式融合起來就會得到更好表現。

5 - 總結

這篇主要是 $a g g r e g a t i o n$ 的基礎概念和方法的介紹。提到了 $b l e n d i n g$ 和 $b a g g i n g$ ，它們都屬於 $a g g r e g a t i o n$ 的方法。 $a g g r e g a t i o n$ 就是要把一堆的 $g$ 通過一定的方式進行融合變成一個 $G$ ，這個 $G$ 可能更復雜，或者可能更“中庸”,這樣就可能達到了 $f e a t u r e t r a n s f o r m$ 或者是 $r e g u l a r i z a t i o n$ 的效果。其中有一些基本的方式，例如 $u n i f o r m b l e n d i n g$ ；或者稍微複雜的 $l i n e a r b l e n d i n g$ 和 $a n y b l e n d i n g （ s t a c k i n g ）$ ，這些可以通過 $t w o l e v e l l e a r n i n g$ 的求解其中的權重。最後我們介紹了怎麼通過 $b o o t s t r a p p i n g$ 的機制得到不同的 $g$ 來對它們進行融合。

_席達_

發佈了109 篇原創文章 · 獲贊 102 · 訪問量 40萬+

他的留言板關注

機器學習筆記-Blending and Bagging

Blending and Bagging

1 - 爲什麼要用aggregation

1.1 - 一個關於aggregation的故事

1.2 - Selection by Validation

1.3 - 爲什麼Aggregation可以work的很好呢

2 - Uniform Blending

2.1 - Uniform Blending用於分類

2.2 - Uniform Blending用於迴歸

2.3 - Uniform Blending的理論分析

2.4 - variance，bias

3 - Linear and Any Blending

3.1 - Linear Blending

3.2 - Any Blending

4 - Bagging (Bootstrap Aggregation)

4.1 - Bootstrapping Aggregation

4.2 - Bagging Pocket的表現

5 - 總結

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

機器學習筆記-Gradient Boosted Decision Tree

機器學習筆記-Blending and Bagging

機器學習筆記-Kernel Logistic Regression

機器學習筆記-Regularization

word2vec安裝使用筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結