1. NFL定理（No Free Lunch Theorem）

無論算法多麼聰明或者多麼笨拙，算法他們的期望性能是相同的，具體如下：

爲簡單起見，假設樣本空間 $\mathcal{X}$ 和假設空間 $\mathcal{H}$ 都是離散的.令 $P\left(h | X, \mathfrak{L}_{a}\right)$ 代表算法 $\mathfrak{L}_{a}$ 基於訓練數據 $X$ 產生假設 $h$ 的概率，再令 $f$ 代表我們希望學習的真實目標函數. $\mathfrak{L}_{a}$ 的"訓練集外誤差"，即 $\mathfrak{L}_{a}$ 在訓練集之外的所有樣本上的誤差爲

$E_{o t e}\left(\mathfrak{L}_{a} | X, f\right)=\sum_{h} \sum_{x \in \mathcal{X}-X} P(\boldsymbol{x}) \mathbb{I}(h(\boldsymbol{x}) \neq f(\boldsymbol{x})) P\left(h | X, \mathfrak{L}_{a}\right)$

其中 $\mathbb{I}(\cdot)$ 是指示函數，若·爲真則取值1，否則取值0.
考慮二分類問題，且真實目標函數可以是任何函數 $\mathcal{X}\mapsto\{0,1\}$ ，函數空間爲 $\{0,1\}^{|x|}$ . 對所有可能的 $f$ 按均勻分佈對誤差求和，有:

$\begin{aligned} \sum_{f} E_{o t e}\left(\mathfrak{L}_{a} | X, f\right) &=\sum_{f} \sum_{h} \sum_{x \in \mathcal{X}-X} P(\boldsymbol{x}) \mathbb{I}(h(\boldsymbol{x}) \neq f(\boldsymbol{x})) P\left(h | X, \mathfrak{L}_{a}\right) \\ &=\sum_{\boldsymbol{x} \in \mathcal{X}-X} P(\boldsymbol{x}) \sum_{h} P\left(h | X, \mathfrak{L}_{a}\right) \sum_{f} \mathbb{I}(h(\boldsymbol{x}) \neq f(\boldsymbol{x})) \\ &=\sum_{\boldsymbol{x} \in \mathcal{X}-X} P(\boldsymbol{x}) \sum_{h} P\left(h | X, \mathfrak{L}_{a}\right) \frac{1}{2} 2^{|\mathcal{X}|} \\ &=\frac{1}{2} 2^{|\mathcal{X}|} \sum_{x \in \mathcal{X}-X} P(\boldsymbol{x}) \sum_{h} P\left(h | X, \mathfrak{L}_{a}\right) \end{aligned}$
$\sum_{f} E_{o t e}\left(\mathfrak{L}_{a} | X, f\right) =2^{|\mathcal{X}|-1} \sum_{\boldsymbol{x} \in \mathcal{X}-X} P(\boldsymbol{x}) \cdot 1\\$

綜上，可得無論算法如何，聰明或笨拙，期望性能與算法無關，任意兩個算法，都滿足：

$\sum_{f} E_{o t e}\left(\mathfrak{L}_{a} | X, f\right)=\sum_{f} E_{o t e}\left(\mathcal{L}_{b} | X, f\right)$

即兩個算法期望性能相同，這就是NFL定理。

2. NFL定理解析

第一步變換
$\sum_{i}^{m} \sum_{j}^{n} \sum_{k}^{o} a_{i} b_{j} c_{k}=\sum_{i}^{m} a_{i} \cdot \sum_{j}^{n} b_{j} \cdot \sum_{k}^{o} c_{k}$

第二步變換
此時 $f$ 的定義爲任何能將樣本映射到 ${0,1}$ 的函數+均勻分佈，也即不止一個 $f$ 且每個 $f$ 出現的概率相等，例如樣本空間只有兩個樣本時： $\mathcal{X}=\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}\right\},|\mathcal{X}|=2$ ，那麼所有的真實目標函數 $f$ 爲：
$\begin{array}{l} f_{1}: f_{1}\left(\boldsymbol{x}_{1}\right)=0, f_{1}\left(\boldsymbol{x}_{2}\right)=0 \\ f_{2}: f_{2}\left(\boldsymbol{x}_{1}\right)=0, f_{2}\left(\boldsymbol{x}_{2}\right)=1 \\ f_{3}: f_{3}\left(\boldsymbol{x}_{1}\right)=1, f_{3}\left(\boldsymbol{x}_{2}\right)=0 \\ f_{4}: f_{4}\left(\boldsymbol{x}_{1}\right)=1, f_{4}\left(\boldsymbol{x}_{2}\right)=1 \end{array}$

一共 $2^{|\mathcal{X}|}=2^{2}=4$ 個真實目標函數。所以此時通過算法 $\mathfrak{L}_{a}$ 學習出來的模型 $h(x)$ 對每個樣本無論預測值爲0還是1必然有一半的 $f$ 與之預測值相等，例如，現在學出來的模型 $x_1$ 的預測值爲1，也即 $h(x_1)$ ，那麼有且只有 $f_3$ 和 $f_4$ 與 $h(x)$ 的預測值相等，也就是有且只有一半的ff與它預測值相等，所以 $\sum_{f} \mathbb{I}(h(\boldsymbol{x}) \neq f(\boldsymbol{x}))=\frac{1}{2} 2^{|X|}$ ;第三步一直到最後顯然成立。值得一提的是，在這裏我們定義真實的目標函數爲“任何能將樣本映射到{0,1}的函數+均勻分佈”，但是實際情形並非如此，通常我們只認爲能高度擬合已有樣本數據的函數纔是真實目標函數，例如，現在已有的樣本數據爲 $\left\{\left(\boldsymbol{x}_{1}, 0\right),\left(\boldsymbol{x}_{2}, 1\right)\right\}$ ，那麼此時 $f_2$ 纔是我們認爲的真實目標函數，由於沒有收集到或者壓根不存在 $\left\{\left(\boldsymbol{x}_{1}, 0\right),\left(\boldsymbol{x}_{2}, 0\right)\right\},\left\{\left(\boldsymbol{x}_{1}, 1\right),\left(\boldsymbol{x}_{2}, 0\right)\right\},\left\{\left(\boldsymbol{x}_{1}, 1\right),\left(\boldsymbol{x}_{2}, 1\right)\right\}$ 這類樣本，所以 $f_1,f_3,f_4$ 都不算是真實目標函數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習公式推導【Day1】NFL定理

NFL沒有免費的午餐定理

1. NFL定理（No Free Lunch Theorem）

2. NFL定理解析

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

CCF CSP攻克之路 —— 2019_09

數字圖像處理實驗之圖像灰度變換與空間濾波

數字圖像處理實驗之彩色圖像處理

機器學習數學基礎之線性迴歸

CCF CSP攻克之路 —— 2019_03

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結