1.獨立同分布independent and identically distributed (i.i.d.)
在概率統計理論中,如果變量序列或者其他隨機變量有相同的概率分佈,並且互相獨立,那麼這些隨機變量是獨立同分布。
在西瓜書中解釋是:輸入空間中的所有樣本服從一個隱含未知的分佈,訓練數據所有樣本都是獨立地從這個分佈上採樣而得。
2.簡單解釋獨立、同分布、獨立同分布
(1)獨立:每次抽樣之間沒有關係,不會相互影響
舉例:給一個骰子,每次拋骰子拋到幾就是幾,這是獨立;如果我要拋骰子兩次之和大於8,那麼第一次和第二次拋就不獨立,因爲第二次拋的結果和第一次相關。
(2)同分布:每次抽樣,樣本服從同一個分佈
舉例:給一個骰子,每次拋骰子得到任意點數的概率都是六分之一,這個就是同分布
(3)獨立同分布:i,i,d,每次抽樣之間獨立而且同分布
3.機器學習領域的重要假設
IID獨立同分布。即假設訓練數據和測試數據是滿足相同分佈的,它是通過訓練數據獲得的模型能夠在測試集獲得好的效果的一個基本保障。
4.目前
機器學習並不總要求獨立同分布,在不少問題中要求樣本數據採樣自同一個分佈是因爲希望用訓練數據集得到的模型可以合理的用於測試數據集,使用獨立同分布假設能夠解釋得通。
目前一些機器學習內容已經不再囿於獨立同分布假設下,一些問題會假設樣本沒有同分布。