李航老師《統計學習方法》一書描述:
最大熵原理是概率模型學習的一個準則。最大熵原理認爲,學習概率模型時,在所有可能的概率模型(分佈)中,熵最大的模型是最好的模型。通常用約束條件來確定概率模型的集合,所以,最大熵原理也可以表述爲在滿足約束條件的模型集合中選取熵最大的模型。
以上描述,讀完一遍蒙圈,即使讀了100遍仍然不解啊。
- 熵越小不是越確定嘛,咋就整成熵越大越好?
- 爲啥選擇熵越大的模型?
- 這是個啥?
- …
這篇文章解釋得很到位。原文中這樣描述:所謂的最大熵原理其實就是指包含已知信息,不做任何未知假設,把未知事件當成等概率事件處理。
我用幾句話總結一下。
- 關鍵是“不做未知假設”這句,這種情況下,等概率的可能性大一些,因爲你不知道,也只能等概率這麼處理。
- 另外一點,就是“最大熵處理問題”,而不是已知結果去選擇最好的方法。
其實就是個這,知道了這兩點,也就知道咋回事了。