信息幾何,KL 散度以及流形

      信息幾何在wiki的定義是:information geometry is a branch of mathematics that applies the techniques of differential geometry to the field of probability theory. This is done by taking probability distributions for a statistical model as the points of a Riemannian manifold, forming a statistical manifold. The Fisher information metric provides the Riemannian metric.換句話說就是將信息學與幾何學結合的學科,我們知道信息學的基礎是概率與統計,而幾何學的代表之一就是微分幾何以及度量。結合的方法就是:將概率分佈看做是黎曼流形中的某個點,從而形成了統計流形,在這個流形中,度量採用的是Fisher metric。

    下面我們將引出爲什麼要研究信息幾何,以及從空間轉化的角度來理解信息幾何。

     考慮最簡單的一個情況:梯度下降,gradient descent,公式就是:,其中theta是被估計的參數,而指得是梯度。這個公式成立的一個重要的前提就是,自變量theta和因變量J(theta)都處於同一個空間,也就是歐氏空間中 ,於是他們採用的度量標準(metric)都是一樣的。於是我們可以直接求出。但是在一些估計問題中,這個前提是不成立的,例如對於一組觀測數值和概率分佈模型,theta是需要估計的參數。對於參數的變化(自變量),我們可以直接採用歐氏度量:。但是由於自變量變化導致的因變量的變化也就是概率的變化無法用歐氏距離來進行度量。我們自然想到了度量概率分佈的公式KL 散度。於是,對應的概率分佈的變化:的變化值就是:-------------------------------------1

於是我們在進行梯度下降的時候,必須在p(x)的空間,使用的是KL距離,按照KL距離度量來使梯度下降或者上升達到最大,這樣決定的梯度成爲自然梯度。

     那麼有沒有比較直觀的方式來理解或者計算KL距離呢,因爲這個距離與常見的歐氏距離差距太大了。這個時候我們就需要在黎曼幾何下看待這個度量,而空間不再是歐氏空間而變成了統計流形上。我們做了一個空間轉化。

     如何理解流形呢?我自己發現有兩個blog講的很好:

http://blog.pluskid.org/?p=533

http://blog.sciencenet.cn/blog-722391-583413.html

好了,有了新的空間,有了新的度量標準了,我們到底如何簡化一下KL的計算呢。

我們首先將上面的公式1寫成;

---------------------------2

然後我們令:以及,再結合着函數展開,我們有:


公式 2可以寫成:

------------------------------3

對於一次項,

於是公式3簡化爲:

其中:

G正好就是Fisher Matrix,這就對應到我們開頭的關於度量標準採用fisher metric。


OK,所有的都清晰了,現在我們從空間轉化的角度來理解這個信息幾何。個人認爲這種自然梯度計算的方法與歐氏空間下的不同座標下的轉換需要的雅克比算子是等價的,都需要一個轉化子。信息幾何就是在做這個工作,它通過空間轉化,在新的空間下對於參數估計與計算會簡單很多。

參考文獻:

[1] http://en.wikipedia.org/wiki/Information_geometry

[2] 自然梯度.pdf

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章