機器學習與網絡安全基礎篇(五)信息論基礎

信息論是應用數學的一個分支,主要研究的是對一個信號包含信息的多少進行量化,最初是用於研究在一個含有噪聲的信道上用離散字母表來發送消息,例如通過無線電來傳輸通信。

什麼叫應用數學?高中至大學時期的一些數學公式微積分都是純粹的數學公式,應用數學是將數學的式函數應用在我們的實際的生活中解決我們現實中的問題。

在機器學習中,信息論被應用在連續的形變量上。

如果一個事件是連續的,有一定的形變,通過信息論的一些理論知識公式我們可以從中提取到一些信息,在機器學習中是比較重要的。

信息論的基本論調:一個不太可能的事件發生需要比一個非常可能的事件發生,產生更多的信息。

一個不太可能的事件要發生的時候,它是需要很多複雜因素的構成,一個經常發生的事件就不太需要很多非常複雜的構成。比如住在沿海地區的朋友,會碰到颱風,颱風一年有幾回,颱風需要在海洋上會積累大量的能量,形成低壓氣旋,往我們的沿海地區高速的移動,這個時候大家就遇到了颱風。但是在海面上隨便吹的那種海風,你隨便到海邊都可以感受的到的,就是一個經常可以發生的事件,不需要積累能量隨隨便便就可以發生,所以它信息論的基本論調是與我們生活中的現象是相互符合的。

下面幾句話中哪一句話容易引起你的注意:

今天白天 今天白天是晴天 今天白天是晴天,但會伴有微風 今天白天是晴天,但會伴有舒適的微風,黃昏時分風就停了。
今天白天是晴天,但會伴有舒適的微風,黃昏時分風就停了,夜間可能會有點涼。
今天白天是晴天,但會伴有舒適的微風,黃昏時分時分風就停了,夜間可能會有點涼,你得多穿點衣服。
今天白天是晴天,但會伴有舒適的微風,黃昏時分時分風就停了,夜間可能會有點涼,你得多穿點衣服,晚飯要認真喫。

隨着信息量的增加,產生一件事情的概率越來越低。但是哪一句話能引起你的注意這就是一個問題,有的人可能是到這裏黃昏時分風就停了,這句話他覺得是最能引起他注意的,有的是人可能就覺得到這裏做最後一句,是最能引起他的注意的,那麼這就是我們學習人工智能的一個巧妙的地方。

我們人工智能要達到的結果是根據信息論的過程生成一些語句,但是生成語句的結果是思維定勢,而是結合前後關係選擇一個恰當的結果輸出,所以按照信息論來締造的這樣一個AI可能是最好的選擇。

如果想通過這種想法來量化信息,需注意以下幾點:
1、非常可能發生的事件信息量比較少,極端情況下,確保總能夠發生的事件應該沒有信息量的。
2、較不可能發生的事件具有更高的信息量
3、獨立事件應具有增量的信息

腦科病人的大腦受到了創傷,可能引起運動區域出現問題,比如手拿不起東西,這個時候醫會讓他做一些物理治療,比如嘗試用手來抓一些輕的東西,在不斷地嘗試中大腦會有一個自己的修復過程,半年或一年之後可以抓起東西了,他可以拿起一個水杯,自己來喝一口水。在這個過程中,物理治療其實是一個連續事件。每一次抓東西的時候受到前一次的經驗的影響,讓大腦神經去適應抓東西的過程,隨着抓的次數越來越多,幾千次幾萬次,神經就已經能夠恢復成恢復到像正常人那樣。但是如果我們把恢復過程抽離出來,假設病人的神經根本無法恢復,每次都拿不起來那就永遠都不會拿起來。

對於一個連續性事件來說,能量是可以傳遞積累的,信息量也是可以積累的,但是非連續性事件屬於離散事件是單獨的,這個信息量就不能積累了。

自信息

一個事件(消息)本身所包含的信息量,由事件的不確定性決定的。即隨機事件Xi發生概率爲P(xi),則隨機事件的自信息量定義爲:
在這裏插入圖片描述
公式中的log表示自然對數, I(x)的單位是奈特(nats)。奈特是以1/e的概率觀測到一個事件時獲得的信息量。如果用以2爲底的對數,單位是比特(bit)或者香農(shannons)。

香農熵與微分熵

自信息只處理單個的輸出。我們可以用香農熵(Shannon entropy)來對整個概率分佈中的不確定性總量進行量化:

H(x)=EXP[I(x)]=EXP[logP(x)]

一個分佈的香農熵是指遵循這個分佈的事件所產生的期望信息總量。當x 是連續的,香農熵被稱爲微分熵(differential entropy)。

KL散度

如果我們對於同一個隨機變量x 有兩個單獨的概率分佈P(x) 和Q(x),我們可以使用KL 散度(Kullback-Leibler (KL) divergence)來衡量這兩個分佈的差異。KL散度又稱爲相對熵。

DKL(P||Q)=EXP[logP(x)logQ(x)]

KL散度的物理意義可以理解爲:在離散型變量的情況下,KL 散度衡量的是,當我們使用一種被設計成能夠使得概率分佈Q 產生的消息的長度最小的編碼,發送包含由概率分佈P 產生的符號的消息時,所需要的額外信息量。

一個和KL 散度密切聯繫的量是交叉熵(cross-entropy),它和KL 散度很像但是缺少左邊一項:

H(P,Q)=H§+DKL(P||Q)=EXPlogQ(x)

通常用來衡量分佈P與Q之間的距離,這個距離不是對稱的距離。

比如傘度P是一個電報機圓形的,它只能生產這種圓形的電報,如果我們設計一種新的Q兼容,P是近似於P的分佈。

在這裏插入圖片描述
KL散度的方向會選擇反映了每一種應用優先考慮哪一種的選擇。
在這裏插入圖片描述
交叉熵

在P的概率分佈下求Q(x)分佈的信息的期望值。

針對Q來最小化交叉熵等價於最小化KL散度, 因爲H(P,Q)的第一項與Q無關。

H(P,Q)=H§+DKL(P||Q).

H(P,Q)=ExPIQ(x)=ExPlogQ(x).

信息粒子論描述了一種事物形成過程——即所有物質皆由源物質構成,源物質攜帶信息,並且這種信息的量爲固定值。信息量的攜帶,可以控制物質的變化,形成各種物質。

信息粒子論首次出現於2009年9月13日,由華裔科學家戈瑟姆-賈提出,並且在第二年在強子對撞機之中獲得了部分證實。但是他的一套理論依然存在爭議,即便如此,他的數學模型依然讓部分物理學家相信,這也許可以解釋出爲爲什麼這個宇宙更加偏好正物質。

比如一個蘋果,構成它的部分是蘋果的小的圓細胞,細胞裏面是原子分子,這種情況是在大自然中是存在的。在我們在深度學習的時候,很多深度學習的教程裏面,會有一張圖,科學家已經證實一個現象,就你看到一幅畫面,如果很短的時間,比如說0.1幾秒或以上你只會是記錄幾個像素,再長一點時間比如0.18秒就可以記錄到邊緣,對物體邊界的區分,這個是腦神經電的傳輸,電信號的傳輸距離是要短於你對面這張桌面的。

信息子

只要這個東西攜帶信息,它就可以被進一步拆解,最終拆解爲信息子。信息子一開始是雜亂無章地分佈在四維空間,當三維空間中的分子摩擦碰撞產生能量逃逸到四維空間中,這個能量就啓動了四維空間中信息子的規則排布,排布好的信息子就產生了大量的這種信息。

這個信息就可以產生信息,它會迴歸到三維空間中釋放能量,引起其他分子的碰撞摩擦,如此循環下去。

相關內容推薦:

機器學習與網絡安全(一)基礎知識
機器學習與網絡安全(二)開發環境創建
機器學習與網絡安全(三)線性代數
機器學習與網絡安全(四)概率學基礎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章