深度學習理論之數學基礎

一、線性代數

    1.1 標量、向量、矩陣和張量

      標量:一個單獨的數

      向量:一列數,一維數組

      矩陣:二維數組

      張量:超過二維的數組

      轉置:以對角線爲軸的鏡像。

    1.2 矩陣和向量相乘

      矩陣乘法:兩個矩陣A和B的矩陣乘積(matrix product)是第三個矩陣 C。爲了使乘法定義良好,矩陣 A 的列數必須和矩陣 B 的行數相等。如果矩陣 A 的形狀是 m × n,矩陣 B 的形狀是 n × p,那麼矩陣C 的形狀是 m × p

                                                         

      點積:

                                                                    

    1.3 單位矩陣和逆矩陣

      單位矩陣:所有沿主對角線的元素都是 1,而所有其他位置的元素都是0,計作:

                                                                   

      逆矩陣:     

                                                      

      求逆矩陣的條件:

      矩陣A必須是一個 方陣(square),即 m = n,並且所有列向量都是線性無關的。一個列向量線性相關的方陣被稱爲奇異的(singular)。

    1.4 範數

       L 2 範數:當 p = 2 時,L2 範數被稱爲 歐幾里得範數(Euclidean norm)。它表示從原點出發到向量 x 確定的點的歐幾里得距離。L2 範數在機器學習中出現地十分頻繁,經常簡化表示爲 ∥x∥,略去了下標 2。平方 L 2 範數也經常用來衡量向量的大小.

                 

        L 1 範數:當機器學習問題中零和非零元素之間的差異非常重要時,通常會使用 L 1 範數

                                             

       Frobenius 範數:有時候我們可能也希望衡量矩陣的大小。

                                          

     1.5 特殊類型的矩陣和向量

        對角矩陣:只在主對角線上含有非零元素,其他位置都是零。用 diag(v) 表示一個對角元素由向量 v 中元素給定的對角方陣。

        對稱矩陣:轉置和自己相等的矩陣

                                                     

        單位向量:具有 單位範數(unit norm)的向量

                                                    

        正交:如果 = 0,那麼向量 x 和向量 y 互相 正交(orthogonal)

        標準正交:如果這些向量不僅互相正交,並且範數都爲 1,那麼我們稱它們是標準正交

        正交矩陣:行向量和列向量是分別標準正交的方陣

                                     

     1.6 特徵分解

        特徵分解:將方陣分解成一組特徵向量和特徵值.

                                                    

                                                 

      1.7 奇異值分解

         將矩陣 A 分解成三個矩陣的乘積,假設 A 是一個 m × n 的矩陣,那麼 U 是一個 m × m 的矩陣,D 是一個 m × n
的矩陣,V 是一個 n × n 矩陣。

                                                              

        對角矩陣 D 對角線上的元素被稱爲矩陣 A 的 奇異值(singular value)。矩陣U 的列向量被稱爲 左奇異向量(left singular vector),矩陣 V 的列向量被稱 右奇異向量(right singular vector)。

     1.8 僞逆     

                                

        其中,矩陣 U,D 和 V 是矩陣 A奇異值分解後得到的矩陣。對角矩陣 D 的僞逆D + 是其非零元素取倒數之後再轉置得到的。
當矩陣 A 的列數多於行數時

                                              

     1.9 跡運算

        跡運算返回的是矩陣對角元素的和

                                    

     1.10 行列式

       行列式,記作 det(A),是一個將方陣 A 映射到實數的函數。行列式等於矩陣特徵值的乘積。行列式的絕對值可以用來衡量矩陣參與矩陣乘法後空間擴大或者縮小了多少。

 

二 概率論及信息論

      我們使用概率論來量化不確定性.

    2.1 隨機變量

      隨機變量(random variable)是可以隨機地取不同值的變量。

    2.2 概率分佈

      概率分佈(probability distribution)用來描述隨機變量或一簇隨機變量在每一
個可能取到的狀態的可能性大小。

    2.3 邊緣概率

離散:

連續:

   3.5 條件概率

  3.6 條件概率的鏈式法則

  3.7 獨立性和條件獨立性

相互獨立:

條件獨立:

3.8 期望、方差和協方差

期 望:

        離散型:

 

        連續型:

方差

協方差:

   

 

3.9 常用概率分佈

高斯分佈:

3.10 常用函數的有用性質

logistic sigmoid 

softplus 函數

3.11 貝葉斯規則

3.13 信息論


    信息論是應用數學的一個分支,主要研究的是對一個信號包含信息的多少進行量化。信息論的基本想法是一個不太可能的事件居然發生了,要比一個非常可能的事件發生,能提供更多的信息。我們想要通過這種基本想法來量化信息。特別地,
    • 非常可能發生的事件信息量要比較少,並且極端情況下,確保能夠發生的事件應該沒有信息量。
    • 較不可能發生的事件具有更高的信息量。
   • 獨立事件應具有增量的信息。例如,投擲的硬幣兩次正面朝上傳遞的信息量,應該是投擲一次硬幣正面朝上的信息量的兩倍。

   香農熵:

 

[參考資料]

<深度學習>

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章