第一章 數學基礎
Markdown Revision 1; --update 2018/10/30 13:00
Date: 2018/10/25 -- 2018/10/30 -- 2018/11/01
Editor: 喬成磊-同濟大學 & 哈工大博士生-袁笛
Contact: [email protected] & [email protected]
1.1 標量、向量、矩陣、張量之間的聯繫
標量(scalar)
一個標量表示一個單獨的數,它不同於線性代數中研究的其他大部分對象(通常是多個數的數組)。我們用斜體表示標量。標量通常被賦予小寫的變量名稱。
向量(vector)
一個向量表示組有序排列的數。通過次序中的索引,我們可以確定每個單獨的數。通常我們賦予向量粗體的小寫變量名稱,比如xx。向量中的元素可以通過帶腳標的斜體表示。向量x的第一個元素是x1,第二個元素是x2,以此類推。我們也會註明存儲在向量中的元素的類型(實數、虛數等)。
矩陣(matrix)
矩陣是具有相同特徵和緯度的對象的集合,表現爲一張二維數據表。其意義是一個對象表示爲矩陣中的一行,一個特徵表示爲矩陣中的一列,每個特徵都有數值型的取值。通常會賦予矩陣粗體的大寫變量名稱,比如A。
張量(tensor)
在某些情況下,我們會討論座標超過兩維的數組。一般地,一個數組中的元素分佈在若干維座標的規則網格中,我們將其稱之爲張量。使用**來表示張量“A”。張量**中座標爲的元素記作。
關係
標量是0階張量,向量是一階張量。舉例:
標量就是知道棍子的長度,但是你不會知道棍子指向哪兒。
向量就是不但知道棍子的長度,還知道棍子指向前面還是後面。
張量就是不但知道棍子的長度,也知道棍子指向前面還是後面,還能知道這棍子又向上/下和左/右偏轉了多少。
1.2 張量與矩陣的區別?
從代數角度講, 矩陣它是向量的推廣。向量可以看成一維的“表格”(即分量按照順序排成一排), 矩陣是二維的“表格”(分量按照縱橫位置排列), 那麼$n$階張量就是所謂的$n$維的“表格”。 張量的嚴格定義是利用線性映射來描述的。
從幾何角度講, 矩陣是一個真正的幾何量,也就是說,它是一個不隨參照系的座標變換而變化的東西。向量也具有這種特性。
張量可以用3×3矩陣形式來表達。
表示標量的數和表示矢量的三維數組也可分別看作1×1,1×3的矩陣。
1.3 矩陣和向量相乘結果
一個行列的矩陣和行向量相乘,最後得到就是一個行的向量。運算法則就是矩陣中的每一行數據看成一個行向量與該向量作點乘。
1.4 向量和矩陣的範數歸納
向量的範數
定義一個向量爲:。 向量的1範數:向量的各個元素的絕對值之和,上述向量的1範數結果就是:29。
向量的2範數:向量的每個元素的平方和再開平方根,上述的2範數結果就是:15。
向量的負無窮範數:向量的所有元素的絕對值中最小的:上述向量的負無窮範數結果就是:5。
向量的正無窮範數:向量的所有元素的絕對值中最大的:上述向量的負無窮範數結果就是:10。
向量的L-P範數:
矩陣的範數
定義一個矩陣。
矩陣的範數定義爲
當向量取不同範數時, 相應得到了不同的矩陣範數。
矩陣的1範數:矩陣的每一列上的元素絕對值先求和,再從中取個最大的,(列和最大),上述矩陣的1範數先得到,再取最大的最終結果就是:9。
矩陣的2範數:矩陣的最大特徵值開平方根,上述矩陣的2範數得到的最終結果是:10.0623。
矩陣的無窮範數:矩陣的每一行上的元素絕對值先求和,再從中取個最大的,(行和最大),上述矩陣的1範數先得到,再取最大的最終結果就是:16。
矩陣的核範數:矩陣的奇異值(將矩陣svd分解)之和,這個範數可以用來低秩表示(因爲最小化核範數,相當於最小化矩陣的秩——低秩),上述矩陣A最終結果就是:10.9287。
矩陣的L0範數:矩陣的非0元素的個數,通常用它來表示稀疏,L0範數越小0元素越多,也就越稀疏,上述矩陣最終結果就是:6。
矩陣的L1範數:矩陣中的每個元素絕對值之和,它是L0範數的最優凸近似,因此它也可以表示稀疏,上述矩陣最終結果就是:22。
矩陣的F範數:矩陣的各個元素平方之和再開平方根,它通常也叫做矩陣的L2範數,它的有點在它是一個凸函數,可以求導求解,易於計算,上述矩陣A最終結果就是:10.0995。
矩陣的L21範數:矩陣先以每一列爲單位,求每一列的F範數(也可認爲是向量的2範數),然後再將得到的結果求L1範數(也可認爲是向量的1範數),很容易看出它是介於L1和L2之間的一種範數,上述矩陣最終結果就是:17.1559。
1.5 如何判斷一個矩陣爲正定?
順序主子式全大於0;
存在可逆矩陣$C$使$C^TC$等於該矩陣;
正慣性指數等於$n$;
合同於單位矩陣$E$(即:規範形爲$E$)
標準形中主對角元素全爲正;
特徵值全爲正;
是某基的度量矩陣。
1.6 導數偏導計算
導數定義:導數代表了在自變量變化趨於無窮小的時候,函數值的變化與自變量的變化的比值。幾何意義是這個點的切線。物理意義是該時刻的(瞬時)變化率。 注意:在一元函數中,只有一個自變量變動,也就是說只存在一個方向的變化率,這也就是爲什麼一元函數沒有偏導數的原因。 導數
偏導數:既然談到偏導數,那就至少涉及到兩個自變量。以兩個自變量爲例,z=f(x,y),從導數到偏導數,也就是從曲線來到了曲面。曲線上的一點,其切線只有一條。但是曲面上的一點,切線有無數條。而偏導數就是指多元函數沿着座標軸的變化率。 注意:直觀地說,偏導數也就是函數在某一點上沿座標軸正方向的的變化率。
偏導數
1.7 導數和偏導數有什麼區別?
導數和偏導沒有本質區別,都是當自變量的變化量趨於0時,函數值的變化量與自變量變化量比值的極限(如果極限存在的話)。
一元函數,一個對應一個,導數只有一個。
二元函數,一個對應一個和一個,有兩個導數:一個是對的導數,一個是對的導數,稱之爲偏導。
求偏導時要注意,對一個變量求導,則視另一個變量爲常數,只對改變量求導,從而將偏導的求解轉化成了一元函數的求導了。 (http://blog.sina.com.cn/s/blog_5b014d510100axmt.html)
1.8 特徵值分解與特徵向量
特徵值分解可以得到特徵值與特徵向量,特徵值表示的是這個特徵到底有多重要,而特徵向量表示這個特徵是什麼。
如果說一個向量是方陣的特徵向量,將一定可以表示成下面的形式:
爲特徵向量對應的特徵值。特徵值分解是將一個矩陣分解爲如下形式:
其中,是這個矩陣的特徵向量組成的矩陣,是一個對角矩陣,每一個對角線元素就是一個特徵值,裏面的特徵值是由大到小排列的,這些特徵值所對應的特徵向量就是描述這個矩陣變化方向(從主要的變化到次要的變化排列)。也就是說矩陣的信息可以由其特徵值和特徵向量表示。
對於矩陣爲高維的情況下,那麼這個矩陣就是高維空間下的一個線性變換。可以想象,這個變換也同樣有很多的變換方向,我們通過特徵值分解得到的前N個特徵向量,那麼就對應了這個矩陣最主要的N個變化方向。我們利用這前N個變化方向,就可以近似這個矩陣(變換)。 (http://blog.csdn.net/jinshengtao/article/details/18448355)
1.9 奇異值與特徵值有什麼關係?
那麼奇異值和特徵值是怎麼對應起來的呢?我們將一個矩陣的轉置乘以,並對求特徵值,則有下面的形式:
這裏就是上面的右奇異向量,另外還有:
這裏的就是奇異值,就是上面說的左奇異向量。【證明那個哥們也沒給】 奇異值跟特徵值類似,在矩陣中也是從大到小排列,而且的減少特別的快,在很多情況下,前10%甚至1%的奇異值的和就佔了全部的奇異值之和的99%以上了。也就是說,我們也可以用前(遠小於)個的奇異值來近似描述矩陣,即部分奇異值分解:
右邊的三個矩陣相乘的結果將會是一個接近於的矩陣,在這兒,越接近於,則相乘的結果越接近於。
1.10 機器學習爲什麼要使用概率?
事件的概率是衡量該時間發生的可能性的量度。雖然在一次隨機試驗中某個事件的發生是帶有偶然性的,但那些可在相同條件下大量重複的隨機試驗卻往往呈現出明顯的數量規律。
機器學習除了處理不確定量,也需處理隨機量。不確定性和隨機性可能來自多個方面,使用概率論來量化不確定性。
概率論在機器學習中扮演着一個核心角色,因爲機器學習算法的設計通常依賴於對數據的概率假設。
例如在機器學習(Andrew Ng)的課中,會有一個樸素貝葉斯假設就是條件獨立的一個例子。該學習算法對內容做出假設,用來分辨電子郵件是否爲垃圾郵件。假設無論郵件是否爲垃圾郵件,單詞x出現在郵件中的概率條件獨立於單詞y。很明顯這個假設不是不失一般性的,因爲某些單詞幾乎總是同時出現。然而,最終結果是,這個簡單的假設對結果的影響並不大,且無論如何都可以讓我們快速判別垃圾郵件。
1.11 變量與隨機變量有什麼區別?
隨機變量(random variable)表示隨機現象(在一定條件下,並不總是出現相同結果的現象稱爲隨機現象)中各種結果的實值函數(一切可能的樣本點)。例如某一時間內公共汽車站等車乘客人數,電話交換臺在一定時間內收到的呼叫次數等,都是隨機變量的實例。
隨機變量與模糊變量的不確定性的本質差別在於,後者的測定結果仍具有不確定性,即模糊性。
變量與隨機變量的區別:
當變量的取值的概率不是1時,變量就變成了隨機變量;當隨機變量取值的概率爲1時,隨機變量就變成了變量.
比如:
當變量值爲100的概率爲1的話,那麼就是確定了的,不會再有變化,除非有進一步運算. 當變量的值爲100的概率不爲1,比如爲50的概率是0.5,爲100的概率是0.5,那麼這個變量就是會隨不同條件而變化的,是隨機變量,取到50或者100的概率都是0.5,即50%。
1.12 常見概率分佈?
(https://wenku.baidu.com/view/6418b0206d85ec3a87c24028915f804d2b168707)
常見概率分佈
常見概率分佈
常見概率分佈
常見概率分佈
常見概率分佈
常見概率分佈
常見概率分佈
1.13 舉例理解條件概率
條件概率公式如下:
說明:在同一個樣本空間中的事件或者子集與,如果隨機從中選出的一個元素屬於,那麼下一個隨機選擇的元素屬於 的概率就定義爲在的前提下的條件概率。
條件概率
根據文氏圖,可以很清楚地看到在事件B發生的情況下,事件A發生的概率就是除以。
舉例:一對夫妻有兩個小孩,已知其中一個是女孩,則另一個是女孩子的概率是多少?(面試、筆試都碰到過)
窮舉法:已知其中一個是女孩,那麼樣本空間爲男女,女女,女男,則另外一個仍然是女生的概率就是1/3。
條件概率法:,夫妻有兩個小孩,那麼它的樣本空間爲女女,男女,女男,男男,則爲1/4,,所以最後。
這裏大家可能會誤解,男女和女男是同一種情況,但實際上類似姐弟和兄妹是不同情況。
1.14 聯合概率與邊緣概率聯繫區別?
區別:
聯合概率:聯合概率指類似於這樣,包含多個條件,且所有條件同時成立的概率。聯合概率是指在多元的概率分佈中多個隨機變量分別滿足各自條件的概率。
邊緣概率:邊緣概率是某個事件發生的概率,而與其它事件無關。邊緣概率指類似於,這樣,僅與單個隨機變量有關的概率。
聯繫:
聯合分佈可求邊緣分佈,但若只知道邊緣分佈,無法求得聯合分佈。
1.15條件概率的鏈式法則
由條件概率的定義,可直接得出下面的乘法公式:
乘法公式 設是兩個事件,並且, 則有
推廣
一般地,用歸納法可證:若,則有
任何多維隨機變量聯合概率分佈,都可以分解成只有一個變量的條件概率相乘形式。
1.16 獨立性和條件獨立性
獨立性 兩個隨機變量和,概率分佈表示成兩個因子乘積形式,一個因子只包含,另一個因子只包含,兩個隨機變量相互獨立(independent)。
條件有時爲不獨立的事件之間帶來獨立,有時也會把本來獨立的事件,因爲此條件的存在,而失去獨立性。
舉例:, 事件和事件獨立。此時給定, 事件獨立時,聯合概率等於概率的乘積。這是一個非常好的數學性質,然而不幸的是,無條件的獨立是十分稀少的,因爲大部分情況下,事件之間都是互相影響的。
條件獨立性
給定的情況下,和條件獨立,當且僅當 和的關係依賴於,而不是直接產生。
舉例定義如下事件:
:明天下雨;
:今天的地面是溼的;
:今天是否下雨;
事件的成立,對和均有影響,然而,在事件成立的前提下,今天的地面情況對明天是否下雨沒有影響。
1.17期望、方差、協方差、相關係數總結
(http://www.360doc.com/content/13/1124/03/9482_331690142.shtml)
期望
在概率論和統計學中,數學期望(或均值,亦簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和。它反映隨機變量平均取值的大小。
線性運算:
推廣形式:
函數期望:設爲的函數,則的期望爲
離散函數: $E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}$
連續函數: $E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}$ 注意:函數的期望不等於期望的函數,即$E(f(x))=f(E(x))$
一般情況下,乘積的期望不等於期望的乘積。
如果$X$和$Y$相互獨立,則$E(xy)=E(x)E(y)$。
方差
概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。
方差是一種特殊的期望。定義爲:
方差性質:
1)
2)常數的方差爲0;
3)方差不滿足線性性質;
4)如果和相互獨立,
協方差
協方差是衡量兩個變量線性相關性強度及變量尺度。
兩個隨機變量的協方差定義爲: 方差是一種特殊的協方差。當時,。
協方差性質:
1)獨立變量的協方差爲0。
2)協方差計算公式:
3)特殊情況:
相關係數
相關係數是研究變量之間線性相關程度的量。 兩個隨機變量的相關係數定義爲:
相關係數的性質:
1)有界性。相關係數的取值範圍是 ,可以看成無量綱的協方差。
2)值越接近1,說明兩個變量正相關性(線性)越強。越接近-1,說明負相關性越強,當爲0時,表示兩個變量沒有相關性。