數理統計-ML-CV知識點
路過圖牀的外鏈要用第一個詳細的鏈接,否則會掉鏈。
<–>
1、非端到端
非端到端的學習則是分階段處理,每個階段都是一個獨立的模塊,相互不干擾。
傳統機器學習的流程往往由多個獨立的模塊組成,比如在一個典型的自然語言處理(Natural Language Processing)問題中,包括分詞、詞性標註、句法分析、語義分析等多個獨立步驟,每個步驟是一個獨立的任務,其結果的好壞會影響到下一步驟,從而影響整個訓練的結果,這是非端到端的。
2、端到端
端到端的學習旨在通過一個深度神經網絡直接學習從數據的原始形式到數據的標記的映射 ,沒有proposal region。其中從輸入端到輸出端會得到一個預測結果,將預測結果和真實結果進行比較得到誤差,將誤差反向傳播到網絡的各個層之中,調整網絡的權重和參數直到模型收斂或者達到預期的效果爲止,中間所有的操作都包含在神經網絡內部,不再分成多個模塊處理。由原始數據輸入,到結果輸出,從輸入端到輸出端,中間的神經網絡自成一體(也可以當做黑盒子看待),這是端到端的。
兩者相比,端到端的學習省去了在每一個獨立學習任務執行之前所做的數據標註。
3、高斯分佈(正態分佈)
數學期望爲μ的Normal分佈
X ∼ N ( μ , σ 2 ) X \sim N\left(\mu, \sigma^{2}\right) X ∼ N ( μ , σ 2 )
概率密度函數爲:
f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} f ( x ) = σ 2 π 1 e − 2 σ 2 ( x − μ ) 2
4、最大似然估計
已知發生的結果,求之前的概率大小
伯努利分佈(兩點分佈)如下:
f ( x ; p ) = { p i f x = 1 1 − p i f x = 0 f(x;p)= \begin{cases} p \qquad\ if \quad x=1 \\ 1-p \quad if \quad x=0 \end{cases}
f ( x ; p ) = { p i f x = 1 1 − p i f x = 0
也可寫成:
f ( x ; p ) = p x ( 1 − p ) 1 − x for x ∈ { 0 , 1 } f(x ; p)=p^{x}(1-p)^{1-x} \quad \text { for } x \in\{0,1\} f ( x ; p ) = p x ( 1 − p ) 1 − x for x ∈ { 0 , 1 }
多個獨立事件的似然函數:
L = ∏ i = 1 N p i \mathcal{L}=\prod_{i=1}^{N} p_{i} L = i = 1 ∏ N p i
對多項乘積的求導往往非常複雜,但是對於多項求和的求導卻要簡單的多,對數函數不改變原函數的單調性和極值位置,而且根據對數函數的性質可以將乘積轉換爲加減式,這可以大大簡化求導的過程:
log ( L ) = log ( ∏ i = 1 N p i ) = ∑ i = 1 N log ( p i ) \log (\mathcal{L})=\log \left(\prod_{i=1}^{N} p_{i}\right)=\sum_{i=1}^{N} \log \left(p_{i}\right) log ( L ) = log ( i = 1 ∏ N p i ) = i = 1 ∑ N log ( p i )
似然函數的最大值
似然函數的最大值意味着什麼?讓我們回到概率和似然的定義,概率描述的是在一定條件下某個事件發生的可能性,概率越大說明這件事情越可能會發生;而似然描述的是結果已知的情況下,該事件在不同條件下發生的可能性,似然函數的值越大說明該事件在對應的條件下發生的可能性越大。
可知最大似然估計的一般求解過程:
(1) 寫出似然函數;
(2) 對似然函數取對數,並整理;
(3) 求導數;
(4) 解似然方程,令其等於0的解,能使產生這些已知數據的概率最大。
5. Logit模型
Odds指的是事件發生的概率與事件不發生的概率之比:
Odds = Probability of event Probability of no event = P 1 − P \text {Odds}=\frac{\text {Probability of event}}{\text {Probability of no event}}=\frac{P}{1-P} Odds = Probability of no event Probability of event = 1 − P P
概率P的變化範圍是[0,1],而Odds的變化範圍是[0,+∞)。再進一步,如果對Odds取自然對數,就可以將概率P從範圍[0,1 ]映射到(-∞,+∞)。Odds的對數稱之爲Logit。
與概率不同,Logit的一個很重要的特性就是沒有上下限——這就給建模帶來極大方便
由於 Logit 和
( β 0 + β 1 X ) \left(\beta_{0}+\beta_{1} X\right) ( β 0 + β 1 X )
都是在(-∞,+∞)上變化,我們可以嘗試建立Logit 和( β 0 + β 1 X ) \left(\beta_{0}+\beta_{1} X\right) ( β 0 + β 1 X ) 之間的對應關係。
log i t ( P i ) = β 0 + β X \log i t\left(P_{i}\right)=\beta_{0}+\beta X log i t ( P i ) = β 0 + β X
如果將β和X看成向量形式,則
log i t ( P i ) = ln P i 1 − P i = β 0 + β 1 x 1 , i + β 2 x 2 , i + ⋯ + β n x n , i \log i t\left(P_{i}\right)=\ln \frac{P_{i}}{1-P_{i}}=\beta_{0}+\beta_{1} x_{1, i}+\beta_{2} x_{2, i}+\cdots+\beta_{n} x_{n, i} log i t ( P i ) = ln 1 − P i P i = β 0 + β 1 x 1 , i + β 2 x 2 , i + ⋯ + β n x n , i
上式正是二項Logit模型的基本形式。
6. NMS
NMS在物體檢測中的應用
物體檢測中應用NMS算法的主要目的是消除多餘(交叉重複)的窗口,找到最佳物體檢測位置。
7. 貝葉斯公式
後驗概率=先驗概率*似然概率
P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B )
P(A|B)=P(A) \frac{P(B|A)}{P(B)}
P ( A ∣ B ) = P ( A ) P ( B ) P ( B ∣ A )
用條件概率,看起來更加直白:
P ( A ∣ B ) = P ( A ∩ B ) / P ( B ) P (A|B)=P(A \cap B ) / P(B)
P ( A ∣ B ) = P ( A ∩ B ) / P ( B )
貝葉斯公式表明,在知道A發生的條件下,Bi的概率密度分佈:
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(B_{i}|A)= \frac{P(B_{i})P(A|B_{i})}{ \sum _{j=1}^{n}P(B_{j})P(A|B_{j})}
P ( B i ∣ A ) = ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P ( B i ) P ( A ∣ B i )
寫成積分形式,其中π指的是參數的概率分佈,$ \pi ( \theta |x) 指 的 是 先 驗 概 率 , T ( l x ) 指 的 是 後 驗 概 率 , 指 的 是 我 們 觀 測 到 的 樣 本 的 分 布 , 也 就 是 似 然 函 數 ( l i k e l i h o o d ) , 記 住 豎 線 ∣ 左 邊 的 才 是 我 們 需 要 的 。 其 中 積 分 求 的 區 間 O 指 的 是 參 數 0 所 有 可 能 取 到 的 值 的 域 , 所 以 可 以 看 出 後 驗 概 率 指的是先驗概率,T(lx)指的是後驗概率,指的是我們觀測到的樣本的分佈,也就是似然函數(likelihood),記住豎線|左邊的纔是我們需要的。其中積分求的區間O指的是參數0所有可能取到的值的域,所以可以看出後驗概率 指 的 是 先 驗 概 率 , T ( l x ) 指 的 是 後 驗 概 率 , 指 的 是 我 們 觀 測 到 的 樣 本 的 分 布 , 也 就 是 似 然 函 數 ( l i k e l i h o o d ) , 記 住 豎 線 ∣ 左 邊 的 才 是 我 們 需 要 的 。 其 中 積 分 求 的 區 間 O 指 的 是 參 數 0 所 有 可 能 取 到 的 值 的 域 , 所 以 可 以 看 出 後 驗 概 率 \pi ( \theta |x) $是在知道X的前提下在O域內的一個關於0的概率密度分佈,每一個0都有一個對應的可能性(也就是概率)。
π ( θ ∣ x ) = f ( x ∣ θ ) π ( θ ) ∫ θ f ( x ∣ θ ) π ( θ ) d θ
\pi ( \theta |x)= \frac{f(x| \theta ) \pi ( \theta )}{ \int _{ \theta }f(x| \theta ) \pi ( \theta )d \theta }
π ( θ ∣ x ) = ∫ θ f ( x ∣ θ ) π ( θ ) d θ f ( x ∣ θ ) π ( θ )
8. 排列數
從n個不同元素中任取m(m≤n)個元素,按照一定的順序排列起來,叫做從n個不同元素中取出m個元素的一個排列。當m=n時所有的排列情況叫全排列。
排列數公式:
可分爲m個步驟:
第1步,第1位可以從n個元素中任選一個填上,共有n種填法;
第2步,第2位只能從餘下的n-1個元素中任選一個填上,共有n-1種填法;
第3步,第3位只能從餘下的n-2個元素中任選一個填上,共有n-2種填法;
……
第m步,當前面的m-1個空位都填上後,第m位只能從餘下的n-(m-1)個元素中任選一個填上,共有n-m+1種填法。
根據分步計數原理,全部填滿m個空位共有n(n-1)(n-2)…(n-m+1)種填法。所以得到公式:
A n m = n ( n − 1 ) ( n − 2 ) ⋯ ( n − m + 1 ) = n ! ( n − m ) !
A_{n}^{m}
=n(n-1)(n-2) \cdots (n-m+1)= \frac{n!}{(n-m)!}
A n m = n ( n − 1 ) ( n − 2 ) ⋯ ( n − m + 1 ) = ( n − m ) ! n !
全排列數公式:
f ( n ) = n ! ( 0 ! = 1 ) f(n)=n!(0!=1) f ( n ) = n ! ( 0 ! = 1 )
9. 組合數
從n個不同元素中,任取m(m≤n)個元素併成一組,叫做從n個不同元素中取出m個元素的一個組合;從n個不同元素中取出m(m≤n)個元素的所有組合的個數,叫做從n個不同元素中取出m個元素的組合數。