深度學習論文中的一些術語(僅備份用,不定時更新)

hinge loss:
是機器學習領域中的一種損失函數,可用於“最大間隔(max-margin)”分類
hinge loss 函數是凸函數,因此機器學習中很多的凸優化方法同樣適用於 hinge loss

empirical risk:
經驗風險最小化(ERM)是統計學習理論中的一個原則,
它定義了一系列學習算法,並用於給出其性能的理論界限。
經驗風險最小化的策略認爲,經驗風險最小的模型是最優的模型。
根據這一策略,按照經驗風險最小化求最優模型就是求解最優化問題:
min 1/N*sum L(y-f(x))

mean-centering
1.意義:
數據中心化和標準化在迴歸分析中是取消由於量綱不同、自身變異或者數值相差較大所引起的誤差。

2.原理
數據中心化:是指變量減去它的均值。

數據標準化:是指數值減去均值,再除以標準差。
目的:通過中心化和標準化處理,得到均值爲0,標準差爲1的服從標準正態分佈的數據

最鄰近算法:
最鄰近搜索(NNS)又稱爲“最近點搜索”(Closest point search),
是一個在尺度空間中尋找最近點的優化問題。
問題描述如下:在尺度空間M中給定一個點集S和一個目標點q ∈ M,在S中找到距離q最近的點。
很多情況下,M爲多維的歐幾里得空間,距離由歐幾里得距離或曼哈頓距離決定。
KNN:查找最鄰近的K個點。這種方法常被用在預測分析中,用某點的一些臨近點來對它估計和分類
ANN:我們可以用一個不保證能每次都返回絕對正確的最近點的算法,用來提高運算速度或節約存儲空間。

 One-Hot編碼:
又稱爲一位有效編碼,主要是採用位狀態寄存器來對個狀態進行編碼,
每個狀態都由他獨立的寄存器位,並且在任意時候只有一位有效


EM算法:(Expectation Maximization Algorithm)
其基本思想是:首先根據己經給出的觀測數據,估計出模型參數的值;
然後再依據上一步估計出的參數值估計缺失數據的值,
再根據估計出的缺失數據加上之前己經觀測到的數據重新再對參數值進行估計,
然後反覆迭代,直至最後收斂,迭代結束。 

K-Means Clustering:
是一種迭代求解的聚類分析算法,其步驟是隨機選取K個對象作爲初始的聚類中心,
然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。
聚類中心以及分配給它們的對象就代表一個聚類。
每分配一個樣本,聚類的聚類中心會根據聚類中現有的對象被重新計算。
這個過程將不斷重複直到滿足某個終止條件。
終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,
沒有(或最小數目)聚類中心再發生變化,誤差平方和局部最小。


類型特徵轉換1-of-k(啞編碼):
功能:將非數值型的特徵值(類別特徵值)轉換爲數值型的數據

描述:假設變量的取值有K個,如果對這些值用1到K編序,則可用維度爲K的向量來表示一個變量的值。
在這個向量中,該取值所對應的序號所在的元素爲1,其它元素均爲0。

形如:A B C
1 2 3
則 A:1 0 0   B:0 1 0   
C:0 0 1
所以AB之間的距離爲√2
,AC之間的距離爲√2。 因此,AB和AC之間的相似度是一樣的。

指示函數:
在數學中,指示函數是定義在某集合X上的函數,表示其中有哪些元素屬於某一子集A
若屬於,則指示函數的值爲1,否則爲0,通常記做I_A(X)


Hinge Loss
Hinge Loss 是機器學習領域中的一種損失函數,可用於“最大間隔(max-margin)”分類,
其最著名的應用是作爲SVM的目標函數。


MDS 
多維縮放,可以保持原來維度上的距離信息

CCA
典型相關分析,將高維數組投影到一維空間中,計算兩者相關係數,得到兩組數據的相關性

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章