深度学习论文中的一些术语(仅备份用,不定时更新)

hinge loss:
是机器学习领域中的一种损失函数,可用于“最大间隔(max-margin)”分类
hinge loss 函数是凸函数,因此机器学习中很多的凸优化方法同样适用于 hinge loss

empirical risk:
经验风险最小化(ERM)是统计学习理论中的一个原则,
它定义了一系列学习算法,并用于给出其性能的理论界限。
经验风险最小化的策略认为,经验风险最小的模型是最优的模型。
根据这一策略,按照经验风险最小化求最优模型就是求解最优化问题:
min 1/N*sum L(y-f(x))

mean-centering
1.意义:
数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

2.原理
数据中心化:是指变量减去它的均值。

数据标准化:是指数值减去均值,再除以标准差。
目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据

最邻近算法:
最邻近搜索(NNS)又称为“最近点搜索”(Closest point search),
是一个在尺度空间中寻找最近点的优化问题。
问题描述如下:在尺度空间M中给定一个点集S和一个目标点q ∈ M,在S中找到距离q最近的点。
很多情况下,M为多维的欧几里得空间,距离由欧几里得距离或曼哈顿距离决定。
KNN:查找最邻近的K个点。这种方法常被用在预测分析中,用某点的一些临近点来对它估计和分类
ANN:我们可以用一个不保证能每次都返回绝对正确的最近点的算法,用来提高运算速度或节约存储空间。

 One-Hot编码:
又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,
每个状态都由他独立的寄存器位,并且在任意时候只有一位有效


EM算法:(Expectation Maximization Algorithm)
其基本思想是:首先根据己经给出的观测数据,估计出模型参数的值;
然后再依据上一步估计出的参数值估计缺失数据的值,
再根据估计出的缺失数据加上之前己经观测到的数据重新再对参数值进行估计,
然后反复迭代,直至最后收敛,迭代结束。 

K-Means Clustering:
是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,
然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
聚类中心以及分配给它们的对象就代表一个聚类。
每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。
这个过程将不断重复直到满足某个终止条件。
终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,
没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。


类型特征转换1-of-k(哑编码):
功能:将非数值型的特征值(类别特征值)转换为数值型的数据

描述:假设变量的取值有K个,如果对这些值用1到K编序,则可用维度为K的向量来表示一个变量的值。
在这个向量中,该取值所对应的序号所在的元素为1,其它元素均为0。

形如:A B C
1 2 3
则 A:1 0 0   B:0 1 0   
C:0 0 1
所以AB之间的距离为√2
,AC之间的距离为√2。 因此,AB和AC之间的相似度是一样的。

指示函数:
在数学中,指示函数是定义在某集合X上的函数,表示其中有哪些元素属于某一子集A
若属于,则指示函数的值为1,否则为0,通常记做I_A(X)


Hinge Loss
Hinge Loss 是机器学习领域中的一种损失函数,可用于“最大间隔(max-margin)”分类,
其最著名的应用是作为SVM的目标函数。


MDS 
多维缩放,可以保持原来维度上的距离信息

CCA
典型相关分析,将高维数组投影到一维空间中,计算两者相关系数,得到两组数据的相关性

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章