数据的分析基本知识2

1.SVM(support vector machine):

支持向量机。SVM是一个面向数据的分类算法。目标是为确定一个分类超平面,从而将不同的数据分隔开。

2.向量的范数

向量的1-范数:各个元素的绝对值之和。

向量的2-范数:每个元素的平方和再开平方根;

向量的无穷范数:

  • 正无穷范数:向量的所有元素的绝对值中最大值。
  • 负无穷范数:向量的所有元素的绝对值的最小值

3.矩阵的范数

      L1范数: 为x向量各个元素绝对值之和。 
  L2范数: 为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数 
  Lp范数: 为x向量各个元素绝对值p次方和的1/p次方.

1.矩阵的1范数(列模):矩阵的每一列上的元素绝对值先求和,再从中取个最大的(列和最大)

2.矩阵的2-范数(谱模)

3.矩阵的无穷范数(行模):矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大)

4.矩阵的L0范数:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0元素越多,也就越稀疏。

4.L1和L2正则先验分别服从什么分布

L1是拉普拉斯分布

L2是高斯分布

5.监督学习和无监督学习

监督学习:对具有标记的样本进行学习,以尽可能对训练样本集外的数据进行分类预测。

无监督学习:对未标记的样本进行训练学习,比发现这些样本中的结构知识。

6.正则化

正则化是针对过拟合而提出的,以为在求解模型最优的是一般优化最小的经验风险,现在在该经验风险上加入模型复杂度这一项(正则化项是模型参数向量的范数),并使用一个rate比率来权衡模型复杂度与以往经验风险的权重,如果模型复杂度越高,结构化的经验风险会越大,现在的目标就变为了结构经验风险的最优化,可以防止模型训练过度复杂,有效的降低过拟合的风险。
  奥卡姆剃刀原理,能够很好的解释已知数据并且十分简单才是最好的模型。

7.机器学习常见评价指标

AUC(Area under Curve):是一个模型评价指标,用于二分类模型的评价。

Precision、Recall、F-measure、Accuracy的计算 
  首先,我们看如下图示: 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章