机器学习算法选择(带图)

机器学习算法选择

机器学习算法两个重要的概念:

  1. 天下没有白吃的午餐NFL(No Free Lunch):没有一个学习算法可以在任何领域总是产生最准确的学习器。
  2. 概率近似正确PAC(Probably Approximately Correct):当训练样本足够大时,“训练准确率”与“预测准确率”的差值,超出容忍误差范围的概率非常小。当模型在训练样本表现很好时,就可以十分有把握地认为它在“预测未来”时,表现一样好。

在这里插入图片描述

上述算法没有优劣之分,都仅适合特定的场景(选择时Try & Test)。对于机器学习、人工智能以及大数据行业来说,不要过于迷信!

  1. 封闭可控的场景
  2. 辅助增强而不是替代人
  3. 巧妙利用数据而不是等待大数据
  4. 容错机制而不过于依赖算法

回归

  • 随机梯度下降SGD(Stochastic Gradient Decent),当数据量特别大时,加快计算速度
  • Lasso回归(L1范数),会将不重要特征前的系数变为0,即忽略不重要特征。用于稀疏特征,和PCA降维作用差不多(原理不同)。

loss(f)+λw 正则化时,采用绝对值:loss(f) + \lambda |w|

  • 岭回归(L2范数),会将不重要特征前的系数缩小接近0,即降低不重要特征的影响,不完全忽略

loss(f)+λw2 正则化时,采用平方:loss(f) + \lambda w^2

  • 弹性网络(Elastic Net),L1范数和L2范数结合使用

loss(f)+λ1w+λ2w2 正则化时,同时采用绝对值和平方根:loss(f) + \lambda_1 |w| + \lambda_2 w^2

  • 组合回归器,相当于集成学习Boosting。

分类

  • Logistics回归分类和支持向量机分类,前者相当于普通车,后者相当于宝马
  • 都不行就组合

聚类

  • 不需要指定类别的聚类算法DB SCAN(基于密度的聚类算法),可以聚类任意形状

  • 变分贝叶斯混合高斯模型VBGMM(Variational Beyesian Gaussian Mixed Model),求出分布密度,然后一般归类为最大概率的一类。

  • 混合高斯模型GMM(Gaussian Mixed Model),常用于智能抠图算法,前景后景分离。

在这里插入图片描述

降维

  • 局部线性嵌入LLE(Locally Linear Embedding),试图保持邻域内样本之间的线性关系,仅需要计算稀疏矩阵。
  • 等度量映射ISOMAP,保持全局的结构信息,要求流形必须是凸结构。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章