机器学习基础概念指北

前言

  机器学习正在迅速的改变着我们的世界,我们生活中的方方面面都在被机器学习所改变。当我们在淘宝或是京东上购物时,当我们使用百度或谷歌等搜索引擎时,当我们在浏览抖音和快手时,就已经触碰到了机器学习的应用。使用这些服务的用户会产生数据,这些数据会被收集,进行预处理后用来训练模型,而这些模型会通过这些数据来提供更好的用户体验。此外,机器学习还在图像识别,智能家居,无人驾驶,智能机器人等等多个领域影响着我们的生活,那么究竟什么是机器学习呢?

什么是机器学习

  机器学习模型或算法(Model/Algorithm)会根据观察到的特征值(Feature)进行预测,给出预测结果 或者目标(Prediction/Target)。这就像是一个函数计算过程,对于特定X值(Feature),算法模型就 像是函数,最终的预测结果是Y值。不难理解,机器学习的核心问题就是如何得到预测函数。
  机器学习的最重要本质是从数据中学习,得到预测函数。人类的思考过程以及判断能力本质上也是一种函 数处理。从数据或者经验中学习,对于人类来说是一件再平常不过的事情了。例如人们通过观察太阳照射 物体影子的长短而发明了日晷,从而具备了计时和制定节气的能力。古埃及人通过尼罗河水的涨落发明了 古埃及历法。
  如果机器能够像人一样具备从数据中学习的能力,从某种意义上讲,就具备了一定的“智能”。

机器学习的范围

  机器学习跟模式识别,统计学习,数据挖掘,计算机视觉,语音识别,自然语言处理等领域有着很深的联系。从范围上来说,机器学习跟模式识别,统计学习,数据挖掘是类似的,同时,机器学习与其他领域的处理技术的结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科。因此,一般说数据挖掘时,可以等同于说机器学习。同时,我们平常所说的机器学习应用,应该是通用的,不仅仅局限在结构化数据,还有图像,音频等应用。

  • 模式识别=机器学习。两者的主要区别在于前者是从工业界发展起来的概念,后者则主要源自计算机学科。
  • 数据挖掘=机器学习+数据库。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。
  • 统计学习近似等于机器学习。机器学习中的大多数方法来自统计学;但是在某种程度上两者是有分别的,这个分别在于:统计学习者重点关注的是统计模型的发展与优化,偏数学,而机器学习者更关注的是能够解决问题,偏实践,因此机器学习研究者会重点研究学习算法在计算机上执行的效率与准确性的提升。
  • 计算机视觉=图像处理+机器学习。图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责从图像中识别出相关的模式。
  • 语音识别=语音处理+机器学习。
  • 自然语言处理=文本处理+机器学习。

  人工智能是机器学习的父类。深度学习则是机器学习的子类。如果把三者的关系用图来表明的话

在这里插入图片描述

机器学习的方法

  在机器学习领域,有监督式学习和无监督式学习两种常用的方法

监督式学习

  监督式学习是指通过现有训练数据集进行建模,再用模型对新的数据样本进行分类和回归分析的机器学习方法。训练数据集一般包含样本特征变量及分类标签,机器使用不同的算法通过这些数据集推断出分类的方法,并用于新的数据样本中。
  在监督式学习中,常用的两种方法是分类和回归,对于分类来说,机器学习的目标是要判断样本的类标签,获取的结果是离散的值,对于回归来说,目标是要预测样本结果的数据和范围,获取的结果是连续的值。

无监督式学习

  无监督式学习指的是在没有训练数据集的情况下,对没有标签的数据进行分析,建立模型并给出解决方法的方法。无监督式学习中的常用方法有数据转换和聚类分析,其中数据转换的目的是通过无监督式学习方法将复杂的数据进行转化,使其更容易理解,常用的数据转换手段是数据降维,就是通过对特征变量较多的数据集进行分析,去除无关紧要的特征变量,保留关键特征变量的过程;而聚类分析则是把样本划分到不同分组的算法,每个同组样本都具有相近的特征。

监督式学习中的泛化与拟合

  在监督式学习中,我们会通过训练数据集建立模型,然后将模型应用于其他数据集的过程叫做泛化。我们通过拟合情况来分析机器学习模型的优劣,当训练出的模型过于复杂导致非常契合训练数据集但对测试数据集表现非常差,这被称为过拟合;相反,如果模型非常简单,连训练数据集的特点都不能完全考虑到,这样的模型在训练数据集和测试数据集的表现都会很差,这被称为欠拟合。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章