机器学习“傻瓜式”理解(2)基础概念理解

0.何为机器学习?

举一个生活中的栗子,在邮箱系统中一定存在着这样一个功能:垃圾邮件过滤功能。问题便出现了:何为垃圾邮件?我们需要去编写一定的规则去帮助计算机去识别出垃圾邮件将其过滤掉。“去编写规则帮助计算机识别”这一动作我们便可将其为机器学习的过程。
再举一个栗子,想象这样一个场景,将你自己视为一台“计算机”,你需要去面对年末考试,你需要进行大量的练习(读取大量数据并训练),然后去进行预测未知的题目(需要预测和进行机器学习的数据),从而取得好成绩。我们所做的这一过程便和机器学习类似,我们需要去将未知的数据去预测准确,而不是止步于在现有的数据上取得好成绩。
总结图
机器学习理解图

1.包括以及应用

本博客范围

本博客会讲解一些主要的机器学习算法,包括kNN、线性回归、多项式回归、逻辑回归、模型正则化、PCA、SVM、决策树、随机森林、集成学习、模型选择、模型调试。以及这些算法在scikit-learn中的应用。

应用

例如在判断信用卡的发放风险性、电子商务平台的喜欢系统、语音识别系统、市场方面、安全医疗领域、金融领域、无人驾驶、智能翻译等方面具有重要的应用。

2.基础概念理解

机器学习中有两个十分基础且重要的名词,分别为特征和样本:

**特征(Feature):**在机器学习的过程中,为了达到训练模型(fit)的目的,需要注入一些数据,我们称这样的数据便为特征数据。
**样本(Label):**小编通常称之为“结论”,也可以理解为我们将训练出来的模型去预测为未知点得到的数据。

机器学习通常情况下解决的主要任务包括:

**分类问题:**例如紧接着要陈述的KNN算法就是解决分类问题最简单的算法。分类问题最后得到的结果是一个类别,例如我们在预测肿瘤问题过程中最后得到的结论是恶性(positive)或者是良性(negative)。
**回归问题:**回归问题包含众多算大,例如线性回归,KNN算法也可以实现回归问题。我们可以这样理解回归问题,最后得出的结论是一个连续的数值,例如股票或者房价的预测,我们都可以使用回归问题去进行解决。

机器学习算法的主要分类:

**监督学习:**所谓监督学习通俗的理解便是我们在训练我们算法过程中喂给机器的数据带有Label,也可以理解为我们对我们的数据进行了正确答案的划分,这种划分就是监督的信息。
**非监督学习:**此种学习方式和监督学习恰恰相反,我们喂给计算机的数据只包括Feature,不包括Label,我们需要进行聚类分析。例如电商平台的客户类型,我们需要根据客户的喜好,浏览度对客户进行分类。
**半监督学习:**这种方式是最常见的一种方式,一般数据给予了Label,另一半没有,通常我们会这样解决:先使用无监督学习手段对数据进行处理,然后通过监督学习手段进行模型的训练和预测。
**增强学习:**顾名思义,就是通过某种特定手段,根据实时的环境变化结合不断的反馈不断改进机器学习算法的过程。例如无人驾驶,机器人等等。
增强学习
另外机器学习算法还包括批量学习(离线学习),在线学习,参数学习和非参数学习。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章