机器学习技术栈之机器学习基础

概述

机器学习(Machine Learning,ML) 是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。
机器学习是用数据或以往的经验，以此优化计算机程序的性能标准，主要使用归纳、综合而不是演绎。
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA 序列测序、语音和手写识别、战略游戏和机器人等领域。

数据集的划分

训练集（Training set） —— 学习样本数据集，包含数据标签/数据特性结构分析，主要用来训练模型。
验证集（validation set）—— 用于对构建模型调整和优化。验证集还用来确定网络结构或者控制模型复杂程度的参数。
测试集（Test set） —— 测试和评估模型。

模型拟合问题

拟合（Fitting）：泛化。

欠拟合（Underfitting）: 模型没有很好地捕捉到数据特征，不能够很好地拟合数据，对训练样本的一般性质尚未学好。一般原因是模型简单, 数据量/特征不足。解决办法一般为增加特征, 减少正则化参数, 使用非线性模型, 调整模型的容量等.
过拟合（Overfitting）: 为了构建准确率比较高的模型，把样本辅助性质或者噪声作为所有数据集的一般性质，导致泛化能力下降。出现原因为样本选取有误, 噪音干扰过大, 参数过于复杂. 解决方案为正则化, 数据扩增, Dropout等.

常见的模型指标

正确率 —— 提取出的正确信息条数 / 提取出的信息条数
召回率 —— 提取出的正确信息条数 / 样本中的信息条数
F 值 —— 正确率 * 召回率 * 2 / （正确率 + 召回率）（F值即为正确率和召回率的调和平均值）

模型

分类问题 —— 说白了就是将一些未知类别的数据分到现在已知的类别中去。评判分类效果好坏的三个指标就是上面介绍的三个指标: 正确率，召回率，F值。
回归问题 —— 对数值型连续随机变量进行预测和建模的监督学习算法。回归往往会通过计算误差（Error）来确定模型的精确性。
聚类问题 —— 聚类是一种无监督学习任务，该算法基于数据的内部结构寻找观察样本的自然族群（即集群）。聚类问题的标准一般基于距离: 簇内距离（Intra-cluster Distance）和簇间距离（Inter-cluster Distance）。簇内距离是越小越好，也就是簇内的元素越相似越好；而簇间距离越大越好，也就是说簇间（不同簇）元素越不相同越好。一般的，衡量聚类问题会给出一个结合簇内距离和簇间距离的公式。

特征工程

特征选择 —— 也叫特征子集选择（FSS，Feature Subset Selection）。是指从已有的 M 个特征（Feature）中选择 N 个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程，是提高算法性能的一个重要手段，也是模式识别中关键的数据预处理步骤。
特征提取 —— 特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点，连续的曲线或者连续的区域。

机器学习技术栈之机器学习基础

机器学习技术栈之机器学习基础

概述

分类

按学习方式

按功能划分

数据集的划分

模型拟合问题

常见的模型指标

模型

特征工程

参考:

ziw2pdf

apisix~helm方式的部署到k8s

firmeye - IoT固件漏洞挖掘工具

大數據技術面試題整理(持續更新)

機器學習技術棧之邏輯迴歸(Logistic Regression)

機器學習技術棧之機器學習基礎

安裝tensorflow中 Not Found for url: http://mirrors.aliyun.com/pypi/simple/pkg-resources/ 問題解決

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

机器学习 技术栈 之 机器学习基础

机器学习 技术栈 之 机器学习基础

概述

分类

按学习方式

按功能划分

数据集的划分

模型拟合问题

常见的模型指标

模型

特征工程

参考:

机器学习技术栈之机器学习基础

机器学习技术栈之机器学习基础