简单易懂的人工智能系列：机器学习基本概念（一）

原創

爱编程的喵汪人

2020-07-07 20:01

机器学习流程方法流程

以有监督学习为例：

输入数据 ————> 特征工程 ————> 模型训练 ————> 模型部署 ————> 模型应用

输入空间与输出空间

输入空间（Input Space）:将输入的所有可能取值的集合称作输入空间

输入空间（Ouput Space）:将输出的所有可能取值的集合称作输出空间

输入空间和输出空间可以是有限元素的集合，也可以是整个欧式空间
输入空间和输出空间可以是连续值集合，也可以是离散值集合
输入空间和输出空间可以是同一空间，也可不同
通常输出空间会比输入空间小

特征空间

特征（Feature）：即属性。每个输入实例的各个组成部分（属性）称为原始特征，基于原始特诊还可以扩展出很多衍生特征。

C_level 属于由原始特征Fare 而得的衍生特征

特征向量（Feature Vector）：有多个特征组成的集合，称作特征向量

特征空间（Feature Space）：将特征向量存在的空间称为特征空间

特征空间中的每一维对应了一个特征（属性）
特征空间可以与输入空间相同，也可以不同
需将实例从输入空间映射到特征空间
模型实际上是定义在特征空间之上的

假设空间

假设空间（Hypothesis Space）：由输入空间到输出空间的映射的集合

我们举一个栗子来更深理解假设空间：

某商品的浏览、购买记录中，记录了性别、信用度以及是否购买，基于数据建模，其中Gender取值为{Male,Female}，Gredit取值为 {High , Medium, Low}，Buy取值为 {TRUE，FALSE}：

我们的目标是在输入空间和输出之间建立映射关系，也就是假设空间。

输入记录中所有可能出现的值的组合为 2*3 = 6个，列表如下：

而这些组合结果的最终结果都可能有两个也就是 TRUE 或FALSE：

但是我们要提出一个疑问：这上面的这个表是假设空间吗？

对于每一种可能的输入，都能找到一个映射，对应了输出空间的某个输出。

我们从这12个可能的输入输入映射关系，抽出一种可能的假设：

我们将这种所有的输入空间都对应了一个确定的输出称作一种假设，一种假设即使一种输入空间到输出空间的映射方式，那一共有多少种假设？

我们知道输入空间可能取值种数（2*3 = 6种），输出空间能取值种数（2种）：

每一种确定的输入空间取值对应2种输入空间取值，有6种确定的输入空间取值，组合成输入空间到输入空间的映射方式一共就有 2*2*2*2*2*2 = 2^6，通常还要加上一个全空的假设，也就是说着个问题的假设空间有 2^6 + 1 种假设

通过以上的栗子，可以的到一般的假设空间H的假设个数为：，其中 M是输出空间的可能取值数，\(N_i\) 是输入空间空间第 i 个特征的可能取值个数。

以上例子种的假设空间的65种假设种取出6种如下：

而我们机器学习建模过程也就是要从这65个假设中选择一个最为贴合我们数据样本的假设X，然后将这个假设X用来对新的数据进行预测

机器学习方法三要素

机器学习方法通常是由模型、策略和算法三部分构成：方法= 模型 + 策略 + 算法

模型：输入空间到输出空间的映射关系（某种假设）。机器学习过程即为从假设空间中搜索适合当前数据的假设

对于模型，首先分析需要解决的问题（分类 or 回归 or 发现结构 or 异常检测），来确定模型：

策略：从假设空间众多的假设中选择到最优的模型（假设）的学习标准或者规则

对于策略，我们从假设空间中选择一个最合适的模型出来，首先需要解决的问题如下：

对于评估单个训练样本效果以及训练集整体效果较为容易，而对于除去已知的数据集，对那些未知数据具的评估效果是有困难的，通过定义一些指标来衡量以上问题：

由此我们有以下基本策略：

算法：学习模型的具体的计算方法，通常是求解最优化问题

损失函数

损失函数（Loss Fuction）：用来衡量预测结果和真实结果之间的差距，其值越小，代表预测结果和真实结果越一致。通常是一个非负实质值函数。通过各种方式缩小损失函数的过程被称作优化。损失函数记作 \(L(Y,f(x))\)。损失函数（Loss Function) 直接作用於单个样本，用来表达样本的误差。

常见损失函数如下：

0-1损失函数（0 - 1LF）：预测值和真实值精确相等则“没有损失”为0，否则意味着“完全损失”，为1

，其中Y 为真实值

预测值和实际值精确相等有些过于严格，可以采用两者的差小于某个阈值的方式来降低要求：

比如，对于相同的预测结果，两种损失函数严格程度不同，设置 T= 0.5，那么：

后者设置T= 0.5，要求就没那么严格咯，前者就相当于后者的一个特殊情况 T= 0。

预测结果是一样的，然而这种结果是好是坏，与实际应用的业务场景要求是紧密相关的，不同的应用对严格程度的要求往往是不同的。

绝对值损失函数（Absolute LF）：预测结果与真实结果差的绝对值。优点是简单易懂，但是计算不方便（对于后续公式处理较为麻烦，—— 模型推导过程较为困难）。

平方损失函数（Quadratic LF）：预测结果与真实结果差的平方。

平方损失函数所具有的优势：

每个样本的误差均为非负，累加过程不会互相抵消
平方对于具有大误差的样本的惩罚力度更大（绝对值是真实反映误差，而平方2的平方是4，3的平方是9，显而易见）
数学计算较为简单友好（特别是对于求导——导数为一次函数）

绝对值是真实反映误差，而平方2的平方是4，3的平方是9，显而易见，比如：

对数损失函数（Logarithmic LF）或对数似然损失函数（log-kujehood loos function）：对数函数具有单调性，在求解最优化问题时候，结果于原始目标一致（不改变极值点）。同时具有可以将乘法化为加法的优点，简化计算：

指数损失函数（Exponential LF）：单调非负，使得越接近正确结果误差越小（根据验证，真实值为a ,只能在真实值的靠近0的那一侧越接近a 才误差越小）

折叶损失函数（Hinge LF）：也称作铰链损失，对于判定边界附近的点的惩罚力度较高，常见于SVM

几种损失函数图像如下：

不同的损失函数有不同的特点，适用于不同的场景：

0-1：理想状况模型
Log：逻辑回归、交叉熵
Squared：线性回归
Exponential：AdaBoosting
Hinge：SVM，soft-margin

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基于 Milvus + LlamaIndex 实现高级 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上学不会游泳 | 算法校招生的高效成长总结

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球厂商之最，华为17篇论文入选国际数据库顶会ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

Gen AI 连接非结构化数据，Unstructured Data Meetup 第二场官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

探索未知：风靡硅谷开发者的 Unstructured Data Meetup 即将登陆中国

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

为程序员和新手准备的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

我宣布，这是我找到的史上AI最全论文体系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

探索未知：风靡硅谷开发者的 Unstructured Data Meetup 即将登陆中国l

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-13 21:25:35

攻击者正在利用AI，对保险公司发起大规模欺诈

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

理论+实践，带你了解分布式训练

本文分享自華爲雲社區《大模型LLM之分佈式訓練》，作者：碼上開花_Lancer。隨着語言模型參數量和所需訓練數據量的急速增長，單個機器上有限的資源已無法滿足大語言模型訓練的要求。需要設計分佈式訓練（Distributed Trainin

2024-05-08 22:38:41

2024年DataOps趋势预测：AI不会取代数据工程师

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

数字化转型新篇章：企业通往智能化的新范式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

AI从入门到入门之手写数字识别模型java方式Dense全连接神经网络实现

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

Pinecone: 大模型时代的智能索引与搜索解决方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

24小時熱門文章

最新文章

最新評論文章