簡單易懂的人工智能系列：機器學習基本概念（一）

原創

爱编程的喵汪人

2020-07-07 20:01

機器學習流程方法流程

以有監督學習爲例：

輸入數據 ————> 特徵工程 ————> 模型訓練 ————> 模型部署 ————> 模型應用

輸入空間與輸出空間

輸入空間（Input Space）:將輸入的所有可能取值的集合稱作輸入空間

輸入空間（Ouput Space）:將輸出的所有可能取值的集合稱作輸出空間

輸入空間和輸出空間可以是有限元素的集合，也可以是整個歐式空間
輸入空間和輸出空間可以是連續值集合，也可以是離散值集合
輸入空間和輸出空間可以是同一空間，也可不同
通常輸出空間會比輸入空間小

特徵空間

特徵（Feature）：即屬性。每個輸入實例的各個組成部分（屬性）稱爲原始特徵，基於原始特診還可以擴展出很多衍生特徵。

C_level 屬於由原始特徵Fare 而得的衍生特徵

特徵向量（Feature Vector）：有多個特徵組成的集合，稱作特徵向量

特徵空間（Feature Space）：將特徵向量存在的空間稱爲特徵空間

特徵空間中的每一維對應了一個特徵（屬性）
特徵空間可以與輸入空間相同，也可以不同
需將實例從輸入空間映射到特徵空間
模型實際上是定義在特徵空間之上的

假設空間

假設空間（Hypothesis Space）：由輸入空間到輸出空間的映射的集合

我們舉一個栗子來更深理解假設空間：

某商品的瀏覽、購買記錄中，記錄了性別、信用度以及是否購買，基於數據建模，其中Gender取值爲{Male,Female}，Gredit取值爲 {High , Medium, Low}，Buy取值爲 {TRUE，FALSE}：

我們的目標是在輸入空間和輸出之間建立映射關係，也就是假設空間。

輸入記錄中所有可能出現的值的組合爲 2*3 = 6個，列表如下：

而這些組合結果的最終結果都可能有兩個也就是 TRUE 或FALSE：

但是我們要提出一個疑問：這上面的這個表是假設空間嗎？

對於每一種可能的輸入，都能找到一個映射，對應了輸出空間的某個輸出。

我們從這12個可能的輸入輸入映射關係，抽出一種可能的假設：

我們將這種所有的輸入空間都對應了一個確定的輸出稱作一種假設，一種假設即使一種輸入空間到輸出空間的映射方式，那一共有多少種假設？

我們知道輸入空間可能取值種數（2*3 = 6種），輸出空間能取值種數（2種）：

每一種確定的輸入空間取值對應2種輸入空間取值，有6種確定的輸入空間取值，組合成輸入空間到輸入空間的映射方式一共就有 2*2*2*2*2*2 = 2^6，通常還要加上一個全空的假設，也就是說着個問題的假設空間有 2^6 + 1 種假設

通過以上的栗子，可以的到一般的假設空間H的假設個數爲：，其中 M是輸出空間的可能取值數，\(N_i\) 是輸入空間空間第 i 個特徵的可能取值個數。

以上例子種的假設空間的65種假設種取出6種如下：

而我們機器學習建模過程也就是要從這65個假設中選擇一個最爲貼合我們數據樣本的假設X，然後將這個假設X用來對新的數據進行預測

機器學習方法三要素

機器學習方法通常是由模型、策略和算法三部分構成：方法= 模型 + 策略 + 算法

模型：輸入空間到輸出空間的映射關係（某種假設）。機器學習過程即爲從假設空間中搜索適合當前數據的假設

對於模型，首先分析需要解決的問題（分類 or 迴歸 or 發現結構 or 異常檢測），來確定模型：

策略：從假設空間衆多的假設中選擇到最優的模型（假設）的學習標準或者規則

對於策略，我們從假設空間中選擇一個最合適的模型出來，首先需要解決的問題如下：

對於評估單個訓練樣本效果以及訓練集整體效果較爲容易，而對於除去已知的數據集，對那些未知數據具的評估效果是有困難的，通過定義一些指標來衡量以上問題：

由此我們有以下基本策略：

算法：學習模型的具體的計算方法，通常是求解最優化問題

損失函數

損失函數（Loss Fuction）：用來衡量預測結果和真實結果之間的差距，其值越小，代表預測結果和真實結果越一致。通常是一個非負實質值函數。通過各種方式縮小損失函數的過程被稱作優化。損失函數記作 \(L(Y,f(x))\)。損失函數（Loss Function) 直接作用於單個樣本，用來表達樣本的誤差。

常見損失函數如下：

0-1損失函數（0 - 1LF）：預測值和真實值精確相等則“沒有損失”爲0，否則意味着“完全損失”，爲1

，其中Y 爲真實值

預測值和實際值精確相等有些過於嚴格，可以採用兩者的差小於某個閾值的方式來降低要求：

比如，對於相同的預測結果，兩種損失函數嚴格程度不同，設置 T= 0.5，那麼：

後者設置T= 0.5，要求就沒那麼嚴格咯，前者就相當於後者的一個特殊情況 T= 0。

預測結果是一樣的，然而這種結果是好是壞，與實際應用的業務場景要求是緊密相關的，不同的應用對嚴格程度的要求往往是不同的。

絕對值損失函數（Absolute LF）：預測結果與真實結果差的絕對值。優點是簡單易懂，但是計算不方便（對於後續公式處理較爲麻煩，—— 模型推導過程較爲困難）。

平方損失函數（Quadratic LF）：預測結果與真實結果差的平方。

平方損失函數所具有的優勢：

每個樣本的誤差均爲非負，累加過程不會互相抵消
平方對於具有大誤差的樣本的懲罰力度更大（絕對值是真實反映誤差，而平方2的平方是4，3的平方是9，顯而易見）
數學計算較爲簡單友好（特別是對於求導——導數爲一次函數）

絕對值是真實反映誤差，而平方2的平方是4，3的平方是9，顯而易見，比如：

對數損失函數（Logarithmic LF）或對數似然損失函數（log-kujehood loos function）：對數函數具有單調性，在求解最優化問題時候，結果於原始目標一致（不改變極值點）。同時具有可以將乘法化爲加法的優點，簡化計算：

指數損失函數（Exponential LF）：單調非負，使得越接近正確結果誤差越小（根據驗證，真實值爲a ,只能在真實值的靠近0的那一側越接近a 才誤差越小）

折葉損失函數（Hinge LF）：也稱作鉸鏈損失，對於判定邊界附近的點的懲罰力度較高，常見於SVM

幾種損失函數圖像如下：

不同的損失函數有不同的特點，適用於不同的場景：

0-1：理想狀況模型
Log：邏輯迴歸、交叉熵
Squared：線性迴歸
Exponential：AdaBoosting
Hinge：SVM，soft-margin

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

2024年DataOps趨勢預測：AI不會取代數據工程師

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

裁員了！別錯過2024年大數據工程師必備的10項技能

在當今快速發展的世界中，數據被視爲新的石油。隨着對數據驅動洞察的日益依賴，大數據工程師的角色比以往任何時候都更爲關鍵。這些專業人員在管理和優化組織內的數據操作中扮演着至關重要的角色。在本文中，我們將探索2024年大數據工程師必須具備的十

2024-04-16 11:00:53

DevOps已死？2024年的DevOps將如何發展

隨着我們進入2024年，DevOps也隨之發生變化。新興的技術、變化的需求和發展的方法正在重新定義有效實施DevOps實踐。 IDC預測顯示，未來五年，支持DevOps實踐的產品市場繼續保持健康且快速增長，2022年-2027年的複合年增長

2024-04-08 12:51:44

從模型到部署，教你如何用Python構建機器學習API服務

本文分享自華爲雲社區《Python構建機器學習API服務從模型到部署的完整指南》，作者：檸檬味擁抱。在當今數據驅動的世界中，機器學習模型在解決各種問題中扮演着重要角色。然而，將這些模型應用到實際問題中並與其他系統集成，往往需要構建API

2024-04-08 10:33:17

測試左移已經開始影響DevOps的發展？

在軟件開發的早期，該過程通常是開發人員編寫代碼，再將其交給質量保證（QA）進行測試。這種瀑布開發方法可能會導致質量問題和延遲，因爲問題是在週期後期發現的。一、瞭解DevOps和測試左移 DevOps是Development和Operati

2024-04-07 12:48:37

黑盒Prompt優化：提升大模型反饋效果的新思路

隨着人工智能技術的快速發展，大模型在各種應用場景中發揮着越來越重要的作用。然而，如何提升大模型的反饋效果，使其更加準確、高效地爲用戶提供服務，一直是研究者和開發者關注的焦點。本文提出了一種新的思路——黑盒Prompt優化，旨在通過改進輸入提

2024-03-29 00:01:17

分佈式數據庫技術的演進和發展方向

這些年大家都在談分佈式數據庫，各大企業也紛紛開始做數據庫的分佈式改造。那麼，所謂的分佈式數據庫到底是什麼？採用什麼架構？優勢在哪？爲什麼越來越多企業選擇它？分佈式數據庫技術會向什麼方向發展？帶着這些疑問，一探究竟吧！參與文末的話題互動

2024-03-26 11:34:43

利用RAG技術打破大模型幻覺

隨着人工智能技術的不斷進步，大模型在各個領域中發揮着越來越重要的作用。然而，大模型幻覺問題一直是制約其進一步發展的瓶頸。爲了解決這一問題，研究者們不斷探索新的技術和方法。近年來，一種名爲RAG（檢索增強生成）的技術備受關注，它通過結合知識圖

2024-03-21 00:28:34

與 NVIDIA 再次合作、深度參與 GTC，Zilliz 與全球頂尖開發者共迎 AI 變革時刻！

Zilliz 與全球的頂尖開發者齊聚 GTC 2024。近日，備受關注的 NVIDIA GTC 2024 已拉開序幕，來自世界各地的頂尖 AI 開發者齊聚美國加州聖何塞會議中心，共同探索行業未來。作爲去年被 NVIDIA CEO 黃仁

2024-03-19 21:26:53

多模態+大模型會帶來哪些“化學反應”？

導語：沒人懷疑，2024 年，AI 依然將是科技界的主角。上個月，OpenAI 推出了可以生成 60 秒高清視頻的視頻生成模型 Sora，掀起了對多模態模型的進一輪討論。多模態大模型技術的最新進展如何？這一波新技術，對於行業和消費者的體驗會

2024-03-15 13:45:01

24小時熱門文章

druid數據源 xml配置

最新文章

最新評論文章