機器學習實戰——機器學習基礎

原創

2018-08-24 17:26

何爲機器學習
機器學習就是把無序的數據轉換成有用的信息。
關鍵術語
1. 屬性（特徵）：從各個方面描述一個事物，這些方面稱作屬性或者叫特徵
2. 訓練集：用於訓練機器學習算法的數據樣本集合
3. 目標變量：機器學習的結果
主要任務
機器學習主要分爲監督學習和無監督學習，監督學習必須知道即將預測的標稱變量是什麼，如分類和迴歸。無監督學習數據沒有類別信息，也不會給定目標值，主要包括聚類，密度估計等。
監督學習：分類和迴歸，分類主要處理目標變量爲標稱型（有限個離散型）的任務，迴歸主要用於預測數值型數據（連續型），例如：數據擬合曲線，通過給定數據點的最優擬合曲線。
無監督學習：聚類和密度估計，聚類指將數據集合分成由類似的對象組成的多個類的過程。密度估計指尋找描述數據統計值的過程。

監督學習的用途

算法	用途
k-近鄰算法	線性迴歸
樸素貝葉斯算法	局部加權線性迴歸
支持向量積	Ridge迴歸
決策樹	Lasson最小回歸係數估計

無監督學習的用途

算法	用途
k-均值	最大期望算法
DBSCAN	Parzen窗設計

算法選擇
選擇合適的算法，需要考慮兩個問題：
一、使用機器學習算法的目的，想要算法完成何種任務，如果想要預測目標變量的值，則可以選擇監督學習算法，否則選擇無監督學習算法。確定選擇監督學習算法後，需要進一步確定目標變量類型，如果目標變量時離散型則可以選擇使用分類算法，如果目標變量時連續性的數值，則可以選擇迴歸算法。確定選擇無監督學習算法後，進一步分析是否需要將數據劃分爲離散的組，如果這是唯一的需求則使用聚類算法，如果還需要估計數據與每個分組的相似度，子需要使用密度估計算法。
二、需要分析或收集的數據是什麼
主要了解數據以下特性：特徵值是離散型變量還是連續性變量，特徵值是否存在缺失的值，何種原因造成缺失值，數據中是否存在異常值，某個特徵發生的頻率等。
開發過程
1. 收集數據。
2. 準備輸入數據
3. 分析輸入數據
4. 訓練算法
5. 測試算法
6. 使用算法

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

salesforce零基礎學習（一百三十九）Admin篇之Begins/Contains/Starts With 是否區分大小寫

本篇參考： https://help.salesforce.com/s/articleView?id=sf.customize_functions_begins.htm&type=5 https://help.salesforce.com/

2024-05-23 14:32:02

freebsd、openbsd、netbsd的區別

開源BSD有三大系列：freebsd、openbsd、netbsd。其實Mac OS X也是BSD系列，只不過是商業。 1.FreeBSD FreeBSD是從386BSD的基礎上發展起來的，而386BSD是由伯克利的計算機科學家Bill

2024-05-23 14:31:31

【dubbo】telnet 連接dubbo不支持ls命令解決方法

現象 dubbo服務的默認端口是20880，按照網上教程想查看dubbo服務，報錯 telnet 127.0.0.1 20880 dubbo>lsDubbo Telnet Unsupported command: ls 原因 Pleas

金大鑫要堅持

2024-05-23 14:29:51

微服務實踐k8s&dapr開發部署實驗（1）服務調用

前置條件安裝docker與dapr: 手把手教你學Dapr - 3. 使用Dapr運行第一個.Net程序安裝k8s dapr 自託管模式運行新建一個webapi無權限項目 launchSettings.json中applica

2024-05-23 14:28:01

2018 年上半年數據庫系統工程師考試

基礎知識 ● 計算機運行過程中，遇到突發事件，要求 CPU 暫時停止正在運行的程序，轉去爲突發事件服務，服務完畢，再自動返回原程序繼續執行，這個過程稱爲__(1)，其處理過程中保存現場的目的是(2)__。（1）A.阻塞 B.中斷 C.動態

2024-05-23 14:27:10

2020年上半年數據庫系統工程師考試

基礎知識 ● 下列屬於 CPU 中算術邏輯單元的部件是（1）。（1）A、程序計數器 B、加法器 C、指令寄存器 D、指令譯碼器參考答案：（1）B ● 在 CPU 和主存之間設置

2024-05-23 14:27:10

2019 年上半年數據庫系統工程師考試

基礎知識 ● 計算機執行程序時，CPU中（1）的內容是一條指令的地址。（1）A、運算器 B、控制器 C、程序計數器 D、通用寄存器參考答案：（1）C ● DMA控制方式是在（2）之間直接建立數據通路進行數據的交換處理。（2）A、CPU

2024-05-23 14:27:10

Flink雙流Join

Flink雙流Join分爲window join、internal join、connect、維表廣播等方法,其中window join又分爲Tumbling Window Join、Sliding Window Join、Sessi

人不瘋狂枉一生

2024-05-23 14:25:50

.NET快速實現網頁數據抓取

前言今天我們來講講如何使用.NET開源（MIT License）的輕量、靈活、高性能、跨平臺的分佈式網絡爬蟲框架DotnetSpider來快速實現網頁數據抓取功能。注意：爲了自身安全請在國家法律允許範圍內開發網頁爬蟲功能。網頁數據

2024-05-23 14:25:17

解密Prompt系列29. LLM Agent之真實世界海量API解決方案：ToolLLM & AnyTool

很早之前我們就聊過ToolFormer，Gorilla這類API調用的Agent範式，這一章我們針對真實世界中工具調用的以下幾個問題，介紹微調(ToolLLM)和prompt(AnyTool)兩種方案。真實世界的API數量龐大且多樣：之

風雨中的小七

2024-05-23 14:25:10

第五節：基於Canal實現MySQL到Redis緩存數據同步

一. 二. 三. ! 作者 : Yaopengfei(姚鵬飛) 博客地址 : http://www.cnblogs.com

2024-05-23 14:24:29

微服務下認證授權框架的探討

前言市面上關於認證授權的框架已經比較豐富了,大都是關於單體應用的認證授權,在分佈式架構下,使用比較多的方案是--<應用網關>,網關裏集中認證,將認證通過的請求再轉發給代理的服務,這種中心化的方式並不適用於微服務,這裏討論另一種方案--<認

2024-05-23 14:23:09

python讀取 json文件的方法

import json with open ('ocr結構化輸出/10000.json') as f: #調用的高精度騰旭ocr tmp=f.read() tengxunjieguo=json.loads(tmp) 別使用js

張博的博客

2024-05-23 14:22:49

nodejs在typescript項目中申明全局變量

這樣做的目的是避免循環引用，編寫多餘的類型文件 //global.d.ts import type { A } from "./a"; import type { B } from "./b"; declare global {

2024-05-23 14:19:09

一對多的時候,用逗號分隔,存id,還是建表存id

在數據庫設計中，處理一對多關係時，是否使用逗號分隔的ID列表（也稱爲“序列化”或“規範化不足”的方法）或創建一個新的關聯表來存儲這些ID，是一個常見的決策點。以下是兩種方法的比較和考慮因素： 1. 使用逗號分隔的ID列表優點：簡單易

2024-05-23 14:18:19

24小時熱門文章

最新文章

最新評論文章