機器數據挖掘--常見監督學習算法以及數據挖掘流程

原創

HighBox

2020-06-17 08:24

有監督（分類，迴歸）無監督（聚類，降維）

迴歸問題是指f(x)是一個連續的值，給定一個新的模式，根據訓練集推斷它所對應的輸出值（實數）是多少，是一種定量輸出，也叫連續變量預測。

分類問題是指f(x)是一個離散的值，給定一個新的模式，根據訓練集推斷它所對應的類別（如：+1，-1），是一種定性輸出，也叫離散變量預測。

迴歸算法：
線性迴歸
嶺迴歸
樹迴歸
分類算法：
邏輯迴歸
K鄰近
樸素貝葉斯
支持向量機
決策樹：ID3，C4.5，cart
集成算法：隨機森林，adaboost，xgboost

挖掘流程
從大量數據中獲取有效的，新穎的，潛在有用的。簡單地說，數據挖掘就是從大量數據中提取或挖掘知識

定義問題
準備數據
數據預處理
特徵工程
生成模型
評價模型部署和更新模型

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【算法面試筆記】

特徵工程七種常用的特徵工程特徵提取+數據預處理四部走特徵歸一化爲啥要歸一化百面機器學習上那個例子我覺得全就一個角度：讓不同量綱的特徵對最終模型有着近似、相似的影響力，可能不完全相同，保證特徵之間的公平性以計算距離

dominic_z

2020-07-08 02:17:26

Latent Semantic Analysis(LSA)

對於一個term-document加權詞頻矩陣(如TF-IDF),如果他的規模m*n非常大，那麼這些文本的存儲還有計算聚類都會有不小的麻煩，LSA採用SVD分解將高維文本映射到低維的隱含語義空間，較好的解決了這個問題。分解後的三部分都

记忆星空

2020-06-30 22:42:58

Least Angel Regression

最小角迴歸和上一篇說的forward stepwise有一些相似的地方是都是將一些variable選到variable集合中來，不一樣的是，forward stepwise 每次選的都是與當前殘差相關度最大的variable，選進來以後，

记忆星空

2020-06-30 22:42:58

subset selection

這幾天看the elements of statistical learning,覺得非常喫力，可能自己水平還不夠，覺得這書不適合初學者看，就從Subset Selection 這一章節來說，本文說了主要說了三個點，best-subset

记忆星空

2020-06-30 22:42:58

SVD and PCA

MIT 線性代數課程中講過的矩陣分解有很多種，但是據我所知最重要的應該是SVD分解了，假如現在想把矩陣A行空間的正交基通過A左乘的方法變換到A列空間的正交基，有：將上式左右兩邊都乘以V的轉置，就可以得到矩陣奇異值分解的公式，SVD的分解

记忆星空

2020-06-30 22:42:58

理解xgboost

jin_tmac

2020-06-30 22:10:48

xgboost的原生接口與sklearn接口輸出feature_importance

1、sklearn的原生接口和sklearn接口調用feature_importance有差別： bst = xgb.train(param, d1_train, num_boost_round=100, evals=watch_

jin_tmac

2020-06-30 22:10:36

Python連續變量分箱--woe值單調分箱

最近上傳了一個變量分箱的方法到pypi，這個包主要有以下說明：缺失值單獨一箱，不論缺失的數量多少；生成的分箱woe值是單調的，後續有時間會迭代U型分箱的版本；會有分箱最小樣本數佔比，類似決策樹的最小葉節點佔比；分箱成功的

jin_tmac

2020-06-30 22:10:36

Python ： satasmodels & sklearn LogisticRegression

python 邏輯迴歸 satasmodels 和 sklearn LogisticRegression結果係數總是不一致除了LogisticRegression要設置fit_intercept = False以外，會發現skl

jin_tmac

2020-06-30 22:10:36

機器學習系列(15)_SVM碎碎念part3：如何找到最優分離超平面

寒小阳

2020-06-25 11:30:21

機器學習系列(13)_SVM碎碎念part1：間隔

寒小阳

2020-06-25 11:30:19

數據挖掘中的分類算法比較

隨着計算能力、存儲、網絡的高速發展，人類積累的數據量正以指數速度增長。對於這些數據，人們迫切希望從中提取出隱藏其中的有用信息，更需要發現更深層次的規律，對決策，商務應用提供更有效的支持。爲了滿足這種需求，數據挖掘技術的得到了長足的發

_Bob908

2020-06-24 09:39:03

分類算法之一——數據預處理

現實世界中數據大體上都是不完整，不一致的髒數據，無法直接進行數據挖掘，或挖掘結果差強人意。爲了提前數據挖掘的質量產生了數據預處理技術。　　數據預處理有多種方法：數據清理，數據集成，數據變換，數據歸約等。這些數據處理技術在數據挖掘之前使

_Bob908

2020-06-24 08:40:29

GPU上大規模稀疏矩陣特徵值計算高效算法之一——GPU介紹

GPU主要特點 1. 高吞吐量。 2. 擁有數百個硬件處理單元，性能達到1Tflops。 3. 每個處理單元深度多線程，即使有的線程被stall了，GPU還能夠繼續正常執行。 4. 高memory帶寬。 GPU結構特性 1）硬件模型

_Bob908

2020-06-24 08:40:24

機器學習之統計分析(1)

前言最近在阿里雲數加平臺上學習一下機器學習，把學習中整理的資料記錄於此，已備查看，以下資料主要是概念解釋及應用。數據視圖大數據通用可視化控件，提供所選擇字段的直方圖，如下圖所示：協方差相關係數算法用於計算一個矩陣中每一

傲慢的上校

2020-06-23 14:09:17

24小時熱門文章

機器數據挖掘--常見監督學習算法以及數據挖掘流程

操作系統理論細節 2

操作系統理論細節

機器數據挖掘--常見監督學習算法以及數據挖掘流程

機器學習與數據挖掘—邏輯迴歸

python import numpy 與 from numpy import *的區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結