再學西瓜書----chapter9 k-mean 均值聚類

原創

2020-07-01 04:23

? K-means是有監督聚類還是無監督聚類
無監督問題，還有pca降維也是無監督問題。

? K-means 聚類方法步驟

1：首先確定一個k值，即我們希望將數據集經過聚類得到k個集合。
2：從數據集中隨機選擇k個數據點作爲質心。
3：對數據集中每一個點，計算其與每一個質心的距離（如歐式距離），離哪個質心近，就劃分到那個質心所屬的集合。
4：把所有數據歸好集合後，一共有k個集合。然後重新計算每個集合的質心。
5：如果新計算出來的質心和原來的質心之間的距離小於某一個設置的閾值（表示重新計算的質心的位置變化不大，趨於穩定，或者說收斂），我們可以認爲聚類已經達到期望的結果，算法終止。
6：如果新質心和原質心距離變化很大，需要迭代3~5步驟。

? K-means 時間複雜度
O(tkm)

? K-means 優缺點

優點：
1：原理比較簡單，實現也是很容易，收斂速度快。
2：當結果簇是密集的，而簇與簇之間區別明顯時, 它的效果較好。
3：主要需要調參的參數僅僅是簇數k。
缺點：
1：K值需要預先給定，很多情況下K值的估計是非常困難的。
2：K-Means算法對初始選取的質心點是敏感的，不同的隨機種子點得到的聚類結果完全不同，對結果影響很大。
3：對噪音和異常點比較的敏感。用來檢測異常值
4：採用迭代方法，可能只能得到局部的最優解，而無法得到全局的最優解。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

[R]聚類算法:k-means模組

延伸<[Excel]k-means聚類算法的應用，以評價現有供應商的水平為例。>文章，同時恰巧在圖書館看到一本R語言機器學習書籍，因此正好可進一步瞭解如何用R語言來實現k-means算法和應用，一併將k-means模組建立起來，做為未來參

2020-07-08 10:38:53

Python模塊調用與執行

一、模塊調用。複雜的程序都是多模塊的，所謂的模塊，在Python中就是一個py文件，不同的模塊實現不同的功能。一個模塊要調用其他模塊裏的東西，包括函數、變量等，需要“先導入模塊”。這些模塊都存放在同一目錄下，才能在一個模塊中導入並調

2020-07-08 01:59:55

Caffe Linux

1. Caffe Linux （For Ubuntu (>= 17.04)） Installing pre-compiled Caffesudo apt install caffe-cpu Installing Caffe f

2020-07-07 19:32:38

機器學習之SVM(Hinge Loss+Kernel Trick)原理推導與解析

支持向量機（Support Vector Machine, SVM）是一類按監督學習方式對數據進行二元分類的廣義線性分類器（generalized linear classifier），其決策邊界是對學習樣本求解的最大邊距超平面。

2020-07-07 17:45:19

機器學習之K_means（附簡單手寫代碼）

聚類是一個將數據集中在某些方面相似的數據成員進行分類組織的過程，聚類就是一種發現這種內在結構的技術，聚類技術經常被稱爲無監督學習。 k均值聚類是最著名的劃分聚類算法，由於簡潔和效率使得他成爲所有聚類算法中最廣泛使用的。給定一個數據

2020-07-07 17:45:19

PCA（1）：基礎知識介紹

PCA算法思路：首先利用樣本集及特徵構建一個樣本矩陣，然後利用樣本矩陣計算得到一個協方差矩陣，再計算協方差矩陣的特徵值和特徵向量，保留特徵值前k個大的對應的特徵向量作爲新的維度方向，再將原始樣本數據轉換到新的空間維度。（

2020-07-07 15:17:22

矩陣的SVD分解（理論到計算結果）

爲什麼要用到SVD分解？從特徵值和特徵向量說起：首先回顧下特徵值和特徵向量的定義：其中A是一個m*m的實對稱矩陣，x是一個m維向量，則我們說λ是矩陣A的一個特徵值，而x是矩陣A的特徵值λ所對應的特徵向量。求出特徵值和特徵向量有什麼好

2020-07-07 15:17:20

PCA（2）：PCA算法實現的兩種方式

因爲樣本個數和特徵維度的是不相等de，所以組成的矩陣不是方陣。第一種方式：特徵分解思路基於樣本特徵維度，先求協方差矩陣---->再特徵分解（因爲協方差矩陣是方陣，所以可以使用特徵分解的思路）第二種方式：SVD分解 SVD理論：htt

2020-07-07 15:17:18

Coursera吳恩達機器學習編程練習ex5——正則化線性迴歸與偏差和方差

1. linearRegCostFunction.m function [J, grad] = linearRegCostFunction(X, y, theta, lambda) %LINEARREGCOSTFUNCTION Comp

不跑步就等肥

2020-07-07 15:12:31

一篇基於pthon和scikt-learn的關於機器學習的介紹

A Gentle Introduction to Machine Learning with Pythonand Scikit-learn 一篇基於pthon和scikt-learn的關於機器學習的介紹 GuillermoMon

2020-07-07 09:31:56

機器學習入門指引

機器學習，作爲門時髦、熱門的計算機應用技術，特別是隨着深度學習的流行，推動“大數據+深度模型”的模式，爲人工智能和人機交互的發展提供巨大的空間。和數據挖掘一樣，利用大量的數據分析建立有效的模型以便提供分類或者決策支持，機

2020-07-07 04:51:36

【matplotlib】進一步的瞭解以及在你的圖上添加必要的部分

一. 進一步瞭解figure和axes 之前我在實驗樓中瞭解到，figure和axes相當於是畫畫的時候畫板和畫布的關係。一般而言，你只能創建一個畫板，但是一個畫板上可以有多個畫布。此外還有一種理解方法，我們需要對axes這個對象做更加

2020-07-06 23:05:21

Windows環境下編譯 matconvnet的坑（2）

未定義函數或變量 'export_fig'。出錯 tiny_face_detector (line 197) export_fig('-dpng', '-native', '-opengl', '-transparent', out

2020-07-08 01:05:53

[3 Jun 2015 ~ 9 Jun 2015] Deep Learning in arxiv

arXiv is an e-print service in the fields of physics, mathematics, computer science, quantitative biology, quantitative

2020-07-06 23:45:22

[Fri 19 Jun 2015 ~ Thu 25 Jun 2015] Deep Learning in arxiv

A Neural Network Approach to Context-Sensitive Generation of Conversational Responses Leverage Financial News to Pr

2020-07-06 23:05:10

24小時熱門文章

最新文章

最新評論文章