What is k-means, How to set K?

原創

不會停的蝸牛

2019-07-29 01:36

What is K-means?

figure cited here, recommend reading: K-Means Clustering – What it is and How it Works

K-means is a clustering algorithm, so it's one of the unsupervised machine learning algorithms.

This algorithm aims to group the data into K clusters.

Firstly, we predefine a K, and choose K data points arbitrarily as the centers of K clusters.

Secondly, for each data, we calculate its distances with the K centers.
Select its nearest center and distribute it to this cluster.

Thirdly, after distributing all the data points, we compute the new centers within each cluster.

Then iterate step 2 and 3 until the centers are no longer change.

In a word, K-means is to get K clusters, use means to calculate the centers, and assign each sample to its nearest center.

How to set K?

Start with k equals to 1, and calculate its variation which is the worst.
Then try k equals to 2, and compare its variation with k=1.
...
Each time we increase k, the total variation is smaller than before.
Let's plot the reduction in variance per value for k, and find the largest reduction point, like an elbow.
For example, this figure shows that when k=3, the variation has the hugest reduction, so we can set k equals to 3.

figure cited here, recommend reading: StatQuest: K-means clustering

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

What is PCA ?

不會停的蝸牛

2019-07-29 01:36:42

Object.values()對象遍歷

Object.keys() 對象的遍歷返回給定對象所有可枚舉屬性的數組；是屬性名組成的數組 let obj = { a: 1, b: 2, c: 3 }; Object.keys(obj).map((key) => {

2024-05-13 14:33:01

c++踩方格-動態規劃基礎題

有一個方格矩陣，矩陣邊界在無窮遠處。我們做如下假設： a、每走一步時，只能從當前方格移動一格，走到某個相鄰的方格上； b、走過的格子立即塌陷無法再走第二次； c、只能向北、東、西三個方向走；請問：如果允許在方格矩陣上走n步，共有多少種不同

2024-05-13 14:30:51

[Mellanox] 安裝MLNX_OFED

[Mellanox] 安裝MLNX_OFED 雖然已經安裝過很多遍了，但是這裏還是再次寫一遍安裝過程，方便以後查閱。 Mellanox的這堆東西其實每個安裝起來都不難，難點在於版本要匹配。所以最重要的是我們要知道1.我們需要哪個版本的驅動；

2024-05-13 14:28:30

JPA使用pg數據庫時，bool字段不能跨庫遷移的解決方案

首先，大多數人的印象裏，hibernate作爲一個笨重學習成本高的近乎全自動的框架它的優點就是可以支持很多數據庫，但是最近研究發現，java中的boolean類型的字段，在mariadb/mysql 中爲bit 0/1,在sqlserver

漫漫人生路總會錯幾步

2024-05-13 14:27:30

【ubuntu】程序運行時的任務欄圖標

1. 快捷方式需要正確的配置StartupWMClass屬性，那麼如何獲取這個屬性呢？參考如下命令 xprop | grep WM_CLASS 將終端程序小窗運行上述命令，鼠標點擊哪個應用窗體就會獲取哪個窗體的名稱，有可能會有多個，多個

漫漫人生路總會錯幾步

2024-05-13 14:27:30

CodePen 的國內替代「筆.COOL」，一個功能完備、使用便捷的在線HTML/CSS/JS編輯器和作品分享平臺

筆.COOL，是一個最近在國內嶄露頭角的在線HTML/CSS/JS編輯器和作品分享平臺。筆.COOL 提供了一個在線的 HTML、CSS 和 JavaScript 代碼編輯器。無需任何安裝，你只需打開網站，就可以開始編寫前端代碼。編輯

2024-05-13 14:26:50

Visual Studio中的四款代碼格式化工具

前言今天大姚給大家分享四款Visual Studio中的代碼格式化工具、擴展插件。大家可以在Visual Studio中的管理擴展或者插件市場下載安裝。代碼格式化工具的作用自動調整代碼的佈局和風格，以確保代碼具有統一的格式，提高可讀性

2024-05-13 14:21:59

幹了 2 年多 Java 外包，終於脫離了！

大家好，我是R哥。金三銀四結束了，上個月分享了一個 35K 入職的面試輔導案例： 35K*14 薪入職了，這公司只要不裁員，我能一直呆下去。。今天再分享一個上個月讓人很有成就感的面試輔導 case：外包、空窗四個月、薪資 10k、

2024-05-13 14:21:19

mysql 存json數據會自動亂序的解決方案

https://blog.csdn.net/whatzhang007/article/details/110089447 總結就是一個字: 啓用json類的保存方式.改成logntext即可. 例如我的方穹項目的表設計: 不吐槽不行, 真

張博的博客

2024-05-13 14:19:49

【Python】保存gym截圖

如果想做基於圖像cnn的深度強化學習，需要拿到gym的截圖，下面是兩種截圖方法。 1. 利用render結果生成圖像： import gym import warnings import os from PIL import Image

2024-05-13 14:11:08

win10 22H2

Windows 10 update history https://support.microsoft.com/en-gb/topic/windows-10-update-history-8127c2c6-6edf-4fdf-8b9f-0f

2024-05-13 14:06:58

【譯】使用 GitHub Copilot 作爲你的編碼 GPS

　　GitHub Copilot 是一個改變遊戲規則的人工智能助手，可以徹底改變您在 Visual Studio 中的編碼流程。在我們的視頻系列中，Bruno Capuano 探討了這個智能編碼夥伴如何幫助您更有效地編寫代碼，同時保持質量

2024-05-13 14:06:38

兩個有趣的AI項目

　　最近看到一個比較有意思的 AI 項目，叫 AI 時間線，顧名思義，就是藉助 AI 來創建某個關鍵字的時間線。主頁界面很簡單，就是一個輸入框。　　　　我在輸入辛亥革命後，就會生成下圖的時間線，將辛亥革命的各個關鍵點都列了出來。我看到這

咖啡機（K.F.J）

2024-05-13 14:05:57

從油猴腳本管理器的角度審視Chrome擴展

從油猴腳本管理器的角度審視Chrome擴展在之前一段時間，我需要藉助Chrome擴展來完成一個需求，當時還在使用油猴腳本與瀏覽器擴展之間調研了一波，而此時恰好我又有一些做的還可以的油猴腳本 TKScript (點個star吧 😁)，相對會

2024-05-13 14:05:17

24小時熱門文章

最新文章

最新評論文章