Spark MLlib中KMeans聚類算法的解析和應用

本文轉自公衆號:大數據學習與分享
原文鏈接


聚類算法是機器學習中的一種無監督學習算法,它在數據科學領域應用場景很廣泛,比如基於用戶購買行爲、興趣等來構建推薦系統。

核心思想可以理解爲,在給定的數據集中(數據集中的每個元素有可被觀察的n個屬性),使用聚類算法將數據集劃分爲k個子集,並且要求每個子集內部的元素之間的差異度儘可能低,而不同子集元素的差異度儘可能高。簡而言之,就是通過聚類算法處理給定的數據集,將具有相同或類似的屬性(特徵)的數據劃分爲一組,並且不同組之間的屬性相差會比較大。

K-Means算法是聚類算法中應用比較廣泛的一種聚類算法,比較容易理解且易於實現。

"標準" K-Means算法

KMeans算法的基本思想是隨機給定K個初始簇中心,按照最鄰近原則把待分類樣本點分到各個簇。然後按平均法重新計算各個簇的質心,從而確定新的簇心。一直迭


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章