吳恩達機器學習-Chapter 14 無監督學習

原創

數據追隨者

2019-04-27 17:07

目的：無監督學習聚類算法

1. Lesson 108 無監督學習

1. 目的：介紹無監督學習，無標籤y，只有特徵變量X
2. 應用場景：市場劃分、社交網絡人羣聚類、服務器集羣劃分

2. Lesson 109 K-Means 算法

1. 目的：介紹K-Means定義及原理
2. K-Means是迭代算法，它做2件事 1）簇分類 2）移動聚類中心
3. 步驟：
1. 隨機找2個聚類中心，分別叫：μ_a、μ_b（分爲2類）
2. 遍歷樣本數據中每個點分別與μ_a、μ_b的距離，距離近的便分配到哪個簇中（即：離μ_a近的樣本便算到a簇中，否則算到b簇中）
3. 移動聚類中心，將μ_a移動到a簇中所有樣本的均值處，μ_b移動到b簇中所有樣本的均值處（相當於重新得到了2個聚類中心）
4. 重複上面2，3的過程，直到μ_a、μ_b兩個聚類中心的值不再變化

5. 算法：

6. 幾種距離算法
1. 歐氏距離(Euclidean Distance)
1. 二維平面上點a(x1,y1)與b(x2,y2)間的歐氏距離:

2. n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的歐氏距離（兩個n維向量）

2. 曼哈頓距離(Manhattan Distance)
1. 顧名思義，在曼哈頓街區要從一個十字路口開車到另一個十字路口，駕駛距離顯然不是兩點間的直線距離。這個實際駕駛距離就是“曼哈頓距離”。曼哈頓距離也稱爲“城市街區距離”(City Block distance)。

2. 二維平面兩點a(x1,y1)與b(x2,y2)間的曼哈頓距離：

3. n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)的曼哈頓距離：

3. 切比雪夫距離 (Chebyshev Distance)
1. 國際象棋中，國王可以直行、橫行、斜行，所以國王走一步可以移動到相鄰8個方格中的任意一個。國王從格子(x1,y1)走到格子(x2,y2)最少需要多少步？這個距離就叫切比雪夫距離。
2. 二維平面兩點a(x1,y1)與b(x2,y2)間的切比雪夫距離

3. n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)的切比雪夫距離：

5. 標準化歐氏距離 (Standardized Euclidean Distance)
1. 定義：標準化歐氏距離是針對歐氏距離的缺點而作的一種改進。標準歐氏距離的思路：既然數據各維分量的分佈不一樣，那先將各個分量都“標準化”到均值、方差相等。假設樣本集X的均值(mean)爲m，標準差(standard deviation)爲s，X的“標準化變量”表示爲：

2. 標準化歐氏距離公式：

5. Lesson 110 優化目標

1. 目的：K-Means算法最小代價函數（優化目標），該函數2個目的，1）調試算法效果；2）找到最好的簇，避免局部最優解

2. 代價函數：所有樣本點到其所在的簇中心的距離平方和最小

6. Lesson 111 隨機初始化

1. 目的：初始化聚類中心的方法
2. 在樣本數據中隨機選擇K個點即可（K要小於樣本數量m）
3. 如果擔心出現局部最優解，可以進行多次隨機初始化，並計算出每次隨機初始化的代價函數，取最小值的即可
4. 如果分類數量K在2-10之間，經過多次隨機初始化，效果會比較好，如果K值較大（成百上千），此方法效果不佳

7. Lesson 112 選取聚類數量

1. 目的：選取聚類數量K的值（無自動化方法）

2. 肘部法則（效果不一定好）

3. 根據業務場景和需求來定K值

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

吳恩達機器學習-Chapter 14 無監督學習

目的：無監督學習聚類算法

1. Lesson 108 無監督學習

2. Lesson 109 K-Means 算法

5. Lesson 110 優化目標

6. Lesson 111 隨機初始化

7. Lesson 112 選取聚類數量

自己的行爲自己來分析-數分技能提升

數據分析之指標體系

互聯網用戶行爲分析入門

大數據崗位家族解讀

最實用數據分析師準備之路

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

吳恩達機器學習-Chapter 14 無監督學習

目的：無監督學習 聚類算法

1. Lesson 108 無監督學習

2. Lesson 109 K-Means 算法

5. Lesson 110 優化目標

6. Lesson 111 隨機初始化

7. Lesson 112 選取聚類數量

目的：無監督學習聚類算法