吳恩達機器學習-Chapter 14 無監督學習

目的:無監督學習 聚類算法

1. Lesson 108 無監督學習

    1. 目的:介紹無監督學習,無標籤y,只有特徵變量X
    2. 應用場景:市場劃分、社交網絡人羣聚類、服務器集羣劃分

2. Lesson 109 K-Means 算法

    1. 目的:介紹K-Means定義及原理
    2. K-Means是迭代算法,它做2件事 1)簇分類 2)移動聚類中心
    3. 步驟:
      1. 隨機找2個聚類中心,分別叫:μ_a、μ_b(分爲2類)
      2. 遍歷樣本數據中每個點分別與μ_a、μ_b的距離,距離近的便分配到哪個簇中(即:離μ_a近的樣本便算到a簇中,否則算到b簇中)
      3. 移動聚類中心,將μ_a移動到a簇中所有樣本的均值處,μ_b移動到b簇中所有樣本的均值處(相當於重新得到了2個聚類中心)
      4. 重複上面2,3的過程,直到μ_a、μ_b兩個聚類中心的值不再變化

      5. 算法:
    6. 幾種距離算法
      1. 歐氏距離(Euclidean Distance)
         1. 二維平面上點a(x1,y1)與b(x2,y2)間的歐氏距離:
        2. n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的歐氏距離(兩個n維向量)
      2. 曼哈頓距離(Manhattan Distance)
        1. 顧名思義,在曼哈頓街區要從一個十字路口開車到另一個十字路口,駕駛距離顯然不是兩點間的直線距離。這個實際駕駛距離就是“曼哈頓距離”。曼哈頓距離也稱爲“城市街區距離”(City Block distance)。

        2. 二維平面兩點a(x1,y1)與b(x2,y2)間的曼哈頓距離:
        3. n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)的曼哈頓距離:
      3. 切比雪夫距離 (Chebyshev Distance)
        1. 國際象棋中,國王可以直行、橫行、斜行,所以國王走一步可以移動到相鄰8個方格中的任意一個。國王從格子(x1,y1)走到格子(x2,y2)最少需要多少步?這個距離就叫切比雪夫距離。
        2. 二維平面兩點a(x1,y1)與b(x2,y2)間的切比雪夫距離
        3. n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)的切比雪夫距離:
      5. 標準化歐氏距離 (Standardized Euclidean Distance)
        1. 定義: 標準化歐氏距離是針對歐氏距離的缺點而作的一種改進。標準歐氏距離的思路:既然數據各維分量的分佈不一樣,那先將各個分量都“標準化”到均值、方差相等。假設樣本集X的均值(mean)爲m,標準差(standard deviation)爲s,X的“標準化變量”表示爲:
        2. 標準化歐氏距離公式:

5. Lesson 110 優化目標

      1. 目的:K-Means算法最小代價函數(優化目標),該函數2個目的,1)調試算法效果;2)找到最好的簇,避免局部最優解

      2. 代價函數:所有樣本點到其所在的簇中心的距離平方和最小

6. Lesson 111 隨機初始化

      1. 目的:初始化聚類中心的方法
  2. 在樣本數據中隨機選擇K個點即可(K要小於樣本數量m)
      3. 如果擔心出現局部最優解,可以進行多次隨機初始化,並計算出每次隨機初始化的代價函數,取最小值的即可
      4. 如果分類數量K在2-10之間,經過多次隨機初始化,效果會比較好,如果K值較大(成百上千),此方法效果不佳

7. Lesson 112 選取聚類數量

    1. 目的:選取聚類數量K的值(無自動化方法)

    2. 肘部法則(效果不一定好)
    3. 根據業務場景和需求來定K值
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章