吴恩达机器学习-Chapter 14 无监督学习

原創

数据追随者

2019-04-27 17:07

目的：无监督学习聚类算法

1. Lesson 108 无监督学习

1. 目的：介绍无监督学习，无标签y，只有特征变量X
2. 应用场景：市场划分、社交网络人群聚类、服务器集群划分

2. Lesson 109 K-Means 算法

1. 目的：介绍K-Means定义及原理
2. K-Means是迭代算法，它做2件事 1）簇分类 2）移动聚类中心
3. 步骤：
1. 随机找2个聚类中心，分别叫：μ_a、μ_b（分为2类）
2. 遍历样本数据中每个点分别与μ_a、μ_b的距离，距离近的便分配到哪个簇中（即：离μ_a近的样本便算到a簇中，否则算到b簇中）
3. 移动聚类中心，将μ_a移动到a簇中所有样本的均值处，μ_b移动到b簇中所有样本的均值处（相当于重新得到了2个聚类中心）
4. 重复上面2，3的过程，直到μ_a、μ_b两个聚类中心的值不再变化

5. 算法：

6. 几种距离算法
1. 欧氏距离(Euclidean Distance)
1. 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离:

2. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离（两个n维向量）

2. 曼哈顿距离(Manhattan Distance)
1. 顾名思义，在曼哈顿街区要从一个十字路口开车到另一个十字路口，驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。

2. 二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离：

3. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离：

3. 切比雪夫距离 (Chebyshev Distance)
1. 国际象棋中，国王可以直行、横行、斜行，所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步？这个距离就叫切比雪夫距离。
2. 二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离

3. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的切比雪夫距离：

5. 标准化欧氏距离 (Standardized Euclidean Distance)
1. 定义：标准化欧氏距离是针对欧氏距离的缺点而作的一种改进。标准欧氏距离的思路：既然数据各维分量的分布不一样，那先将各个分量都“标准化”到均值、方差相等。假设样本集X的均值(mean)为m，标准差(standard deviation)为s，X的“标准化变量”表示为：

2. 标准化欧氏距离公式：

5. Lesson 110 优化目标

1. 目的：K-Means算法最小代价函数（优化目标），该函数2个目的，1）调试算法效果；2）找到最好的簇，避免局部最优解

2. 代价函数：所有样本点到其所在的簇中心的距离平方和最小

6. Lesson 111 随机初始化

1. 目的：初始化聚类中心的方法
2. 在样本数据中随机选择K个点即可（K要小于样本数量m）
3. 如果担心出现局部最优解，可以进行多次随机初始化，并计算出每次随机初始化的代价函数，取最小值的即可
4. 如果分类数量K在2-10之间，经过多次随机初始化，效果会比较好，如果K值较大（成百上千），此方法效果不佳

7. Lesson 112 选取聚类数量

1. 目的：选取聚类数量K的值（无自动化方法）

2. 肘部法则（效果不一定好）

3. 根据业务场景和需求来定K值

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

吴恩达机器学习-Chapter 14 无监督学习

目的：无监督学习聚类算法

1. Lesson 108 无监督学习

2. Lesson 109 K-Means 算法

5. Lesson 110 优化目标

6. Lesson 111 随机初始化

7. Lesson 112 选取聚类数量

SQL优化-20231016

自己的行爲自己來分析-數分技能提升

數據分析之指標體系

互聯網用戶行爲分析入門

大數據崗位家族解讀

最實用數據分析師準備之路

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

吴恩达机器学习-Chapter 14 无监督学习

目的：无监督学习 聚类算法

1. Lesson 108 无监督学习

2. Lesson 109 K-Means 算法

5. Lesson 110 优化目标

6. Lesson 111 随机初始化

7. Lesson 112 选取聚类数量

目的：无监督学习聚类算法