LLE原理

局部线性嵌入（Locally Linear Embedding, LLE）是无监督非线性降维算法，是流行学习的一种。

LLE和Isomap一样试图在降维过程中保持高维空间中的流形结构。Isomap把任意两个样本点之间的测地距离作为流形结构的特征，而LLE认为局部关系刻画了流形结构。

LLE认为，在高维中间中的任意一个样本点和它的邻居样本点近似位于一个超平面上，所以该样本点可以通过其邻居样本点的线性组合重构出来。

我们假设共有N个邻居点。重构误差为

J (W) = \sum i = 1 N | | x i - \sum k = 1 K w i k η i k | | 2 (1)

其中wik时的邻居系数。

为了得到W，求解最小化问题

min W s . t . J (W) \sum k = 1 K w i k = 1, i = 1, 2, \dots, N . (2)

\begin{align} \min_W & \quad J(W) \\\\ s.t. & \quad \sum_{k=1}^K w_{ik}=1, i=1,2,\cdots, N. \\\\

为了使得流形结构在低维空间中得以保持，LLE要求低维空间中的样本点仍能保持上面的局部线性关系。假设xi可以通过下面的优化问题进行求解：

min Y s . t . \sum i = 1 N | | y i - \sum j = 1 N w i j y j | | 2 1 N \sum i = 1 N y i y T i = I . (3)

\begin{align} \min_Y & \quad \sum_{i=1}^N ||y_i-\sum_{j=1}^N w_{ij} y_j||^2 \\\\ s.t. & \quad \frac{1}{N}\sum_{i=1}^N y_i y_i^T = I . \\\\

注意，这里的wij，根据上下文确定到底是哪个。

两个优化问题的求解

上面两个优化问题都可以直接得到最优解的解析式。

高维空间中的优化问题

有两种方法可以推出优化问题（2）的最优解。

方法一

令wi，则

J (W) = \sum i = 1 N | | x i - N i w T i | | 2 = \sum i = 1 N (x i - N i w T i) T (x i - N i w T i) = \sum i = 1 N (x T i x i - 2 x T i N i w T i + w i N T i N i w T i) .

\begin{align} J(W)&=\sum_{i=1}^N||x_i-N_i w_i^T||^2 \\\\ &=\sum_{i=1}^N(x_i-N_i w_i^T)^T(x_i-N_i w_i^T) \\\\ &=\sum_{i=1}^N(x_i^Tx_i - 2x_i^TN_i w_i^T + w_i N_i^T N_i w_i^T)

由于第一项和W无关，所以目标函数等价于

J (W) = \sum i = 1 N (- 2 x T i N i w T i + w i N T i N i w T i) . (4)

构建拉格朗日函数

L (W, λ) = \sum i = 1 N (- 2 x T i N i w T i + w i N T i N i w T i) + \sum i = 1 N λ i (w i 1 - 1),

求导得到：

\partial L \partial w i = - 2 x T i N i + 2 w i N T i N i + λ i 1 T = 0, (5)

\partial L \partial λ i = (w i 1 - 1) = 0 . (6)

令

C i = N T i N i \in R K \times K . (7)

由公式(5)可以得到

w i = (x T i N i - 1 2 λ i 1 T) (C i) - 1, (8)

于是有

w i 1 = (x T i N i - 1 2 λ i 1 T) ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \sum_m = 1 K (C i) - 1_1 m \sum_m = 1 K (C i) - 1_2 m ⋮ \sum_m = 1 K (C i) - 1_K m ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = x T i N i ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \sum_m = 1 K (C i) - 1_1 m \sum_m = 1 K (C i) - 1_2 m ⋮ \sum_m = 1 K (C i) - 1_K m ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ - 1 2 λ i 1 T ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \sum_m = 1 K (C i) - 1_1 m \sum_m = 1 K (C i) - 1_2 m ⋮ \sum_m = 1 K (C i) - 1_K m ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = [x T i η i 1, x T i η i 2, \dots, x T i η i K] ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \sum_m = 1 K (C i) - 1_1 m \sum_m = 1 K (C i) - 1_2 m ⋮ \sum_m = 1 K (C i) - 1_K m ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ - 1 2 λ i \sum n = 1 K \sum_m = 1 K (C i) - 1_n m = \sum n = 1 K x T i η i n \sum_m = 1 K (C i) - 1_n m - 1 2 λ i \sum n = 1 K \sum_m = 1 K (C i) - 1_n m = \sum n = 1 K \sum_m = 1 K x T i η i n (C i) - 1_n m - 1 2 λ i \sum n = 1 K \sum_m = 1 K (C i) - 1_n m,

\begin{align} w_i 1 &= (x_i^T N_i - \frac{1}{2}\lambda_i 1^T)\begin{pmatrix} \sum\_{m=1}^K (C^i)^{-1}\_{1m} \\\\ \sum\_{m=1}^K (C^i)^{-1}\_{2m} \\\\ \vdots \\\\ \sum\_{m=1}^K (C^i)^{-1}\_{Km} \end{pmatrix} \\\\ &=x_i^T N_i \begin{pmatrix} \sum\_{m=1}^K (C^i)^{-1}\_{1m} \\\\ \sum\_{m=1}^K (C^i)^{-1}\_{2m} \\\\ \vdots \\\\ \sum\_{m=1}^K (C^i)^{-1}\_{Km} \end{pmatrix} - \frac{1}{2}\lambda_i 1^T \begin{pmatrix} \sum\_{m=1}^K (C^i)^{-1}\_{1m} \\\\ \sum\_{m=1}^K (C^i)^{-1}\_{2m} \\\\ \vdots \\\\ \sum\_{m=1}^K (C^i)^{-1}\_{Km} \end{pmatrix} \\\\ & = [x_i^T\eta_{i1}, x_i^T\eta_{i2}, \cdots, x_i^T\eta_{iK}] \begin{pmatrix} \sum\_{m=1}^K (C^i)^{-1}\_{1m} \\\\ \sum\_{m=1}^K (C^i)^{-1}\_{2m} \\\\ \vdots \\\\ \sum\_{m=1}^K (C^i)^{-1}\_{Km} \end{pmatrix} - \frac{1}{2}\lambda_i \sum_{n=1}^K \sum\_{m=1}^K (C^i)^{-1}\_{nm} \\\\ & = \sum_{n=1}^K x_i^T\eta_{in} \sum\_{m=1}^K (C^i)^{-1}\_{nm} - \frac{1}{2}\lambda_i \sum_{n=1}^K \sum\_{m=1}^K (C^i)^{-1}\_{nm} \\\\ & = \sum_{n=1}^K \sum\_{m=1}^K x_i^T\eta_{in} (C^i)^{-1}\_{nm} - \frac{1}{2}\lambda_i \sum_{n=1}^K \sum\_{m=1}^K (C^i)^{-1}\_{nm} \\\\

代入(6)中，得到

\sum n = 1 K \sum_m = 1 K x T i η i n (C i) - 1_n m - 1 2 λ i \sum n = 1 K \sum_m = 1 K (C i) - 1_n m = 1,

所以

λ i = 2 ( \sum K n = 1 \sum _ m = 1 K x T i η i n ( C i ) - 1 _ n m - 1 ) \sum K n = 1 \sum _ m = 1 K ( C i ) - 1 _ n m,

代入公式(7)中得到

w i = (x T i N i - ( 1 - \sum K n = 1 \sum _ m = 1 K x T i η i n ( C i ) - 1 _ n m ) \sum K n = 1 \sum _ m = 1 K ( C i ) - 1 _ n m 1 T) (C i) - 1 . (9)

根据公式(9)得到所有的wi。

方法二

J (W) = \sum i = 1 N | | x i - \sum k = 1 K w i k η i k | | 2 = \sum i = 1 N | | \sum k = 1 K w i k x i - \sum k = 1 K w i k η i k | | 2 = \sum i = 1 N | | \sum k = 1 K w i k (x i - η i k) | | 2 = \sum i = 1 N | | (X i - N i) w T i | | 2 = \sum i = 1 N ((X i - N i) w T i) T ((X i - N i) w T i) = \sum i = 1 N w i (X i - N i) T (X i - N i) w T i, (10)

\begin{align} J(W) &= \sum_{i=1}^N ||x_i-\sum_{k=1}^K w_{ik}\eta_{ik}||^2 \\\\ & = \sum_{i=1}^N ||\sum_{k=1}^K w_{ik} x_i-\sum_{k=1}^K w_{ik}\eta_{ik}||^2 \\\\ & = \sum_{i=1}^N ||\sum_{k=1}^K w_{ik} (x_i-\eta_{ik})||^2 \\\\ & = \sum_{i=1}^N || (X_i-N_i)w_i^T||^2 \\\\ & = \sum_{i=1}^N ((X_i-N_i)w_i^T)^T((X_i-N_i)w_i^T) \\\\ & = \sum_{i=1}^N w_i(X_i-N_i)^T(X_i-N_i)w_i^T

其中Xi=[xi,⋯,xi]∈Rd×K。

构建拉格朗日函数

L (W, λ) = \sum i = 1 N w i (X i - N i) T (X i - N i) w T i + \sum i = 1 N λ i (w i 1 - 1),

求导得到

\partial L \partial w i = 2 w i (X i - N i) T (X i - N i) + λ i 1 T = 0, (11)

\partial L \partial λ i = (w i 1 - 1) = 0 . (12)

令

S = (X i - N i) T (X i - N i) . (13)

可以得到

w i = - 1 2 λ i 1 T S - 1, (14)

代入公式(12)中，得到

1 2 λ i 1 T S - 1 1 - 1 = 0,

1TS−11

代入公式(14)得到

w i = - 1 T S - 1 1 T S - 1 1 . (15)

暂时还没有证明(9)和(15)是否等价，留作以后的习题吧。

低维空间中的优化问题

令Y=[y1,y2,⋯,yN]∈RN×N行元素。优化问题(3)的目标函数可以化简成：

J (Y) = \sum i = 1 N | | y i - \sum j = 1 N w i j y j | | 2 = \sum i = 1 N | | y i - Y w T i | | 2 = \sum i = 1 N (y i - Y w T i) T (y i - Y w T i) = \sum i = 1 N (y T i y i - 2 y T i Y w T i + w i Y T Y w T i) = \sum i = 1 N y T i y i - 2 \sum i = 1 N y T i Y w T i + \sum i = 1 N w i Y T Y w T i = \sum i = 1 N y T i y i - 2 \sum i = 1 N [y T i y 1, y T i y 2, \dots, y T i y N] ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ w i 1 w i 2 ⋮ w i N ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ + \sum i = 1 N (w i 1, w i 2, \dots, w i N) ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ y T 1 y T 2 ⋮ y T N ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ (y 1, y 2, \dots, y N) ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ w i 1 w i 2 ⋮ w i N ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = \sum i = 1 N y T i y i - 2 \sum i = 1 N \sum j = 1 N y T i y j w i j + \sum i = 1 N \sum m = 1 N w i m y T m \sum n = 1 N w i n y n = \sum i = 1 N y T i y i - 2 \sum i = 1 N \sum j = 1 N y T i y j w i j + \sum i = 1 N \sum m = 1 N \sum n = 1 N w i m w i n y T m y n = \sum i = 1 N y T i y i - 2 \sum i = 1 N \sum j = 1 N y T i y j w i j + \sum k = 1 N \sum i = 1 N \sum j = 1 N w k i w k j y T i y j = \sum i = 1 N y T i y i - \sum i = 1 N \sum j = 1 N 2 w i j y T i y j + \sum i = 1 N \sum j = 1 N (\sum k = 1 N w k i w k j) y T i y j, (16)

\begin{align} J(Y)&= \sum_{i=1}^N ||y_i-\sum_{j=1}^N w_{ij} y_j||^2 \\\\ & = \sum_{i=1}^N ||y_i- Yw_i^T||^2\\\\ & = \sum_{i=1}^N(y_i- Yw_i^T)^T(y_i- Yw_i^T) \\\\ &= \sum_{i=1}^N(y_i^Ty_i - 2y_i^TYw_i^T+w_iY^TYw_i^T) \\\\ &= \sum_{i=1}^N y_i^Ty_i -2 \sum_{i=1}^N y_i^TYw_i^T + \sum_{i=1}^N w_iY^TYw_i^T \\\\ &=\sum_{i=1}^N y_i^Ty_i - 2 \sum_{i=1}^N [y_i^Ty_1, y_i^Ty_2, \cdots, y_i^Ty_N] \begin{pmatrix} w_{i1} \\\\ w_{i2} \\\\ \vdots \\\\ w_{iN}\end{pmatrix} \\\\ & \quad + \sum_{i=1}^N \begin{pmatrix} w_{i1}, w_{i2}, \cdots, w_{iN} \end{pmatrix} \begin{pmatrix} y_1^T \\\\ y_2^T \\\\ \vdots \\\\ y_N^T \end{pmatrix} \begin{pmatrix} y_1,y_2, \cdots,y_N \end{pmatrix}\begin{pmatrix} w_{i1}\\\\w_{i2}\\\\ \vdots\\\\ w_{iN} \end{pmatrix} \\\\ &= \sum_{i=1}^N y_i^Ty_i - 2 \sum_{i=1}^N \sum_{j=1}^N y_i^T y_j w_{ij} + \sum_{i=1}^N \sum_{m=1}^N w_{im}y_m^T \sum_{n=1}^N w_{in}y_n \\\\ &= \sum_{i=1}^N y_i^Ty_i - 2 \sum_{i=1}^N \sum_{j=1}^N y_i^T y_j w_{ij} + \sum_{i=1}^N \sum_{m=1}^N \sum_{n=1}^N w_{im} w_{in} y_m^T y_n \\\\ &= \sum_{i=1}^N y_i^Ty_i - 2 \sum_{i=1}^N \sum_{j=1}^N y_i^T y_j w_{ij} + \sum_{k=1}^N \sum_{i=1}^N \sum_{j=1}^N w_{ki} w_{kj} y_i^T y_j \\\\ &= \sum_{i=1}^N y_i^Ty_i - \sum_{i=1}^N \sum_{j=1}^N 2 w_{ij} y_i^T y_j + \sum_{i=1}^N \sum_{j=1}^N \left( \sum_{k=1}^N w_{ki} w_{kj} \right) y_i^T y_j \\\\
令

δ i j = ⎧ ⎩ ⎨ 1, i f i = j 0, i f i \neq j,

\delta_{ij}=\begin{cases} 1,\quad if \quad i=j \\\\ 0, \quad if \quad i \neq j
令

M i j = δ i j - 2 w i j + \sum k = 1 N w k i w k j, (17)

则(16)可以写成

J (Y) = \sum i = 1 N \sum j = 1 N M i j y T i y j . (18)

通过展开进行矩阵相乘，可以证明

J (Y) = \sum i = 1 N \sum j = 1 N M i j y T i y j = t r (Y M Y T) .

令Z=YT，那么

J (Z) = t r (Z T M Z) . (19)

优化问题(3)的约束条件等价于

1 N Y Y T = I,

用

于是优化问题(3)现在变成

min Z s . t . t r (Z T M Z), 1 N Z T Z = I (21)

\begin{align} \min_Z & \quad tr(Z^TMZ), \\\\ s.t. & \quad \frac{1}{N}Z^TZ=I

拉格朗日乘子法，可以得到这个优化问题的最优解满足

M z i = λ i z i, (22)

即最优解肯定是M

又因为约束条件1NZTZ=I\frac{1}{N}Z^TZ=I

所以

J (Z) = N 2 \sum i = 1 N λ i,

所以为了最小化

J(Z)。

综上，M。

LLE算法总结

算法流程

步骤一
首先根据欧氏距离或者其他度量标准得到每个样本的K。

步骤二
根据公式(7)求出Ci。代入(9)中，得到根据每个样本的重构系数。

步骤三
把步骤二中的权重系数重新构建成稀疏矩阵W。

算法优缺点

优点

算法中只涉及矩阵运算，容易实现；
低维空间维度变化时，不需要重新运行LLE，只要在原有低维空间的基础上增加或者减去维度；

缺点

数据流形不能是闭合结构，否则LLE不再适用

疑问

优化问题(18)怎么应用拉格朗日乘子法？
自己尝试推导了一下，发现得到的方程组非常繁琐，不知道怎么化简。

参考

[1] Nonlinear dimensionality reduction by locally linear embedding. Sam T. Roweis and Lawrence K. Saul. 2000.
[2] 降维打击之LLE算法
[3] 机器学习降维算法三：LLE (Locally Linear Embedding) 局部线性嵌入

LLE（locally linear embedding）原理介绍

LLE原理

两个优化问题的求解

高维空间中的优化问题

方法一

方法二

低维空间中的优化问题

LLE算法总结

算法流程

算法优缺点

疑问

参考

公司刚入职了一名 Java 中级开发，短短 4 行代码居然凑齐了 3 个 bug！我哭了~~

Nginx R31 doc-13-Limiting Access to Proxied HTTP Resources 访问限流

中外程序员到底有啥区别？

Python数据分析与挖掘实战（5章）

python包：pandas

C++文件/流

一、什么是Docker

二、Docker 组件

揹包九讲一 01揹包

今天！通义灵码在北京、成都、杭州三城开讲啦

LLE（locally linear embedding）原理介紹

method_LLE(Locally linear embdding)

機器學習中的最優化方法進階

method_LPP(Locality preserving projections)

algo_KNN(k-nearest neighbor)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結