無監督學習(unsupervised learning) 1.線性方法
1 unspervised learning
- Reduction(化繁爲簡):Clustering & Dimension,只有輸入
- Generation(無中生有):只有輸出
2 Clustering
- How many clusters?
K-Means:
- 將
X={x1,x2,…,xN} 聚成K類 - 隨機初始化聚類中心
ci,i=1,2,…,K - 對每一個
xn ,計算它離每一個聚類中心的距離bin ,它離的最近的即爲它的類 - 更新聚類中心:
ci=∑xnbinxn/∑xnbin - 重複以上幾步
- 將
Hierarchical Agglomerative Clustering (HAC)
- step 1:build a tree,兩兩算相似度,相似度最大的兩個合併,重複……
- step 2:pick a threshold,切分K類
3 dimension reduction
- Distributed Representation:每個對象使用一個向量表示,而不僅僅是一個類
- MNIST:描述一個數字不需要28*28的向量
- Feature Selection:
Principle component analysis(PCA):
z=Wx ,線性降維- 投影得到的z越大越好
- 投影到d維,
w1,…,wd 相互正交,W=[w1,…,wd] 爲正交矩陣 z1=w1x,z¯1=w1x¯ Var(z1)=∑z1(z1−z¯1)2=wT1∑(x−x¯)(x−x¯)Tw1=wT1Cov(x)w1=wT1Sw1 - 找到
w1 使得wT1Sw1 達到最大,且wT1w1=1 - 使用Lagrange multiplier:
g(w1)=wT1Sw1−α(wT1w1−1) ,求偏導數得Sw1=αw1 ,w1 即爲S的特徵向量。wT1Sw1=α ,α 即爲S的最大的特徵值。 - 找到
w1 使得wT1Sw1 達到最大,且wT1w1=1,wT2w1=0 - ……解得
β=0 ,w2 是第二大的特徵值對應的特徵向量。 - ……
cov(z)=WSWT=[λ1e1,…,λKeK]
4 PCA——another point of view
x−x¯=c1u1+…+cKuK=x^ - Reconstruction error:
L=min{u1,…,uK}=∑||(x−x¯)−(∑k=1Kckuk)||2 - SVD分解:
Xm∗n=Um∗k∑k∗kVk∗n - LDA:考慮labelled data的降維(監督)
- PCA的弱點:1、unsupervised;2、linear
- 需要多少principle components?
計算每個特徵值的ratio
5 Non-negative matrix factorization
- NMF非負矩陣分解,所有的參數和component均爲非負
- minimize error:
XM∗N≈AM∗KBK∗N
L=∑(i,j)(rirj−nij)2 ,不考慮缺失的數據- 用於推薦系統(Recommender systems)
→L=∑(i,j)(rirj+bi+bj−nij)2 - 應用:Latent Semantic Analysis 潛語義分析LSA
- 應用:Latent Dirichlet allocation 主題模型LDA