在線的PCA算法

原創

2020-07-07 15:50

1、離線PCA

PCA是一種最基本的降維算法，在機器學習中被廣泛使用。它是一種線性降維，其基本思想是：

對大量的數據，找到其主成分，主成分的個數小於原始數據的維度，然後將原始數據投影到主成分張成的空間中，

可減小數據的維度。

從上面的描述我們可以總結出：

1. 原始數據(x1,x2,x3,…,xn)（列向量）是一個n維的數據，它是在n個基(1,0,0,…,0)，(0,1,0,…,0)，… ，(0,0,…0,1)下的表示。

2. 我們要找到k個主成分，每個主成分的維度是n，組成一個n×k的矩陣M，即每個主成分是M的一列。

3. 將原始數據投影到k個主成分張成的空間中，即可得到降維後的k維度的數據(x’1,x’2,x’3,…,x’k)（列向量），即(x’1,x’2,x’3,…,x’k)= (x1,x2,x3,…,xn) M。

可以看到，PCA的主要工作是找到主成分。可是如何尋找呢？下圖是一個簡單例子：

原始的數據落在f_1，f_2爲基的空間中，顯然數據的維度爲2。要對數據進行降維，只能降到1維，即我們只需要找到一個主成分。圖中，f’_1和f’_2是兩個主成分的候選，若選擇f’_2作爲主成分，我們把數據點投影到f’_2代表的線上後，數據之間的間隔將非常小，有些數據甚至會重合，這對於區分數據是不利的，因此f’_2並不是一個好的主成分。而f’_1這個主成分就相對好得多，數據投影到f’_1後，依然可以被區分。而“被區分”怎麼樣才能在數學上被表示呢？就是要求投影（降維）後的數據方差最大。

本文主要講述在線PCA算法，基本的PCA算法請參考http://blog.codinglabs.org/articles/pca-tutorial.html。

我們在這裏只是簡單地總結一下離線PCA。假設數據矩陣爲X，其中X的每一行是一個數據，cov(X)是X的協方差矩陣，則離線PCA通過優化一下問題來尋找主成分M：

通過一些推導，可以通過解下列特徵問題：

其中m_j是M的某一列，可以看到，要求解的主成分即爲cov(X)的特徵向量，對應着特徵值λ_j。

2、在線PCA

上述離線PCA在大規模機器學習中，有一個問題：我們需要首先收集所有的數據，形成數據矩陣X，計算協方差矩陣cov(X)，如果數據非常大，或者是以流的形式出現，我們就無法收集所有數據，那離線PCA算法也自然無法應用。因此，我們需要在線的PCA算法。

爲此，我們查閱資料，發現一種在線的PCA算法[1]。我們打算使用spark streaming進行實現。

首先，假設我們已經利用n個數據x_1,x_2,…,x_n獲得了U=[u_j]，j=1,…,p等p個主成分，其對應的特徵值集合爲Λ。每個數據降維後的表示爲a_i，其維度爲k，降維前數據爲m維。

當第n+1個數據到來時，我們首先計算所有數據的均值

然後計算第n+1個數據在當前的主成分下表示的誤差：

並將其歸一化：

新的主成分矩陣U’，爲m×(k+1)的矩陣，即主成分相比k多了一個。它等於

其中Ｒ是(k+1)×(k+1)的一個旋轉矩陣，它可以由下面的特徵問題得到：

其中Λ’是新的特徵值集合，並且D等於：

由此，我們得到新的主成分和新的特徵值，其個數比原來的個數多1，如果我們爲了保持主成分的個數不變，可以選擇捨棄一個最小的特徵值和其對應的特徵向量。

3、在線PCA和離線PCA的運算量比較

如果使用離線的PCA來得到新到達的數據x_n後的特徵向量，我們將重新計算cov(X)的特徵向量，cov(X)的規模是m×m，而使用上述在線的PCA算法，需要求D的特徵向量，D的規模是(k+1)×(k+1)，注意m>>k，所以在線PCA的算法運算量要小很多。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

PyQt4在TextEdit控件中創建右鍵菜單

今天開發界面遇到一個問題，想將textedit的顯示內容及時清空，但是由於系統自帶的菜單沒有清空功能，就需要自己添加該部分內容。查了很多資料：大致分爲兩種方法： 1.一種是修改父窗口Widget的menu方法，添加整體的右鍵菜單，然後

2020-06-21 09:27:18

中期工作總結和下期計劃

經過8月8號和騰訊導師的交流，導師站在用戶和解決實際問題的角度指出了軟件應該包含的功能，而個人所做的更像是一個理想化的軟件，試圖包含任何情況，卻忽略了用戶關心的問題，以及忽略了實際問題的複雜性。對於中期之前完成的部分，具備了檢查網絡狀況

2020-06-21 09:27:18

項目階段總結20140824

過去的一週主要是設計網絡探測工具的界面，採用了的pyQt4+python2.7+eric開發；在有python代碼結合Qt界面開發時主要遇到的問題有： 1.python的str轉化爲Qt的QString類型，對於搜索的時候方法有區別：

2020-06-21 03:27:12

PyQT實現菜單中的複製，全選和清空的功能

PyQt的文本操作的繼承關係： QTextBrowser ( QtGui.QTextEdit) 其中QTextEdit具有的功能函數： copy() 複製 selectAll（）全選 clear() 清空雖然通過光標選

2020-06-21 02:03:52

機器學習 | 特徵工程 —— 降維：PCA（主成分分析）

1.數學原理 1.1.【參考博客】 https://www.cnblogs.com/xinyuyang/p/11178676.html 1.2.【精簡描述】 PCA實際上是將含有冗餘特徵的高維空間數據集投影到地位空間中，在保證信息量的同

2020-07-07 23:48:07

【降維方法】- 主成分分析（PCA）

推薦一篇絕對好的文章：理解PCA的數學原理首先PCA設計嚴格的數學推導證明！尤其設計矩陣的知識比較多，這裏會簡要地記錄自己學習過程中覺得很重要的東西，具體的細節可以看我上面推薦的一篇文章。簡介 PCA（Principle C

2020-07-05 01:13:40

day 8.1 PCA人臉識別重要屬性components_

from sklearn.datasets import fetch_lfw_people from sklearn.decomposition import PCA import matplotlib.pyplot as plt im

口袋里的小小哥

2020-07-03 03:13:47

day 8.0 降維算法 PCA

# PCA和SVD from sklearn.decomposition import PCA # PCA(n_components=None # , copy=True # , whiten=False # ,

口袋里的小小哥

2020-07-03 03:13:47

生成模型初探：從PCA到AE

生成模型初探：從PCA到AE 人類較機器蘊含智能，其中最重要的是一種創造性。無論是作詩繪畫還是音樂，藝術家都得在一定規則的限定下帶着腳鐐舞蹈，但是他們卻可以跳出少數幾個機械的規則，創造出無窮無盡的作品，這便是機械難以做到的事情。傳統的

2020-06-30 01:10:39

基於PCA的降維中，進行特徵值分解和SVD分解相關筆記

降維原理原矩陣X，變換矩陣W，變換後，進入新空間下的WTXW^TXWTX。想要進入新空間時，各特徵之間的差異大分得開，也就是新空間下矩陣的方差越大越好，即WTXXTWW^TXX^TWWTXXTW越大越好，所以有： max⁡wt

2020-06-29 11:29:48

機器學習-------特徵工程（三）

數據的降維：簡單來說就是講特徵數量減少。去掉不需要的特徵。常用方式：特徵選擇主成分分析特徵選擇：主要方法：Filter(過濾式):VarianceThreshold（方差） Embedded

2020-06-27 23:33:11

Principle Contents Analysis主成分分析法和 Support Vector Machine支撐向量機

PCA PCA是一種數學方法，那他的好處都有啥???：降維降噪可視化 PCA的操作概括起來就是降維的同時讓樣本間間距最大——即使降維的影響最小化，用方差能很好解決這個問題。（我好像沒有介紹就直接開始講做法了是不是有點不妥

2020-06-27 13:34:05

scikit-learn：降維算法PCA和SVD

class sklearn.decomposition.PCA ( n_components=None, copy=True, whiten=False, svd_solve

2020-06-21 22:59:13

PCA和LDA簡介

PCA: PCA(Principal Component Analysis)，即主成分分析方法，是一種使用最廣泛的數據降維算法，可用於提取數據的主要特徵分量。目的: 在高維數據中找方差最大的方向, 將n維特徵映射到k維上(k <

星落秋风五丈原

2020-06-21 13:17:56

PCA（主成分分析）--- 從最小平方誤差角度分析

本文承接上一篇文章，描述瞭如何衝最小距離平方誤差的角度來理解PCA的構造過程。摘至：http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020216.html 作者：Jer

2020-06-21 09:21:50

24小時熱門文章

最新文章

最新評論文章