主成分分析PCA

本文轉自：

主成分分析PCA

降維的必要性：

　　1.多重共線性–預測變量之間相互關聯。多重共線性會導致解空間的不穩定，從而可能導致結果的不連貫。

　　2.高維空間本身具有稀疏性。一維正態分佈有68%的值落於正負標準差之間，而在十維空間上只有0.02%。

　　3.過多的變量會妨礙查找規律的建立。

　　4.僅在變量層面上分析可能會忽略變量之間的潛在聯繫。例如幾個預測變量可能落入僅反映數據某一方面特徵的一個組內。

降維的目的：

　　1.減少預測變量的個數

　　2.確保這些變量是相互獨立的

　　3.提供一個框架來解釋結果

　　降維的方法有：主成分分析、因子分析、用戶自定義複合等。

　　PCA（Principal Component Analysis）不僅僅是對高維數據進行降維，更重要的是經過降維去除了噪聲，發現了數據中的模式。

　　PCA把原先的n個特徵用數目更少的m個特徵取代，新特徵是舊特徵的線性組合，這些線性組合最大化樣本方差，儘量使新的m個特徵互不相關。從舊特徵到新特徵的映射捕獲數據中的固有變異性。
　　PCA把原先的n個特徵用數目更少的m個特徵取代，新特徵是舊特徵的線性組合，這些線性組合最大化樣本方差，儘量使新的m個特徵互不相關。從舊特徵到新特徵的映射捕獲數據中的固有變異性。

預備知識

樣本X和樣本Y的協方差(Covariance)：
　　　　　　　

　　協方差爲正時說明X和Y是正相關關係，協方差爲負時X和Y是負相關關係，協方差爲0時X和Y相互獨立。
Cov(X,X)就是X的方差(Variance).

　　當樣本是n維數據時，它們的協方差實際上是協方差矩陣（對稱方陣），方陣的邊長是。比如對於3維數據(x,y,z)，計算它的協方差就是：
　　　　　　

　　若，則稱是A的特徵值，X是對應的特徵向量。實際上可以這樣理解：矩陣A作用在它的特徵向量X上，僅僅使得X的長度發生了變化，縮放比例就是相應的特徵值。

　　當A是n階可逆矩陣時，A與P−1AP 相似，相似矩陣具有相同的特徵值。

特別地，當A是對稱矩陣時，A的奇異值等於A的特徵值，存在正交矩陣Q（Q−1=QT），使得：
　　　　　　　　　

對A進行奇異值分解就能求出所有特徵值和Q矩陣。

， D是由特徵值組成的對角矩陣

由特徵值和特徵向量的定義知，Q的列向量就是A的特徵向量。

Jama包

　　Jama包是用於基本線性代數運算的java包，提供矩陣的cholesky分解、LUD分解、QR分解、奇異值分解，以及PCA中要用到的特徵值分解，此外可以計算矩陣的乘除法、矩陣的範數和條件數、解線性方程組等。

PCA過程

　　1.特徵中心化。即每一維的數據都減去該維的均值。這裏的“維”指的就是一個特徵（或屬性），變換之後每一維的均值都變成了0。
舉例
（Ps:因爲不知道如何將代碼段摺疊，所以原始數據就不貼了，詳細的可以參考原始博文）
主要步驟爲：

原始數據是150×4的矩陣A。
每一列減去該列均值後，得到矩陣B。
2.計算B的協方差矩陣C。
計算協方差矩陣C的特徵值和特徵向量。
C=V*S*V-1
S=
4.2248414 　　　　0 　　　　　　0 　　　　　　0
0 　　　　　　　　 0.24224437 　0 　　　　　 0
0 　　　　　　　　 0 　　　　　　0.078524387 0
0 　　　　　　　　 0 　　　　　　0 　　　　　　 0.023681839
```
V=

0.36158919 　　0.65654382 　　-0.58100304 　　0.3172364 
-0.082268924 　　 0.72970845 　　 0.596429220 　　    -0.3240827 
0.85657212　　-0.17576972 0.　　072535217 　　 -0.47971643 
0.35884438 　　 -0.074704743 　　 0.54904125 　　 0.75113489
```
選取大的特徵值對應的特徵向量，得到新的數據集
　　特徵值是由大到小排列的，前兩個特徵值的和已經超過了所有特徵值之和的97%。我們取前兩個特徵值對應的特徵向量，得到一個4×2的矩陣M。令A′150×2=A150×4×M4×2 ，這樣我們就把150×4的數據A集映射成了150×2的數據集A’，特徵由4個減到了2個。
　　
　　每個樣本正好是二維的，畫在平面座標系中如圖：
　　
　　鷲尾花數據集共分爲3類花（前50個樣本爲一類，中間50個樣本爲一類，後50個樣本爲一類），從上圖可以看到把數據集映射到2維後分類會更容易進行，直觀上看已經是線性可分的了，下面我們用自組織映射網絡對其進行聚類。

　　當然我們已知了有3類，所以在設計SOFM網絡時，我把競爭層節點數設爲3，此時的聚類結果是前50個樣本聚爲一類，後100個樣本聚爲一類。當把競爭層節點數改爲4時，僅第2類中的3個樣本被誤分到了第3類中，整體精度達98%！

#include<iostream>
#include<fstream>
#include<set>
#include<cstdlib>
#include<vector>
#include<cmath>
#include<ctime>

using namespace std;

const int sample_num=150;      //鷲尾花樣本個數
const int class_num=4;      //指定聚類的數目
int iteration_ceil;      //迭代的上限
vector<pair<double,double> > flowers(sample_num);      //樣本數據
vector<vector<double> > weight(class_num);   //權向量
const double prime_eta=0.7;     //初始學習率

/*向量模長歸一化*/
void normalize(vector<double> &vec){
    double sum=0.0;
    for(int i=0;i<vec.size();++i)
        sum+=pow(vec[i],2);
    sum=sqrt(sum);
    for(int i=0;i<vec.size();++i)
        vec[i]/=sum;
}

/*從文件讀入鷲尾花樣本數據*/
void init_sample(string filename){
    ifstream ifs(filename.c_str());
    if(!ifs){
        cerr<<"open data file failed."<<endl;
        exit(1);
    }
    for(int i=0;i<sample_num;++i){
        vector<double> X(2);
        ifs>>X[0]>>X[1];
        normalize(X);       //輸入向量模長歸一化
        flowers[i]=make_pair(X[0],X[1]);
    }
    ifs.close();
}

/*初始化權值*/
void init_weight(){
    srand(time(0));
    for(int i=0;i<weight.size();++i){
        vector<double> ele(2);
        ele[0]=rand()/(double)RAND_MAX;
        ele[1]=rand()/(double)RAND_MAX;
        normalize(ele);     //權值向量模長歸一化
        weight[i]=ele;
    }
}

/*根據輸入，選擇獲勝者*/
int pick_winner(double x1,double x2){
    int rect=-1;
    double max=0.0;
    for(int i=0;i<weight.size();++i){
        double product=x1*weight[i][0]+x2*weight[i][1];
        if(product>max){
            max=product;
            rect=i;
        }
    }
    return rect;
}

int main(int argc,char *argv[]){
    cout<<"input iteration count"<<endl;
    int count;      //每個樣本迭代的次數
    cin>>count;
    cout<<"input data file name"<<endl;
    string filename;
    cin>>filename;
    iteration_ceil=count*sample_num;
    init_sample(filename);
    init_weight();

    double eta=prime_eta;
    double gradient1=-1*9*prime_eta/iteration_ceil;
    double gradient2=-1*prime_eta/(9*iteration_ceil);
    double b1=prime_eta;
    double b2=prime_eta/9;
    for(int iteration=0;iteration<iteration_ceil;++iteration){
        int flower_index=iteration%sample_num;
        double x1=flowers[flower_index].first;
        double x2=flowers[flower_index].second;
        int winner=pick_winner(x1,x2);
        /*更改獲勝者的權值*/
        weight[winner][0]+=eta*(x1-weight[winner][0]);
        weight[winner][1]+=eta*(x2-weight[winner][1]);
        /*權向量歸一化*/
        for(int i=0;i<weight.size();++i){
            vector<double> W(2);
            W[0]=weight[i][0];
            W[1]=weight[i][1];
            normalize(W);
            weight[i][0]=W[0];
            weight[i][1]=W[1];
        }
        /*更新學習率*/
        if(iteration<0.1*iteration_ceil){   //在前10%的迭代中，學習率線性下降到原來的10%
            eta=gradient1*iteration+b1;
        }
        else{       //後90%的迭代中線性降低到0
            eta=gradient2*iteration+b2;
        }
    }

    for(int i=0;i<sample_num;++i){
        double x1=flowers[i].first;
        double x2=flowers[i].second;
        int winner=pick_winner(x1,x2);
        cout<<i+1<<"\t"<<winner+1<<endl;
    }
    return 0;
}

　　輸出聚類結果：（原始數據，中間歸一化數據，及結果輸出參見原始博文）
原文來自:博客園（華夏35度）http://www.cnblogs.com/zhangchaoyang 作者:Orisun

QiYe005

發佈了9 篇原創文章 · 獲贊 15 · 訪問量 6萬+

私信關注

主成分分析PCA

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

編程練習：動態規劃0-1揹包問題

編程練習：判斷點是否在矩形內

用MATLAB做聚類分析時非常有用的自定義距離函數和標準化函數

例說Hausdorff距離

meanshift算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結