主要的方法有屬性(特徵)選擇，線性映射和非線性映射方法三大類。

一、屬性(特徵)選擇

缺失值比率：如果數據集的缺失值太多，我們可以用這種方法減少變量數。

低方差濾波：這個方法可以從數據集中識別和刪除常量變量，方差小的變量對目標變量影響不大，所以可以放心刪去。

高相關濾波：具有高相關性的一對變量會增加數據集中的多重共線性，所以用這種方法刪去其中一個是有必要的。
隨機森林
反向特徵消除
前向特徵選擇

二、線性映射

2.1PCA
主成分分析(PCA) 是最常用的線性降維方法，它的目標是通過某種線性投影，將高維的數據映射到低維的空間中表示，並期望在所投影的維度上數據的方差最大(選取特徵值最高的k個特徵向量來表示一個矩陣)，以此使用較少的數據維度，同時保留住較多的原數據點的特性。是將原空間變換到特徵向量空間內，數學表示爲AX = γX。

另一種理解思路：求特徵向量的關係，就是把矩陣A所代表的空間，進行正交分解，使得A的向量集合可以表示爲每個向量a在各個特徵向量上面的投影長度。例如A是mn的矩陣,n>m，那麼特徵向量就是m個(因爲秩最大是m)，n個行向量在每個特徵向量E上面有投影，其特徵值v就是權重。那麼每個行向量現在就可以寫爲Vn=(E1v1n,E2v2n…Emvmn)，矩陣變成了方陣。如果矩陣的秩更小，矩陣的存儲還可以壓縮。再: 由於這些投影的大小代表了A在特徵空間各個分量的投影，那麼我們可以使用最小2乘法，求出投影能量最大的那些分量，而把剩下的分量去掉，這樣最大限度地保存了矩陣代表的信息，同時可以大大降低矩陣需要存儲的維度，簡稱PCA方法。
幾何層面理解pca
特徵向量特徵值幾何意義

缺點：PCA有天生的缺點，就是線性矢量的相關性考察有"平移無關性"優點的同時，也完全忽略了，2維圖形中，矢量分量之間的順序是有意義的，順序不同可以代表完全不同的信息。還有，就是圖像B必須是A的某種伸縮(由特徵向量空間決定的)，才能被很好的投影到A的特徵向量空間裏面，如果B包含了A中的某種旋轉因素，那麼PCA可以徹底失效。所以實際應用中PCA的方法做圖像識別，識別率並不高，它要求圖像有某種嚴格的方向對齊和歸一化。所以PCA一般不用來做直接的特徵提取而是用來做特徵矩陣的降維。當然，降維的結果用於分類並不理想，我們可以進一步做最小二承法拉開類間距離的Fisher變換。但是Fisher變換會引入新的弱點，那就是對於訓練類別的數據變得更敏感了，分類效果上升的代價是通用性下降，當類型數量急劇膨脹的時候，分類效果的函數仍然是直線下降的----但是還是比直接PCA的分類效果好得多。
　　
　　1. PCA將所有的樣本（特徵向量集合）作爲一個整體對待，去尋找一個均方誤差最小意義下的最優線性映射投影，而忽略了類別屬性，而它所忽略的投影方向有可能剛好包含了重要的可分性信息。
　　
　　2. 在對x進行預處理時，第一步需要對其中心化。中心化後，如果數據的尺度不統一，還需要標準化。通常的標準化方式是除以標準差。這裏可能就出出現一個問題，比如標準差很小，接近於零，尤其是被噪聲污染的數據，噪聲的標準差對數據的放大作用更顯著，而沒被噪聲污染的數據其在標準化的過程中放大作用較小。所以在對數據完全無知的情況下，PCA變換並不能得到較好的保留數據信息。
　　
3.變換矩陣是被限制爲隨軸心（維度）變化的，如變換矩陣W是各列之間歸一化正交的，各行不是正交的。

4.對降維最終得到的數目，也就是潛在的隱變量的數目，不能很好的估計。對潛在的因變量不能很好的估計這一點，對PCA降維的結果將產生重大影響。

5.PCA原理主要是爲了消除變量之間的相關性，並且假設這種相關性是線性的，對於非線性的依賴關係則不能得到很好的結果。

PCA假設變量服從高斯分佈，當變量不服從高斯分佈（如均勻分佈）時，會發生尺度縮放與旋轉。

可見PCA變換並不是最有效的數據降維方法，根本原因就是它假設數據變量之間是線性相關的並且服從高斯分佈，

2.2LDA
LDA是一種有監督的（supervised）線性降維算法。與PCA保持數據信息不同，核心思想：往線性判別超平面的法向量上投影，是的區分度最大（高內聚，低耦合）。LDA是爲了使得降維後的數據點儘可能地容易被區分！

三、非線性映射

非線性映射方法的代表方法有：核方法（核+線性），二維化和張量化（二維+線性），流形學習（ISOMap，LLE，LPP）
3.1基於核的非線性降維
代表方法有：KPCA，KFDA。
　　KPCA的基本思想：通過Kernel trick將PCA投影的過程通過內積的形式表達出來。將高維向量ϕ(x)與對應特向β
3.2 流形學習
流形學習的主要算法有：ISOMap（等距映射）、LE（拉普拉斯特徵映射）、LLE（局部線性嵌入）。
　　流形：直線或者曲線是一維流形，平面或者曲面是二維流形，更高維之後是多維流形。一個流形好比是 d
　　
3.3
3.4

機器學習降維算法對比分析(待補充)

一、屬性(特徵)選擇

二、線性映射

三、非線性映射

DAPPER 事務 TRANSACTION

Java中線程的創建方式

集成學習和Boosting原理總結

pandas中的Series和DataFrame的區別與轉化

支持向量機SVM淺析(待補充)

raspberry install pandas with python 3.6

LDA——從概率的角度去看文學

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結