偏最小二乘法PLS和PLS迴歸的介紹及其實現方法

1、偏最小二乘法(PLS)介紹

偏最小二乘法是一種新型的多元統計數據分析方法,於1983年由S.Wold和C.Albano等人首次提出。偏最小二乘法實現了,在一個算法下,可以同時實現迴歸建模(多元線性迴歸)、數據結構簡化(主成分分析)以及兩組變量之間的相關性分析(典型相關分析)。
PCA方法雖解決了自變量共線性的問題,但是並沒有考慮自變量主元對於因變量變化的解釋作用。所以刪除的次要主元有可能包含對迴歸有益的信息,而保留的主元有可能會夾雜一些對迴歸模型輸出無益的噪聲。
PLS方法,通過將自變量和因變量的高維數據空間投影到相應的低維空間,分別得到自變量和因變量的相互正交的特徵向量,再建立自變量和因變量的特徵向量間的一元線性迴歸關係。不僅可以克服共線性問題,它在選取特徵向量時強調自變量對因變量的解釋和預測作用,去除了對迴歸無益噪聲的影響,使模型包含最少的變量數。

2、基於目標優化的PLS模型的計算

2.1 PLS的準則函數

準則函數通俗的講就是提取主元時所按照的準則,與PCA不同,PLS在提取主元時考慮的不僅是能最大程度概括自變量空間的數據信息,還應該考慮自變量主元對於因變量變化的解釋作用。因此J.Hinkle提出的新的殘差平方和指標:
公式1
下面就是對這個式子的各種變換,具體推導過程比較複雜,但最終這個式子就等價於,
確定權值向量wi和ci使滿足:
公式2

2.2 偏最小二乘基本算法

2.2.1 基於拉格朗日算法的極大值求解

令E0=X, F0=Y,那麼上式即在 的約束條件
在這裏插入圖片描述
下求
在這裏插入圖片描述
的極大值,建立上式的拉格朗日函數:
在這裏插入圖片描述
最後解得:
在這裏插入圖片描述
可見w1和c1分別爲
在這裏插入圖片描述
最大特徵值λ_1所對應的特徵向量。

2.2.2 計算成分

在這裏插入圖片描述
分別對應自變量和因變量的成分。

2.2.3 迴歸係數向量的計算

在這裏插入圖片描述

2.2.4 數據殘差矩陣的計算

求得第一個主成分後,按照上式對數據矩陣進行縮減,得到縮減後的殘差矩陣:
在這裏插入圖片描述

2.2.5 重構X,Y

在這裏插入圖片描述

3、PLS迴歸模型

在這裏插入圖片描述
最終可以建立PLS模型:
Y=TβQ^T+F=TB+F
T爲X的得分矩陣,U爲Y的得分矩陣,Q爲Y對應於u的負荷矩陣,β爲迴歸係數矩陣,F爲殘差矩陣。

3.1 基於得分矩陣的模型輸出

  1. 將數據矩陣E0=X,F0=Y的每一列進行中心化和方差歸一化處理

  2. 計算互協方差矩陣
    在這裏插入圖片描述

  3. 計算歸一化的權值向量wi

  4. 計算得分向量
    在這裏插入圖片描述

  5. 計算Ei-1,Fi-1相應於ti的負荷向量pi,bi

  6. 令i=i+1返回2繼續計算

  7. 計算PLS模型對得分矩陣T的輸出:Y=TB

4、PLS迴歸的計算工具

4.1 MATLAB函數包

MATLAB當中有偏最小二乘的函數plsregress函數,介紹如下:
在這裏插入圖片描述
在這裏插入圖片描述
參數解釋:
Ncomp是因子或潛在變量的個數,計算Y在X上的迴歸,返回預測和響應載荷。
X是np預測變量,行對應觀測項,列對應變量。
Y是n
m響應矩陣。
Xloadings是pncomp因子載荷,簡單來說就是因子對應原變量的線性組合係數。
Xscores返回預測變量得分,簡單來說就是PLS因子,是X中變量的線性組合。Xscores是一個n
ncomp正交矩陣,行對應觀察值,列對應因子。因子載荷矩陣是各個原始變量的因子表達式的係數,表達提取的公因子對原始變量的影響程度。因子得分矩陣表示各項指標變量與提取的公因子之間的關係,在某一公因子上得分高,表明該指標與該公因子之間關係越密切。簡單說,通過因子載荷矩陣可以得到原始指標變量的線性組合。如,通過因子得分矩陣可以得到公因子的線性組合,如F1=a11X1+a21X2+a31X3,其中X1,X2,X3爲原變量,a11、a12、a13分別爲與變量X1在同一行的因子載荷,F1、F2、F3分別爲提取的公因子。
beta爲迴歸模型的係數
PCTVAR是一個兩行的矩陣,第一行爲自變量提取成分的貢獻率,第二行爲因變量提取成分的貢獻率
MSE是一個兩行的矩陣,第一行的第j個元素表示自變量與它的前j-1個提出成份之間迴歸方程的剩餘標準差;第二行的第j個元素對應着因變量與它的前j-1個提出成份之間迴歸方程的剩餘標準差;
stats返回4個值stats.W是一個PLS權重的ρ
ncomp的矩陣,使XS=X0W,每一列對應特徵向量ρi
stats.T2是XS每一點的T^2統計值
stats.Xresiduals爲預測值殘差,X0-XS
XL’
stats.Yresiduals爲響應殘差,Y0-XS*YL’

4.2 Unscrambler分析軟件

4.2.1 軟件介紹

Unscrambler is built to solve complex problems using powerful multivariate analysis, with unique capabilities for spectroscopy and chemometrics. Choose from more than 20 different methods to analyse data, including Design of Experiments (DoE), exploratory data analysis, Partial Least Squares regression (PLS), Principal Component Analysis (PCA) and Soft Independent Modelling of Class Analogies (SIMCA). Easily explore and validate models through interactive graphics and visualisations to optimise product development, improve product quality and process efficiency.

4.2.2 Unscrambler中PLS迴歸模型建立流程

在這裏插入圖片描述

5、參考資料

[1] 王桂增《主元分析與偏最小二乘法》清華大學出版社
[2] 偏最小二乘(pls)迴歸分析 matlab 博客鏈接
[3] 百度文庫 偏最小二乘法(PLS)簡介 百度文庫鏈接
[4] 道客巴巴 Unscrambler X教程 教程鏈接

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章