生物信息學早已不再侷限於基因組學領域了，後基因組學越來越受到關注，並且這幾年多組學的也研究越來越多。其中，代謝組學是相對比較年輕的一門學科，“代謝組”（metabolome）的概念於1998第一次被提出。基因組學和轉錄組學是生物信息的上游，更多的體現的是生物活動的內在本質因素，而代謝組學是生物信息的最下游，體現的是生物活動的表型結果。代謝組學分爲靶向代謝組學和非靶向代謝組學，本文將結合本人的經驗和所學，綜述非靶向代謝組學的數據分析方法。

本文可結合另一篇博客（代謝組學數據分析的統計學方法綜述）一起閱讀，以便加深理解。

概述

什麼是“代謝組學”（metabolomics）呢？

首先，我們得明確什麼叫“代謝物”（metabolite）。維基百科的定義：A metabolite is the intermediate end product of metabolism. The term metabolite is usually restricted to small molecules. 百度百科的定義：代謝物亦稱中間代謝物，是指通過代謝過程產生或消耗的物質，生物大分子不包括在內。

目前METLIN數據庫中的標準代謝物分子總共超過200,000 種；一般非靶向代謝組學使用質譜儀能檢測到人體血液中的代謝信號峯大約接近10,000個。由此可知，代謝組學的特徵維度是比較大的。

其次，我們瞭解下什麼叫“代謝組”（metabolome）。維基百科的定義：The metabolome refers to the complete set of small-molecule chemicals found within a biological sample. The biological sample can be a cell, a cellular organelle, an organ, a tissue, a tissue extract, a biofluid or an entire organism. 百度百科的定義：代謝組是指生物體內源性代謝物質的動態整體。而傳統的代謝概念既包括生物合成，也包括生物分解，因此理論上代謝物應包括核酸、蛋白質、脂類生物大分子以及其他小分子代謝物質。但爲了有別於基因組、轉錄組和蛋白質組，代謝組目前只涉及相對分子質量約小於1000的小分子代謝物質。

那麼“代謝組學”（metabolomics）怎麼定義呢？維基百科上說：Metabonomics is defined as "the quantitative measurement of the dynamic multiparametric metabolic response of living systems to pathophysiological stimuli or genetic modification". 百度百科的解釋是：代謝組學是效仿基因組學和蛋白質組學的研究思想，對生物體內所有代謝物進行定量分析，並尋找代謝物與生理病理變化的相對關係的研究方式，是系統生物學的組成部分。注意，代謝組學還有個英文寫法是“metabonomics”，這兩個寫法都是可以的，但其實這兩個詞的側重點有些區別，此處不深究，感興趣的童鞋可以自行查找資料瞭解。

代謝組學從研究特點上可分爲非靶向代謝組學和靶向代謝組學。非靶向代謝組學無偏向地檢測樣本中所有能檢測到的代謝物分子，是通過生信方法進行差異分析和通路分析，尋找生物標誌物，初步建立模型或代謝物Panel的組學方法。而靶向代謝則是針對特定的代謝物進行檢測，由於其使用標準品，因此可以實現代謝物的絕對定量（非靶向代謝組學只能相對定量）。

用於代謝組學研究的樣本，主要包括：組織、血液、尿液等，其他如生物體液、分泌物或排泄物也常用於代謝組學研究。

數據採集的方法上來看，主要分爲：核磁共振（NMR）、氣質聯用（GC-MS）及液質聯用（LC-MS）。NMR的靈敏度最低，LC-MS的靈敏度最高（可以檢測到更多的代謝物）。採集的數據經過處理，可轉化成各個代謝信號峯的相對含量值表（常使用XCMS等工具進行處理）。

總的來說，完整的代謝組學研究，應包括實驗設計、樣本處理、數據採集、數據分析這幾個部分，本文僅介紹非靶向代謝組學的數據分析部分（注：本人接觸的是血標本的LC-MS數據）。

數據預處理

採集的數據經過處理，可轉化成各個信號峯的相對含量值表，這個表一般形式爲：每一行代表一個信號（可由RT[保留時間]和m/z[質荷比]確定一個信號峯）在各個樣本中的相對含量，也就是說，每一列代表每個樣本中各個信號的性對含量（前幾列除外，表示各信號的RT、m/z等信息）。每個信號可用RT值和m/z值組合進行命名。

對於得到的這個表，我們常常進行如下3個預處理操作：信號峯註釋、標準化校正、質控。

信號峯的註釋。可以對同位素峯、加合物峯進行註釋，甚至可以初步鑑定部分信號峯所對應的代謝物名稱。

標準化校正。可分爲批次內校正和批次間校正。需要校正是因爲儀器不穩定等情況，可能使信號峯的相對含量出現誤差。校正的方法有幾種，目前一般首選基於QC樣本的標準化方法，即：將所要採集的所有樣本取等量混合起來，組成QC樣本，然後在採集數據的時候，每隔一定數量的樣品，插放一份QC樣本。因爲QC樣本都是一樣的，因此可以用QC樣本來反映數據採集過程中信號的偏移規律。校正的工具，目前主要推薦中科院ZhuLab開源的MetNormalizer（朱正江研究員的博士生申小濤師兄開發）。

質控。對每個信號峯的QC樣本求RSD（相對標準偏差），通常需捨棄RSD超過30%的信號峯（數據質量太差）。

統計分析

單變量分析

二分類問題的單變量分析主要分爲：Wilcoxon秩和檢驗（或 t檢驗）和 Fold Change分析。多分類問題可能需要ANOVA等方法。常用的可視化方法爲 Volcano Plot （火山圖），可初步篩選出同時滿足Wilcoxon檢驗統計學差異和Fold Change倍數差異的信號峯。單變量分析很簡單，但常常很有效。

值得注意的一點是，單變量統計學檢驗，其p值的閾值設定，嚴格來說不應該設定爲0.05，需要進行FDR校正（高維數據進行多次假設檢驗，容易產生大量的假陽性）。但作爲初篩，許多研究往往卡得比較鬆。

多元統計分析

多變量分析之前，需要對變量進行標準化（包括中心化和尺度化），尺度化的方法主要有以下兩種。

Auto scaling：自動標度化，也叫UV scaling（univariate scaling，單變量標準化），也就是上一步中心化後除以該變量的標準差，也叫Z-score標準化。

Pareto scaling：柏拉圖標準化，一般寫成Par標準化，與UV scaling的不同之處就是對標準差開根號。

一般用的較多的是Z-score標準化。

多元統計分析非常重要的一步是降維。提到降維，很多人的反應便是PCA、LASSO、PLS等方法。代謝組學中較多使用PLS（偏最小二乘法），因爲信號峯之間的相關性較高，LASSO降維不僅會將意義較小的變量剔除，也會將相關性較高（共線性）的變量中剔除多餘的。一般代謝組學需要探索代謝物之間的互作與研究結局變量的關係，因此PLS更受歡迎。當然，根據研究目的的不同（比如單純爲了找顯著價值的互相獨立的biomarker），也可以使用LASSO等方法降維。而PCA作爲無監督的方法，在代謝組學中主要僅用於質控或尋找天然的分組。

PLS作爲監督學習的一種方法，不僅對自變量x成分進行了映射處理，還對結局變量y也映射處理。除了PLS，還有其加強算法——OPLS，區分能力略微更強，可視化效果略微更好。

PLS/OPLS的得分圖類似於PCA的得分圖，但是PLS/OPLS還可對每個變量（特徵）求一個VIP值（Variable Importance in Projection），反應的是每個變量對模型解釋的貢獻度，VIP越大的變量越重要。VIP值其實是可以可視化的，即使用S-Plot。S-Plot中的各個點都分佈在第一和第三象限，由於其形狀類似於S，故名S-Plot。S-Plot中各個點代表的是各個信號，越靠近右上角或左下角的點，其VIP值越大。很多人不懂其原理，可以這麼簡單理解一下，對於一個存在交互作用的模型，如 y=A1*X1+A2*X2+A3*X3+C1*X1*X2+C2*X1*X3+C3*X2*X3，則S-Plot的橫座標，可以類比 A1、A2等等（各變量單獨產生的貢獻度），縱座標可以類比C1、C2等等的一個變換（各變量在交互作用中產生的貢獻度）。

此外還有個Corr.Coeffs./p(corr) （Correlation Coefficient），是樣本得分值t和變量X間的相關係數-Corr(t, X)，代表了變量的可靠度。該值沒有固定閾值，通常設定對應的P值 < 0.05。而據此可以產生另一個可視化方法，V-Plot（本質是綜合VIP和P值 [所謂的Corr.Coeffs的P值]）。

評價(O)PLS-DA 模型擬合效果使用R2X、R2Y和Q2Y這三個指標，這些指標越接近1 表示PLS-DA 模型擬合數據效果越好。其中，R2X 和R2Y 分別表示PLSDA分類模型所能夠解釋X 和Y 矩陣信息的百分比，Q2Y 則爲通過交叉驗證計算得出，用以評價PLS-DA模型的預測能力，Q2Y 越大代表模型預測效果較好。

PCA分析中R2X >0.4爲好；PLS-DA 和 OPLS-DA分析中，R2X 這個參數不重要了，主要是R2Y 和Q2，這兩個值>0.5 爲好，越接近1越好。OPLS-DA中Q2(cum)，是指建模後模型的預測能力，以大於0.5爲宜，越接近1越好，cum 表示累積的意思。

對於PLS/OPLS，我們常常需進行 permutation test（置換檢驗）（勿與交叉檢驗混淆），以確定模型是否過擬合。一般需檢驗模型的Q2值和R2值（Q2）。對於Q2，要求置換檢驗結果的在y軸上的截距小於0，方可認爲模型沒有過擬合。置換檢驗的基本原理：將真實分類結果（標籤）屏蔽，重新隨機賦予分類結果（標籤），再進行建模。如果真實建模的Q2和隨機標籤建模的Q2接近，則說明模型過擬合。具體原理請參考其他資料。置換檢驗可視化的圖，橫座標表示的是置換的比例（有多少比例的樣本被打亂重新賦予標籤）。

進行降維後，除了使用PLS/OPLS多元分析方法可以繼續進行多元統計建模外，還可使用SVM、RandomFores、ANN等方法進行建模。另外，最終最好使用Logistic迴歸建立具備臨牀（或生物學）解釋意義的模型。

另外，瑞典查爾默斯理工大學的施琳大神前不久發表在bioinformatics上的一篇文章，介紹了一個用於多元統計分析的方法，並開發了一個R包MUVR。