223.主成分分析PCA

主成分分析 PCA

本節作者：劉華，中國科學技術大學
版本1.0.3，更新日期：2020年6月18日

什麼是PCA(Principal Component Analysis)

數據降維

降維就是一種對高維度特徵數據預處理方法。降維是將高維度的數據保留下最重要的一些特徵，去除噪聲和不重要的特徵，從而實現提升數據處理速度的目的。在實際的生產和應用中，降維在一定的信息損失範圍內，可以爲我們節省大量的時間和成本。降維也成爲應用非常廣泛的數據預處理方法。

降維具有如下一些優點：

（1）使得數據集更易使用。
（2）降低算法的計算開銷。
（3）去除噪聲。
（4）使得結果容易理解。

降維的算法有很多，比如奇異值分解(SVD)、主成分分析(PCA)、因子分析(FA)、獨立成分分析(ICA)。

PCA的概念

PCA(Principal Component Analysis)，即主成分分析方法，是一種使用最廣泛的數據降維算法。PCA的主要思想是將n維特徵映射到k維上，這k維是全新的正交特徵也被稱爲主成分，是在原有n維特徵的基礎上重新構造出來的k維特徵。PCA的工作就是從原始的空間中順序地找一組相互正交的座標軸，新的座標軸的選擇與數據本身是密切相關的。其中，第一個新座標軸選擇是原始數據中方差最大的方向，第二個新座標軸選取是與第一個座標軸正交的平面中使得方差最大的，第三個軸是與第1,2個軸正交的平面中方差最大的。依次類推，可以得到n個這樣的座標軸。通過這種方式獲得的新的座標軸，我們發現，大部分方差都包含在前面k個座標軸中，後面的座標軸所含的方差幾乎爲0。於是，我們可以忽略餘下的座標軸，只保留前面k個含有絕大部分方差的座標軸。事實上，這相當於只保留包含絕大部分方差的維度特徵，而忽略包含方差幾乎爲0的特徵維度，實現對數據特徵的降維處理。

變換的步驟

① 第一步計算矩陣 X 的樣本的協方差矩陣 S（此爲不標準PCA，標準PCA計算相關係數矩陣C） :
② 第二步計算協方差矩陣S（或C）的特徵向量 e1,e2,…,eN和特徵值t = 1,2,…,N；
③ 第三步投影數據到特徵向量張成的空間之中。利用公式，其中BV值是原樣本中對應維度的值。

PCA 的目標是尋找 r （ r<n ）個新變量，使它們反映事物的主要特徵，壓縮原有數據矩陣的規模，將特徵向量的維數降低，挑選出最少的維數來概括最重要特徵。每個新變量是原有變量的線性組合，體現原有變量的綜合效果，具有一定的實際含義。這 r 個新變量稱爲“主成分”，它們可以在很大程度上反映原來 n 個變量的影響，並且這些新變量是互不相關的，也是正交的。通過主成分分析，壓縮數據空間，將多元數據的特徵在低維空間裏直觀地表示出來。

PCA實例

PCA+特徵箭頭

華大基因研究團隊發表於Microbiome的文章(Zhong et al., 2019)，研究早期事件和生活方式對幼齡兒童腸道菌羣和代謝的影響。在這裏，我們選擇了文章中兩個PCA分析結果圖爲例進行講解：

圖1c. 屬水平PCA主成分分析

Figure 1c. Genus-based principal component analysis (PCA) of children and adults.

結果：PCA分析揭示兒童和成年人腸道菌羣沒有明顯區別

Principal component analysis (PCA) based on genus profiles showed no separation between Dutch children and adults.

PCA+特徵箭頭+箱線圖

圖3. 多種早期事件和學齡前生活方式與腸道菌羣有關。a：PCA顯示了兒童的多變量以及不同因素對PC1和PC2的主要影響。將包括早期事件和學齡前生活方式在內的18個因素進行PCA分析，其中PC1或PC2成分得分 ≥ 0.2的因素爲主要影響因素。箱形圖顯示各腸型內PC1和PC2評分的總體分佈(#P<0.05；Wilcoxon秩和檢驗)。

Multiple early events and pre-school lifestyle associated with the school-age gut microbiota. a PCA showing the multivariate variation of children and the major contributions of different factors to PC1 and PC2. A total of 18 factors including early events and pre-school lifestyle were subjected to PCA, and those factors with component scores for PC1 or PC2 ≥ 0.2 were shown as major contributors. Box plots showing the overall distribution of PC1 and PC2 scores within each enterotype (#P<0.05; Wilcoxon rank-sum test).

結果：我們發現母乳餵養持續時間、母親教育水平和學前飲食模式，包括攝入的蛋白質、纖維、及奶製品在PC1中貢獻最多 (15.05%)，PC2中兒童的碳水化合物和脂肪總攝入量是第二個最重要的變量 (12.74%)。E3組兒童的PC1得分低於E1組，但PC2得分高於E1組(圖3a, Wilcoxon秩和檢驗，P < 0.05)。這種腸型間的差異是由PC1評分的主要因素決定的，如 E3組中較短的母乳餵養時間以及較少的膳食纖維和植物性蛋白攝入量 (Kruskal-Wallis檢驗, P < 0.05)。

We found that breastfeeding duration, educational level of mother at childbirth, and pre-school dietary patterns including intake of protein, fiber, and milk products contributed most to the variability in PC1 (15.05%, Fig. 3a), and total intake of carbohydrates and fat represented the second most important variation among children, as displayed in PC2 (12.74%, Fig. 3a). Interestingly, children in E3 exhibited lower PC1 scores but higher PC2 scores than children in E1 (Fig. 3a, Wilcoxon rank-sum test, P < 0.05). This inter-enterotype difference was governed by specific major contributors of the PC1 scores, including shorter breastfeeding duration and less intake of dietary fiber and plant-based protein in E3 as compared to the two other enterotypes (Kruskal-Wallis test, P < 0.05).

PCA+形狀分組+門着色

例3：Robert D. Finn團隊發表於Nature的文章(Almeida et al., 2019)，構建了人類腸道微生物羣的基因組藍圖。

Fig 5：未培養的物種具有獨特的功能。a、以已知人類參考基因組（HGR：553個基因組）和未分類物種宏基因組（UMGS：1952個基因組）的基因組特性(Genome Properties, GPs)進行PCA主成分分析，以門水平上色。

The uncultured species have a distinct functional capacity.a, Principal component analysis (PCA) based on GPs of the HGR (n = 553 genomes) and the UMGS (n = 1,952 genomes) coloured by phylum.

結果：我們使用GhostKOALA生成KEGG Orthology (KO)註釋，以跟蹤不同UMGS和HGR集合中特定功能類別的差異丰度。在全球範圍內，通過對GPs的分類組成分析，發現按門水平分類分離良好，特別是擬桿菌門和變形菌門顯示出獨特的功能特徵。

In parallel, we used GhostKOALA to generate KEGG Orthology (KO) annotations to track the differential abundance of specific functional categories across the UMGS and HGR sets. Globally, by analyzing the repertoire of GPs according to the taxonomic composition, we observed a good separation by phylum (ANOSIM R = 0.42, P < 0.001), with the Bacteroidetes and Proteobacteria taxa in particular displaying very distinctive functional profiles (Fig. 5a).

總結

PCA主成分圖中座標軸PC1/2的數值爲總體差異的解釋率；圖中點代表樣品，顏色代表分組；箭頭代表原始變量，其中方向代表原始變量與主成分的相關性，長度代表原始數據對主成分的貢獻度。

做PCA，首先要構建特徵/變量的協方差矩陣，然後對其特徵值和特徵向量進行排序，根據需要取前面最重要的部分，將後面的維數省去，可以達到降維，從而達到簡化模型或對數據進行壓縮的效果，同時最大程度的保持了原有數據的信息。

但是PCA原理主要是爲了消除變量之間的相關性，並且假設這種相關性是線性的，對於非線性的依賴關係則不能得到很好的結果。同時PCA假設變量服從高斯分佈，當變量不服從高斯分佈（如均勻分佈）時，會發生尺度縮放與旋轉。

PCA繪圖實戰

數據和代碼下載：以 https://github.com/YongxinLiu/MicrobiomeStatPlot 上的微生物組數據進行展示。

用於計算PCA 的R軟件中提供了來自不同軟件包的多個函數：

prcomp()和princomp() [內置];

PCA() [ FactoMineR包];

dudi.pca() [ ade4包];

epPCA() [ ExPosition包]。

可以通過factoextraR包和ggbiplot包來輕鬆提取和可視化PCA的結果。

安裝PCA分析與可視化R包

判斷每個依賴的包是否存在，沒有則安裝

# 安裝CRAN來源R包，多個包使用循環檢測和安裝
p_list = c("FactoMineR", "dplyr", "factoextra", "ggpubr", "pca3d")
for(p in p_list){
  if (!requireNamespace(p, quietly = TRUE))
    install.packages(p)
}

# 安裝github來源R包
suppressWarnings(suppressMessages(library(devtools)))
if (!requireNamespace("ggbiplot", quietly = TRUE))
  install_github("vqv/ggbiplot")

內置數據演示PCA繪製

library("dplyr")
# 查看鳶尾花的內置數據
head(iris, n=3)
# 獲得純數值表格，去除最後一行的分類型分組數據，
iris <- select(iris, -Species)
# prcomp函數進行PCA分析，需要解釋參數的意義？？？cor=T???
iris.pca <- prcomp(iris,cor = T)
# 查看對象的名稱，此處返回結果中5個列表的名稱
names(iris.pca)
# 對象摘要，需要解釋參數的意義？？？loadings = T???
summary(iris.pca,loadings = T)

sdev是標準偏差; center是每列計算是減去的均值; scores即降維之後的結果，當然也可以使用predict函數，結果一樣。

我們看Proportion of Variance，即爲每一個成分方差所佔比例，Cumulative Proportion代表是累計比例，爲Proportion of Variance的累計值，一般達到90%左右就可以代表所有數據。

library("factoextra")
# 提取變量的分析結果，加載包出現在函數第一次出現前，知道函數與包的關係
get_pca_var(iris.pca)

factoextra包自帶了提取變量的分析結果get_pca_var函數，其中：
coord表示用於創建散點圖的變量座標。coord實際上就是成分載荷，指觀測變量與主成分的相關係數；
cor表示相關係數；
cos2表示因子質量，var.cos2 = var.coord * var.coord；
contrib表示包含變量對主成分的貢獻(百分比)。

# 對變量作圖, col.var設定線條顏色
(p <- fviz_pca_var(iris.pca, col.var = "black"))
# 保存圖片，指定圖片爲pdf格式方便後期修改，圖片寬89毫米，高56毫米
ggsave(paste0("p1.iris_pca.pdf"), p, width=89, height=56, units="mm")
ggsave(paste0("p1.iris_pca.png"), p, width=89, height=56, units="mm")

圖1. PCA展示變量與主成分之間的關係，以及變量之間的關聯

菌羣數據實戰

本次測試數據來自同樣來自Science：擬南芥三萜化合物特異調控根系微生物組
數據截取了3個實驗組各6個樣品的結果用於演示。數據位於Data/Science2019目錄，本次需要元數據(metadata.txt)和otu表(otutab.txt)兩個輸入文件。

# 測試數據地址，可修改爲本地下載github的目錄，也可加載amplicon包獲得內置數據
dir="http://210.75.224.110/github/MicrobiomeStatPlot/Data/Science2019/"
# 讀取元數據，參數指定包括標題行(TRUE)，列名爲1列，製表符分隔，無註釋行，不轉換爲因子類型
metadata <- read.table(paste0(dir, "metadata.txt"), header=T, row.names=1, sep="\t", comment.char="", stringsAsFactors = F)
# 預覽元數據前3行，注意分組列名
head(metadata, n = 3)
# 讀取otu表
otutab <- read.table(paste0(dir, "otutab.txt"), row.names= 1, header=T, sep="\t",  comment.char="", stringsAsFactors = F)
# 過濾數據並排序
sub_metadata <- metadata[rownames(metadata) %in% colnames(otutab),]
count <- otutab[, rownames(sub_metadata)]
# 基於OTU表PCA分析
# 如果變量之間的數據的處於不同數量級或者變量之間的均值/方差相差很大時，建議是進行標準化，常見爲：scale(count, center =T, scale. =T)對數據進行標準化，FactoMineR包的PCA()函數和基礎包的prcomp()函數自帶函數自帶標準化參數，如下：
# 基於OTU計算PCA，執行數據標準化
otu.pca <- prcomp(t(count), scale. = TRUE)

貢獻率圖(scree plot)

如果我們想判斷PCA中需要多少個主成分比較好，那麼可以從主成分的特徵值來考慮（Kaiser-Harris準則建議保留特徵值大於1的主成分）；特徵值表示主成分所保留的變異量（所解釋的方差）；如用get_eigenvalue函來提取特徵值，結果中第一列是特徵值，第二列是可解釋變異的比例，第三列是累計可解釋變異的比例。

get_eigenvalue(otu.pca)[1:3,]

除了特徵值大於1作爲主成分個數的閾值外，還可以設置總變異的閾值（累計）作爲判斷指標

除了看錶格來判斷，還可從圖形上直觀的感受下：

# 繪製崖低碎石圖(scree plot)即貢獻率圖，外層()可對保存的圖形同時預覽
(p <- fviz_eig(otu.pca, addlabels = TRUE))
ggsave(paste0("p2.pca_screen.pdf"), p, width=89, height=56, units="mm")
ggsave(paste0("p2.pca_screen.png"), p, width=89, height=56, units="mm")

圖2. 貢獻率圖表示各個主成分貢獻率，進而決定選擇多少主成分。可以將主成分數量限制爲佔總方差的比例。

如果我們想提取PCA結果中變量的信息，則可用get_pca_var()：

(var <- get_pca_var(otu.pca))

Quality of representation（對應var$cos2），用於展示每個變量在各個主成分中的代表性（高cos2值說明該變量在主成分中有good representation，對應在Correlation circle圖上則是接近圓周邊上；低cos2值說明該變量不能很好的代表該主成分，對應Correlation circle圖的圓心位置）。簡單的說，如果一個變量在PC1和PC2的Contributions（cos2值在各個主成分中的比例）很高的話，則說明該變量可有效解釋數據的變異，我們可以用圖形展示各個變量在PC1和PC2上的Contributions。

特徵PCA圖

# 繪製變量PCA主成分分析圖
(p <- fviz_pca_var(otu.pca, col.var = "contrib", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07")))
ggsave(paste0("p3.pca_cos.pdf"), p, width=89, height=89, units="mm")
ggsave(paste0("p3.pca_cos.png"), p, width=89, height=89, units="mm")

圖3. PCA圖展示變量

可以看到，biplot圖只能用於展示變量較少的情況，當變量較多時需要進行篩選。

接下來分析觀測值，先提取出individuals信息。

(ind <- get_pca_ind(otu.pca))

樣本PCA圖

然後按照上面的模式來展示下individuals的點圖，比如以cos2值來代表各個individuals點的圓圈大小

# 樣本PCA圖，點大小爲cos2，形狀爲21圓形，按組填充，repel避免標籤重疊
(p <- fviz_pca_ind(otu.pca, pointsize = "cos2", pointshape = 21, fill = metadata$Group, repel = TRUE))
ggsave(paste0("p4.pca_individuals.pdf"), p, width=89, height=56, units="mm")
ggsave(paste0("p4.pca_individuals.png"), p, width=89, height=56, units="mm")

圖4. PCA圖展示觀測值，以cos2值來代表各個individuals點的圓圈大小。

如果有分組信息，則可以將同一組的individuals圈在一起，如：

# 樣本PCA圖，只顯示點，分組着色並手動分配顏色，添加置信橢圓和圖例
(p <- fviz_pca_ind(otu.pca,
     geom.ind = "point", # show points only ( not "text")
     col.ind = metadata$Group, # color by groups
     palette = c("#00AFBB", "#E7B800", "#FC4E07"),
     addEllipses = TRUE, # Concentration ellipses
     legend.title = "Groups"))
# 保存圖片，指定圖片爲pdf格式方便後期修改，圖片寬89毫米，高56毫米
ggsave(paste0("p5.sample_group_ellipse.pdf"), p, width=89, height=56, units="mm")
ggsave(paste0("p5.sample_group_ellipse.png"), p, width=89, height=56, units="mm")

圖5. 樣本PCA圖按分組着色並添加置信橢圓

biplot樣本和特徵圖

如果我們想將特徵變量(vars)和樣本(individuals)同時在一張biplot圖中展示，那麼就要對主要的OTUs/ASVs/分類進行排序挑選。

展示主要差異ASV與主成分的關係

# 轉換原始數據爲百分比
norm <- t(t(count)/colSums(count,na=T)) * 100
# 篩選mad(median absolute deviation,中位數偏差的絕對值的中位數,衡量特異波動的方法)值大於0.5的ASV,
mad.5 <- norm[apply(norm,1,mad)>0.5,]
# 另一種方法：按mad值排序取前N個，如6個波動最大的ASVs
# mad.5 <- head(norm[order(apply(norm,1,mad), decreasing=T),],n=6)
# 計算PCA和菌與菌軸的相關性
otu.pca <- prcomp(t(mad.5))
# 繪製觀測值PCA主成分分析圖，外層()可對保存的圖形同時預覽
(p <- fviz_pca_biplot(otu.pca, col.ind = metadata$Group, palette = "jco", addEllipses = TRUE, label = "var",
        col.var = "black", repel = TRUE, legend.title = "Group"))
# 保存圖片，指定圖片爲pdf格式方便後期修改，圖片寬89毫米，高56毫米
ggsave(paste0("p6.sample_group_ellipse2.pdf"), p, width=89, height=56, units="mm")
ggsave(paste0("p6.sample_group_ellipse2.png"), p, width=89, height=56, units="mm")

圖6. PCA圖展示主要ASVs與主成分的關係。

我們僅用中值絕對偏差(mad)大於0.5的6個OTUs進行主成分分析，即可將三組樣品明顯分開。圖中向量長短代表差異貢獻，方向爲與主成分的相關性。可以看到最長的向量ASV_2與X軸近平行，表示PC1的差異主要由此菌貢獻。其它菌與其方向相反代表OTUs間可能負相關；夾角小於90%的代表兩個OTUs有正相關。

ggbiplot包可視化PCA圖

我們也可以選擇ggbiplot包可視化PCA圖

# 加載ggbiplot並繪製觀測值PCA主成分分析圖
suppressWarnings(suppressMessages(library("ggbiplot")))
# 繪製觀測值PCA圖
ggbiplot(otu.pca, obs.scale = 1, var.scale = 1, groups = metadata$Group, ellipse = TRUE,var.axes = T)
# 保存圖片，指定圖片爲pdf格式方便後期修改，圖片寬89毫米，高56毫米
ggsave(paste0("p7.sample_group_ellipse3.pdf"), p, width=89, height=56, units="mm")
ggsave(paste0("p7.sample_group_ellipse3.png"), p, width=89, height=56, units="mm")

圖7. ggbiplot可視化PCA結果

通常情況下，需要使用PERMANOVA來檢驗不同組樣本間的微生物羣落是否具有顯著差異

# 使用vegan包中的adonis函數進行PERMANOVA分析
library("vegan")
otu.adonis <- adonis(t(count) ~ Group, data = metadata, permutations = 999)
# 之後在繪圖代碼中將PERMANVOA結果在PCA圖中進行展示
(p1 <- p + geom_text(aes(x = - 5 , y = 4,
                  label = paste("PERMANOVA:\n KO VS OE VS WT \n p-value = ",
                                otu.adonis$aov.tab$`Pr(>F)`[1], sep = "")),
              size = 2, hjust = 0))
ggsave(paste0("p8.sample_group_ellipse4.pdf"), p1,  width=120, height=100, units="mm")
ggsave(paste0("p8.sample_group_ellipse4.png"), p1,  width=120, height=100, units="mm")

圖8. PCA結果圖添加PERMANOVA檢驗

PCA圖x/y軸添加箱線圖

在PCA圖的x和y軸添加箱線圖，可以實現進一步展示組間差異

# 需要製作PCA結果可視化的繪圖數據文件
PC1 <- otu.pca$x[,1]
PC2 <- otu.pca$x[,2]
otu.pca.data <- data.frame(rownames(otu.pca$x),PC1,PC2,metadata$Group)
colnames(otu.pca.data) <- c("sample", "PC1", "PC2", "group")
# 這裏需要ggpubr包，對組間進行統計檢驗以及組合圖的拼接
library("ggpubr")
# 設置比較組
my_comparisons = list(c('KO','OE'),c('OE','WT'),c('KO','WT'))
# 繪製y軸爲PC1值的分組箱線圖
p2 <- ggplot(otu.pca.data, aes(x = group, y= PC1, colour = group)) +
    geom_boxplot() +
    theme(panel.background = element_rect(fill = "white",colour = "white"),
          panel.grid = element_blank(),
          axis.text.y = element_blank(),
          legend.position="none") +
    xlab("") + ylab("") +
    stat_compare_means(comparisons = my_comparisons, label = "p.signif") # 添加顯著性檢驗
# 繪製y軸爲PC2值的分組箱線圖
p3 <- ggplot(otu.pca.data, aes(x = group, y= PC2, colour = group)) +
  geom_boxplot(aes()) +
  theme(panel.background = element_rect(fill = "white",colour = "white"),
        panel.grid = element_blank(),
        axis.text.x = element_blank(),
        legend.position="none") +
  xlab("") + ylab("") +
  coord_flip() + # coord_flip()函數翻轉座標軸
  stat_compare_means(comparisons = my_comparisons, label = "p.signif")
# ggpubr::ggarrange()函數對圖進行拼接
(p4 <- ggarrange(p3, NULL, p1, p2, widths = c(5,2), heights = c(2,4), align = "hv"))
ggsave(paste0("p9.sample_group_ellipse_boxplot.pdf"), p4,  width=180, height=150, units="mm")
ggsave(paste0("p9.sample_group_ellipse_boxplot.png"), p4,  width=180, height=150, units="mm")

圖9. PCA圖添加箱線圖副圖

還可以使用pca3d包對數據進行三維展示

pca3d包可視化PCA圖

我們還可以使用pca3d包對數據進行三維展示

suppressWarnings(suppressMessages(library("pca3d")))
# 繪製樣本三維PCA圖，分組着色，68%置信橢圓
(p <- pca3d(otu.pca, group = metadata$Group, show.ellipses=TRUE, ellipse.ci=0.68, show.plane=FALSE))

會打開新窗口，展示三維PCA圖，而且可用鼠標託動旋轉變換觀察角度，變量p中保存了各組名、顏色、形狀名稱和編號。

圖10. 三維PCA圖快照

注：三維PCA圖適合交互探索數據，但不能導出矢量圖，在發表文章中使用較少。

參考文獻

Huanzi Zhong, John Penders, Zhun Shi, Huahui Ren, Kaiye Cai, Chao Fang, Qiuxia Ding, Carel Thijs, Ellen E. Blaak, Coen D. A. Stehouwer, Xun Xu, Huanming Yang, Jian Wang, Jun Wang, Daisy M. A. E. Jonkers, Ad A. M. Masclee, Susanne Brix, Junhua Li, Ilja C. W. Arts & Karsten Kristiansen. (2019). Impact of early events and lifestyle on the gut microbiota and metabolic phenotypes in young school-age children. Microbiome 7, 2, doi: https://doi.org/10.1186/s40168-018-0608-z

Alexandre Almeida, Alex L. Mitchell, Miguel Boland, Samuel C. Forster, Gregory B. Gloor, Aleksandra Tarkowska, Trevor D. Lawley & Robert D. Finn. (2019). A new genomic blueprint of the human gut microbiota. Nature 568, 499-504, doi: https://doi.org/10.1038/s41586-019-0965-1

責編：劉永鑫，中科院遺傳發育所

系列教程：微生物組入門 Biostar 微生物組宏基因組

專業技能：學術圖表高分文章生信寶典不可或缺的人

一文讀懂：宏基因組寄生蟲益處進化樹

必備技能：提問搜索 Endnote

文獻閱讀熱心腸 SemanticScholar Geenmedical

擴增子分析：圖表解讀分析流程統計繪圖

16S功能預測 PICRUSt FAPROTAX Bugbase Tax4Fun

在線工具：16S預測培養基生信繪圖

科研經驗：雲筆記雲協作公衆號

編程模板: Shell R Perl

生物科普: 腸道細菌人體上的生命生命大躍進細胞暗戰人體奧祕

寫在後面

爲鼓勵讀者交流、快速解決科研困難，我們建立了“宏基因組”專業討論羣，目前己有國內外5000+ 一線科研人員加入。參與討論，獲得專業解答，歡迎分享此文至朋友圈，並掃碼加主編好友帶你入羣，務必備註“姓名-單位-研究方向-職稱/年級”。PI請明示身份，另有海內外微生物相關PI羣供大佬合作交流。技術問題尋求幫助，首先閱讀《如何優雅的提問》學習解決問題思路，仍未解決羣內討論，問題不私聊，幫助同行。

學習16S擴增子、宏基因組科研思路和分析實戰，關注“宏基因組”

點擊閱讀原文，跳轉最新文章目錄閱讀

223.主成分分析PCA

主成分分析 PCA

什麼是PCA(Principal Component Analysis)

相關背景

數據降維

PCA的概念

PCA實例

PCA+特徵箭頭

PCA+特徵箭頭+箱線圖

PCA+形狀分組+門着色

總結

PCA繪圖實戰

安裝PCA分析與可視化R包

內置數據演示PCA繪製

菌羣數據實戰

貢獻率圖(scree plot)

特徵PCA圖

樣本PCA圖

biplot樣本和特徵圖

ggbiplot包可視化PCA圖

PCA圖x/y軸添加箱線圖

pca3d包可視化PCA圖

參考文獻

猜你喜歡

寫在後面

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

Bio-protocol首屆生物實驗短視頻大賽

微生物組-宏基因組分析第8期(報名直播課免費參加線下2020.7，早鳥價僅剩1周)...

6月20日截止，請勿錯過熱心腸獎學金！

ISME：高手開槓-‘1%的微生物可培養’到底爲哪般？

Nature：Gordon組採用甘露糖苷選擇性抑制尿路致病性大腸桿菌

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結