筆記 GWAS 操作流程5-1:根紅苗正的GWAS分析軟件:GEMMA
1. GEMMA軟件介紹
這個肯定厲害了,是大家閨秀,是名門望族,是根紅苗正的GWAS分析軟件。
GEMMA名稱來源:
- G: Genome-wide
- E:Efficient
- MM:Mixed-model
- A:Association
GEMMAX主要特點:
快,話說同樣的檢測方法,GEMMA跑了3.3小時,而EMMA估計要跑27年???
2. GEMMA語法特點
相對於plink的語法,GEMMA語法更簡練,一個槓,一個字母。比如:
- 表型數據:
-p
- 協變量:
-c
而plink的語法的是兩個槓,一個單詞: - 表型數據:
--pheno
- 協變量:
--covar
GEMMA支持plink的二進制文件:
- 讀取plink文件:
-bfile
表型數據格式:
一列,注意順序和基因組的ID順序一致,如果是多個性狀,那就是多列,沒有ID列。
協變量格式:
協變量是數字類型,如果有因子,需要轉化爲虛擬變量的形式。沒有ID列,第一列是cov1,第二列是cov2……,注意,如果有一協變量,第一列爲1(截距),第二列爲協變量。
比如下面的數據是一個協變量,第一列爲截距。
3. GEMMA分析一般線性模型沒有協變量
首先將plink格式轉化爲二進制的plink格式:
plink --file b --make-bed --out c
然後將表型數據提取單獨一列:
awk '{print $3}' phe.txt >p.txt
然後進行一般線性模型關聯分析:
gemma-0.98.1-linux-static -bfile c -p p.txt -lm 1
結果和plink的linear結果對比:
plink的結果:
gemma的結果:
兩者結果完全一致。
事實上,加上協變量的分析,gemma和plink的結果也是一樣的,因爲都是應用的是一般線性模型。
4. GEMMA分析混合線性模型
第一步:先生成G矩陣
gemma-0.98.1-linux-static -bfile c -gk 2 -p p.txt
代碼解釋:
- -bfile 讀取plink的二進制文件
- -gk 2 標準化的方法計算G矩陣
- -p 讀取表型數據(這個不能省掉)
GEMMA 0.98.1 (2018-12-10) by Xiang Zhou and team (C) 2012-2018
Reading Files ...
## number of total individuals = 1500
## number of analyzed individuals = 1500
## number of covariates = 1
## number of phenotypes = 1
## number of total SNPs/var = 10000
## number of analyzed SNPs = 3946
Calculating Relatedness Matrix ...
================================================== 100%
**** INFO: Done.
G矩陣在output文件夾下:result.sXX.txt
第二步:使用混合線性模型進行GWAS分析
gemma-0.98.1-linux-static -bfile c -k output/result.sXX.txt -lmm 1 -p p.txt
代碼解釋:
* -bfile plink的二進制文件
* -k 讀取G矩陣的文件
* -lmm 1 使用Wald的方法進行SNP檢驗
* -p 表型數據
GEMMA 0.98.1 (2018-12-10) by Xiang Zhou and team (C) 2012-2018
Reading Files ...
## number of total individuals = 1500
## number of analyzed individuals = 1500
## number of covariates = 1
## number of phenotypes = 1
## number of total SNPs/var = 10000
## number of analyzed SNPs = 3946
Start Eigen-Decomposition...
pve estimate =0.120599
se(pve) =0.0279188
================================================== 100%
**** INFO: Done.
第三步:查看結果文件
結果在output文件夾下:result.assoc.txt
5. GEMMA中LM模型和LMM模型的結果比較
setwd("/home/dengfei/gwas/qmsim/dat/plink_file/10_gemma_analysis_lmm/output")
mm_re = fread("result.assoc.txt")
head(mm_re)
lm_re = fread("../../06_gemma_analysis_lm/output/result.assoc.txt")
head(lm_re)
lm_re1 = lm_re[!is.na(p_wald)]
head(lm_re1)
dim(mm_re)
dim(lm_re1)
head(mm_re)
head(lm_re1)
re1 = merge(mm_re,lm_re1,by="rs")
head(re1)
# Pvalue 比較
cor(re1$p_wald.x,re1$p_wald.y)
plot(re1$p_wald.x,re1$p_wald.y)
# Beta迴歸係數比較
cor(re1$beta.x,re1$beta.y)
plot(re1$beta.x,re1$beta.y)
Pvalue比較
> cor(re1$p_wald.x,re1$p_wald.y)
[1] 0.5278895
Beta迴歸係數比較:
> cor(re1$beta.x,re1$beta.y)
[1] 0.8357564
注意:
這裏面,混合線性模型分析時,一般要加上PCA的結果,防止羣體結構造成的假陽性。下一章節,我們介紹LMM模型,如何加入協變量。