筆記 GWAS 操作流程4-5：LM模型+數值+因子+PCA協變量

飛哥感言：

從開始介紹plink做GWAS數據的質控，到構建模型，到定義協變量，已經灌了很多水，這篇是plink做GWAS的結尾，因爲plink做GWAS只有兩個模型可以用：GLM和logistic，前者分析數量性狀，後者分析二分類性狀。而現在GWAS更多使用LMM模型，這個模型plink沒法做，以後幾篇介紹GEMMA的操作方法。

1. 協變量文件整理

第一列爲FID
第二列爲ID
第三列以後爲協變量（注意，只能是數字，不能是字符！）

這裏協變量文件爲：

[dengfei@ny 03_linear_cov]$ head cov.txt 
1061 1061 F 3
1062 1062 M 3
1063 1063 F 3
1064 1064 F 3
1065 1065 F 3
1066 1066 F 3
1067 1067 F 3
1068 1068 M 3
1069 1069 M 3
1070 1070 M 3

這裏，首先將F換爲1，M換爲2，將其轉化爲連續變量（數字）
然後，將世代變爲虛擬變量
最後，將兩個協變量整合到一起

sed 's/F/1/g' cov.txt >cov2.txt
sed -i 's/M/2/g' cov2.txt

2. 使用plink的dummy coding轉化爲虛擬變量

plink --file b --covar cov2.txt --write-covar --dummy-coding

結果生成：

plink.cov

3. 使用plink獲得pca結果

plink --file b --pca 3

結果文件：

4. 將pca結果和協變量結果合併

sed '1d' plink.cov >a.txt
head a.txt 
awk '{print $3,$4,$5}' plink.eigenvec >pca.txt
head a.txt 
wc -l pca.txt a.txt 
paste a.txt pca.txt >pca_cov.txt

合併後的協變量：

5 進行協變量GWAS分析LM模型

代碼：

plink --file b --pheno phe.txt --allow-no-sex --linear --covar pca_cov.txt   --out re

日誌：

PLINK v1.90b5.3 64-bit (21 Feb 2018)           www.cog-genomics.org/plink/1.9/
(C) 2005-2018 Shaun Purcell, Christopher Chang   GNU General Public License v3
Logging to re.log.
Options in effect:
  --allow-no-sex
  --covar pca_cov.txt
  --file b
  --linear
  --out re
  --pheno phe.txt

515199 MB RAM detected; reserving 257599 MB for main workspace.
.ped scan complete (for binary autoconversion).
Performing single-pass .bed write (10000 variants, 1500 people).
--file: re-temporary.bed + re-temporary.bim + re-temporary.fam written.
10000 variants loaded from .bim file.
1500 people (0 males, 0 females, 1500 ambiguous) loaded from .fam.
Ambiguous sex IDs written to re.nosex .
1500 phenotype values present after --pheno.
Using 1 thread (no multithreaded calculations invoked).
--covar: 6 covariates loaded.
Before main variant filters, 1500 founders and 0 nonfounders present.
Calculating allele frequencies... done.
10000 variants and 1500 people pass filters and QC.
Phenotype data is quantitative.
Writing linear model association results to re.assoc.linear ... done.

有日誌可知，共有六個協變量加入了分析中。

結果文件：
re.assoc.linear

結果預覽：

4. 使用R語言進行結果比較lm+factor+pca

library(data.table)
geno = fread("c.raw")
geno[1:10,1:10]
phe = fread("phe.txt")
plink = fread("pca_cov.txt",header=F,sep=" ")
head(plink)
dd = data.frame(phe = phe$V3,cov1 = plink$V3,cov2 = plink$V4,cov3=plink$V5,pca1 = plink$V6,pca2 = plink$V7,pca3 = plink$V8,geno[,7:20])
head(dd)
mod_M7 = lm(phe ~ cov1+cov2+cov3+pca1+pca2+pca3 + M7_1,data=dd);summary(mod_M7)

M7加上因子協變量結果：

結果完全一樣。

5. 結論

plink中一般線性模型（LM），linear可以支持數值協變量，因子協變量（經過轉化），pca等等，這些過程都可以通過R語言的lm函數復現結果。

6. 一般線性模型可以用plink做，那麼混合線性模型怎麼做？gemma！

gemma也可以做一般線性模型，也可以做混合線性模型。plink只可以做一般線性模型，gemma可以利用plink的數據格式做一般線性模型和混合線性模型，這就很厲害了。

遺憾：gemma只有linux版本，所以後面的分析在linux系統下。

筆記 GWAS 操作流程4-5：LM模型+數值+因子+PCA協變量

1. 協變量文件整理

2. 使用plink的dummy coding轉化爲虛擬變量

3. 使用plink獲得pca結果

4. 將pca結果和協變量結果合併

5 進行協變量GWAS分析LM模型

4. 使用R語言進行結果比較lm+factor+pca

5. 結論

6. 一般線性模型可以用plink做，那麼混合線性模型怎麼做？gemma！

DAPPER 事務 TRANSACTION

RStudio能夠運行python了，改名爲“怕死禿頭工作站？？？”

使用R語言進行聚類分析：熱點圖+橫向聚類圖+縱向聚類圖

jupyter python函數幫助文檔的查看

vcftools 安裝

在Windows10下安裝個虛擬機學習Linux？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結