利用PLINK进行GWAS分析(三)
数据清洗/质量控制</br>
质控这一步剔除低质量的SNP和样本,一般对以下两个方面进行质控:</br>
(1)样本质控:剔除SNP检出率过低的样本,一般剔除分型率低于90%的样本,--mind 0.1
</br>
(2)SNP质控:剔除检出率过低的SNP,一般剔除SNP call rate低于90%的SNP,--geno 0.1
;剔除最小等位基因频率MAF低于0.05的SNP,--maf 0.05
;剔除严重偏离哈代温伯格平衡的SNP,--hwe 1e-5
quality filters:</br>
SNP call rate < 90%</br>
Individual call rate < 90%</br>
HWE pvalue < 1e-5</br>
MAF < 0.01
根据上述条件,利用PLINK进行质控:
#在windows下打开cmd,输入
plink --file test --maf 0.01 --mind 0.1 --geno 0.1 --hwe 1e-5 --make-bed --out test_qc
#质控后的数据,改写成二进制格式,命名为test_qc。
得到文件test_qc.bed
,test_qc.bim
和test_qc.fam
,留下作为后续分析的输入文件。