数据清洗/质量控制</br> 质控这一步剔除低质量的SNP和样本,一般对以下两个方面进行质控:</br> (1)样本质控:剔除SNP检出率过低的样本,一般剔除分型率低于90%的样本,--mind 0.1</br> (2)SNP质控:剔除检出率过低的SNP,一般剔除SNP call rate低于90%的SNP,--geno 0.1;剔除最小等位基因频率MAF低于0.05的SNP,--maf 0.05;剔除严重偏离哈代温伯格平衡的SNP,--hwe 1e-5

quality filters:</br> SNP call rate < 90%</br> Individual call rate < 90%</br> HWE pvalue < 1e-5</br> MAF < 0.01

根据上述条件,利用PLINK进行质控:

#在windows下打开cmd,输入
plink --file test --maf 0.01 --mind 0.1 --geno 0.1 --hwe 1e-5  --make-bed --out test_qc
#质控后的数据,改写成二进制格式,命名为test_qc。

得到文件test_qc.bedtest_qc.bimtest_qc.fam,留下作为后续分析的输入文件。