利用AffyPipe工具整理Affy的SNP芯片原始数据为PLINK格式。

Affymetrix SNP芯片的原始文件为CEL文件,一个CEL文件即是一个个体的全部SNP分型结果。

分析平台:Ubuntu 12.04 LTS 64位系统</br>

准备工作:</br> 1、在ubuntu上安装git,并从github上获取AffyPipe软件包</br> Ctrl+Alt+t打开终端,打开终端时,默认处在家目录下,pwd命令可以查看当前路径。在终端输入sudo apt-get install git-core,等待安装完成后,输入git后回车,出现如下画面说明git安装成功。 git 安装成功后,便可以用git从github上抓取AffyPipe软件包了。输入 git clone https://github.com/nicolazzie/AffyPipe即在当前路径下新建了一个叫”AffyPipe”的文件夹,文件夹中情况 git 如果不想安装git,可以直接从”https://github.com/nicolazzie/AffyPipe”下载AffyPipe的zip包,解压后是一样的。

2、仔细阅读README.md文档,然后下面都可以不看了。

3、注册Affy官网账号并登陆http://affymetrix.com

4、从Affymetrix官网下载所需文件。</br> 4.1 Affy chicken芯片的解析文件。”Products > Microarry Solutions > DNA Analysis Solutions > Agrigenomics Solutions > Arrays > Species > Chicken > Axiom® Genome-Wide Chicken Genotyping Array > Technical Documents > Library Files”中下载”Axiom Genome Wide Chicken Analysis Files”(约59MB),下载下来的文件其实是Axiom_GW_GT_Chicken_Analysis.r1.zip

4.2 Affy chicken芯片的位点注释文件。”Products > Microarry Solutions > DNA Analysis Solutions > Agrigenomics Solutions > Arrays > Species > Chicken > Axiom® Genome-Wide Chicken Genotyping Array > Technical Documents >Current NetAffx Annotation Files”,下载CSV格式的注释文件(44MB),实际文件名为Axiom_GW_GT_Chicken.na35.annot.csv.zip

4.3 DevNet Tools。”Partners & Programs > Developers’ Network > DevNet Tools下载APT-tools”(目前是apt-1.17.0-x86_64-intel-linux.zip)和SNPolisher。 (Affymetrix DevNet Tools)

5、改造”AFFYTOOLS”文件夹内容。该目录~/AffyPipe/AFFYTOOLS/下只保留apt-1.15.2-x86_64-intel-linuxSNPolisher_package两个子文件夹,其它的统统删掉。</br> 5.1 解压4.1中下载的Axiom_GW_GT_Chicken_Analysis.r1.zip和4.2中下载的Axiom_GW_GT_Chicken.na35.annot.csv.zip,将全部文件放入”~/AffyPipe/AFFYTOOLS/”路径下。</br> 5.2 解压4.3中下载的apt-1.17.0-x86_64-intel-linux.zip,将全部文件放入”~/AffyPipe/AFFYTOOLS/apt-1.15.2-x86_64-intel-linux”路径下。

6、在R中安装SNPolisher。打开R,运行install.packages('[your path to file: SNPolisher[[version]].tar.gz]',repos=NULL,type='source')

7、将自己的CEL文件(有可能是CEL.zip的压缩文件,需解压),全部放入”~/AffyPipe”路径下。

8、打开终端

cd ~/AffyPipe
chmod +x createcelfile.sh
createcelfile.sh *.CEL

~/AffyPipe路径下生成mycellistfile.txt文件。

9、修改”~/AffyPipe” 路径下的 “PARM_species.inp” 文件内容。SPEC_prefix = Axiom_GW_GT_ChikenSPEC_version = r1, SPEC_annotation = Axiom_GW_GT_Chicken.na35.annot.csv。 现在文件夹AffyPipe中结构是这样:

AffyPipe- - AFFYTOOLS
		|
		- -	Affypipe.py
		|
		- - creatcelfile.sh
		|
		- - *.CEL

10、运行AffyPipe.py程序。

cd ~/AffyPipe
python AffyPipe.py mycellistfile.txt --plinkACGT

这一步将CEL中的基因型数据整理出来并按照AffyPipe默认的条件质控后,输出plink的数据格式文件Axiom_genotypes_PLINKfmt.ped/map。如果需要修改质控条件,参考python AffyPipe.py -h

11、运行PLINK,将”ped/map”文件转化为”bed/bim/fam”文件格式,plink --file Axiom_genotypes_PLINKfmt --make-bed,修改fam文件中的个体表型等信息。

到此就完成了Affy SNP芯片的原始数据转化成PLINK的格式的全部过程。