Affy SNP芯片CEL文件转化为Plink格式(AffyPipe)
利用AffyPipe工具整理Affy的SNP芯片原始数据为PLINK格式。
Affymetrix SNP芯片的原始文件为CEL文件,一个CEL文件即是一个个体的全部SNP分型结果。
分析平台:Ubuntu 12.04 LTS 64位系统</br>
准备工作:</br>
1、在ubuntu上安装git,并从github上获取AffyPipe软件包</br>
Ctrl+Alt+t
打开终端,打开终端时,默认处在家目录下,pwd
命令可以查看当前路径。在终端输入sudo apt-get install git-core
,等待安装完成后,输入git
后回车,出现如下画面说明git安装成功。
安装成功后,便可以用git从github上抓取AffyPipe软件包了。输入
git clone https://github.com/nicolazzie/AffyPipe
即在当前路径下新建了一个叫”AffyPipe”的文件夹,文件夹中情况
如果不想安装git,可以直接从”https://github.com/nicolazzie/AffyPipe”下载AffyPipe的zip包,解压后是一样的。
2、仔细阅读README.md文档,然后下面都可以不看了。
3、注册Affy官网账号并登陆http://affymetrix.com
。
4、从Affymetrix官网下载所需文件。</br>
4.1 Affy chicken芯片的解析文件。”Products > Microarry Solutions > DNA Analysis Solutions > Agrigenomics Solutions > Arrays > Species > Chicken > Axiom® Genome-Wide Chicken Genotyping Array > Technical Documents > Library Files”中下载”Axiom Genome Wide Chicken Analysis Files”(约59MB),下载下来的文件其实是Axiom_GW_GT_Chicken_Analysis.r1.zip
。
4.2 Affy chicken芯片的位点注释文件。”Products > Microarry Solutions > DNA Analysis Solutions > Agrigenomics Solutions > Arrays > Species > Chicken > Axiom® Genome-Wide Chicken Genotyping Array > Technical Documents >Current NetAffx Annotation Files”,下载CSV格式的注释文件(44MB),实际文件名为Axiom_GW_GT_Chicken.na35.annot.csv.zip
。
4.3 DevNet Tools。”Partners & Programs > Developers’ Network > DevNet Tools下载
APT-tools”(目前是apt-1.17.0-x86_64-intel-linux.zip)和SNPolisher
。
(Affymetrix DevNet Tools)
5、改造”AFFYTOOLS”文件夹内容。该目录~/AffyPipe/AFFYTOOLS/
下只保留apt-1.15.2-x86_64-intel-linux
和SNPolisher_package
两个子文件夹,其它的统统删掉。</br>
5.1 解压4.1中下载的Axiom_GW_GT_Chicken_Analysis.r1.zip
和4.2中下载的Axiom_GW_GT_Chicken.na35.annot.csv.zip
,将全部文件放入”~/AffyPipe/AFFYTOOLS/”路径下。</br>
5.2 解压4.3中下载的apt-1.17.0-x86_64-intel-linux.zip
,将全部文件放入”~/AffyPipe/AFFYTOOLS/apt-1.15.2-x86_64-intel-linux”路径下。
6、在R中安装SNPolisher
。打开R,运行install.packages('[your path to file: SNPolisher[[version]].tar.gz]',repos=NULL,type='source')
。
7、将自己的CEL文件(有可能是CEL.zip的压缩文件,需解压),全部放入”~/AffyPipe”路径下。
8、打开终端
在~/AffyPipe
路径下生成mycellistfile.txt
文件。
9、修改”~/AffyPipe” 路径下的 “PARM_species.inp” 文件内容。SPEC_prefix = Axiom_GW_GT_Chiken
,SPEC_version = r1
, SPEC_annotation = Axiom_GW_GT_Chicken.na35.annot.csv
。
现在文件夹AffyPipe中结构是这样:
10、运行AffyPipe.py程序。
这一步将CEL中的基因型数据整理出来并按照AffyPipe默认的条件质控后,输出plink的数据格式文件Axiom_genotypes_PLINKfmt.ped/map
。如果需要修改质控条件,参考python AffyPipe.py -h
。
11、运行PLINK,将”ped/map”文件转化为”bed/bim/fam”文件格式,plink --file Axiom_genotypes_PLINKfmt --make-bed
,修改fam文件中的个体表型等信息。
到此就完成了Affy SNP芯片的原始数据转化成PLINK的格式的全部过程。