Annotate Variation(变异检测结果注释)
分析模块,输入vcf格式的变异信息文件,和对应的基因组注释数据库进行注释,输出注释后的变异结果。
关于VCF格式的详细介绍,参考:(http://www.1000genomes.org/wiki/Analysis/variant-call-format/)。
输入:
vcf格式的变异信息文件。
示例:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
16 50745926 rs2066844 C T 80 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,.
20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,.
20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3
20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4
20 1230237 . T G 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2
20 1230288 . T . 50 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2
20 1234567 microsat1 GTCT G,GTACT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
输出:
注释后的变异信息文件。
示例:
CHROM POS REF ALT NA00001 NA00002 NA00003 Region Genes Annotation Mutation
16 50745926 C T 0|0 1|0 1/1 exonic NOD2 nonsynonymous SNV NOD2:NM_001293557:exon3:c.C2023T:p.R675W,NOD2:NM_022162:exon4:c.C2104T:p.R702W,
20 14370 G A 0|0 1|0 1/1 intergenic NONE(dist=NONE),DEFB125(dist=53943) - -
20 17330 T A 0|0 0|1 0/0 intergenic NONE(dist=NONE),DEFB125(dist=50983) - -
20 1110696 A G,T 1|2 2|1 2/2 intronic PSMF1 - - intronic PSMF1 - -
20 1230237 T G 0|0 0|0 0/0 intronic RAD21L1 - -
20 1234567 GTCT G,GTACT 0/1 0/2 1/1 intronic RAD21L1 - - intronic RAD21L1 - -
注,输出文件的格式介绍如下所示:
CHROM 和 POS:变异所在的参考序列名称,和对应的坐标。如果突变类型是InDel,位置是REF中第一个碱基对应的位置。(与输入的VCF文件一致)。
REF 和 ALT:参考序列的碱基型,和所有变异的碱基型。其中,多个ALT碱基型用逗号隔开。(与输入的VCF文件一致)。
NA0001 NA0002 NA0000:对应样品的碱基型。两个数字中间用’/‘分 开,这两个数字表示二倍体样品的碱基型。0 表示样品中有REF的等位碱基型,1 表示样品中有第1个ALT的等位碱基,2表示样品中有第2个ALT的等位碱基,以此类推。因此,0/0 表示样品中该位点为纯合,且与REF一致。 0/1 表示样品中该位点为杂合,有REF和第1个ALT的碱基型。1/1 表示样品中该位点为纯合,均为第1个ALT的碱基型。(与输入的VCF文件一致)
Region:突变所在位置的类型。如:外显子、内含子、基因间区等。
Genes:突变所在位置的基因名称。如果在基因间区,给出最近相邻的两个基因名称。
Annotation:突变在外显子区域,对氨基酸编码的影响。如:同义突变、非同义突变、移码突变、非移码突变等。
Mutation:突变对核苷酸和氨基酸编码改变的详细信息。
注,如果ALT有两个或以上的变异碱基型,则在后续的列追加对应的注释信息。
分析模块引用了ANNOVAR v2016Feb01软件(http://annovar.openbioinformatics.org/en/latest/)。
相关文献如下所示:
Wang K, Li M, Hakonarson H. ANNOVAR: Functional annotation of genetic variants from next-generation sequencing data Nucleic Acids Research, 38:e164, 2010
Chang X, Wang K. wANNOVAR: annotating genetic variants for personal genomes via the web Journal of Medical Genetics, 49:433-436, 2012
Yang H, Wang K. Genomic variant annotation and prioritization with ANNOVAR and wANNOVAR Nature Protocols, 10:1556-1566, 2015