Annotate Variation V3(V3版本变异检测结果注释)
分析模块,输入vcf格式的变异信息文件,和对应的基因组注释数据库进行注释,输出注释后的变异结果。
关于VCF格式的详细介绍,参考:(http://www.1000genomes.org/wiki/Analysis/variant-call-format/)。
输入:
vcf格式的变异信息文件(必须输入由GATK生成的VCF文件)。
示例:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT sample1
chr1 941119 . A G 59.74 . AC=2;AF=1.00;AN=2;DP=3;Dels=0.00;ExcessHet=3.0103;FS=0.000;HaplotypeScore=0.0000;MLEAC=2;MLEAF=1.00;MQ=60.00;MQ0=0;QD=19.91;SOR=1.179 GT:AD:DP:GQ:PL 1/1:0,3:3:6:87,6,0
chr1 944296 . G A 57.74 . AC=2;AF=1.00;AN=2;DP=2;Dels=0.00;ExcessHet=3.0103;FS=0.000;HaplotypeScore=0.0000;MLEAC=2;MLEAF=1.00;MQ=60.00;MQ0=0;QD=28.87;SOR=2.303 GT:AD:DP:GQ:PL 1/1:0,2:2:6:85,6,0
chr1 944307 . T C 51.74 . AC=2;AF=1.00;AN=2;DP=2;Dels=0.00;ExcessHet=3.0103;FS=0.000;HaplotypeScore=0.0000;MLEAC=2;MLEAF=1.00;MQ=60.00;MQ0=0;QD=25.87;SOR=2.303 GT:AD:DP:GQ:PL 1/1:0,2:2:6:79,6,0
chr1 948245 . A G 51.74 . AC=2;AF=1.00;AN=2;DP=2;Dels=0.00;ExcessHet=3.0103;FS=0.000;HaplotypeScore=0.0000;MLEAC=2;MLEAF=1.00;MQ=60.00;MQ0=0;QD=25.87;SOR=2.303 GT:AD:DP:GQ:PL 1/1:0,2:2:6:79,6,0
chr1 952180 . A C 104.28 . AC=2;AF=1.00;AN=2;DP=5;Dels=0.00;ExcessHet=3.0103;FS=0.000;HaplotypeScore=0.0000;MLEAC=2;MLEAF=1.00;MQ=60.00;MQ0=0;QD=20.86;SOR=1.022 GT:AD:DP:GQ:PL 1/1:0,5:5:9:132,9,0
输出:
注释后的变异信息文件(仅输出第一个样本的碱基型和对应的碱基深度信息)。
示例:
#CHROM POS REF ALT QUAL GENOTYPE DEPTH A_DEPTH T_DEPTH C_DEPTH G_DEPTH Region Genes Annotation Mutation
chr1 941119 A G 59.74 G/G 3 0 0 0 3 intergenic HES4(dist=5567),ISG15(dist=7728) - -
chr1 944296 G A 57.74 A/A 2 2 0 0 0 intergenic HES4(dist=8744),ISG15(dist=4551) - -
chr1 944307 T C 51.74 C/C 2 0 0 2 0 intergenic HES4(dist=8755),ISG15(dist=4540) - -
chr1 948245 A G 51.74 G/G 2 0 0 0 2 upstream ISG15 - -
chr1 952180 A C 104.28 C/C 5 0 0 5 0 intergenic ISG15(dist=2261),AGRN(dist=3323) - -
-
注,输出文件的格式介绍如下所示:
CHROM 和 POS:变异所在的参考序列名称,和对应的坐标。如果突变类型是InDel,位置是REF中第一个碱基对应的位置。(与输入的VCF文件一致)。
REF 和 ALT:参考序列的碱基型,和所有变异的碱基型。其中,多个ALT碱基型用逗号隔开。(与输入的VCF文件一致)。
QUAL:突变的质量值信息(phred-scaled)(与输入的VCF文件一致)。
GENOTYPE:第一个样品的碱基型信息。
A_DEPTH:第一个样品对应的A碱基深度信息。
T_DEPTH:第一个样品对应的T碱基深度信息。
C_DEPTH:第一个样品对应的C碱基深度信息。
G_DEPTH:第一个样品对应的G碱基深度信息。
Region:突变所在位置的类型。如:外显子、内含子、基因间区等。
Genes:突变所在位置的基因名称。如果在基因间区,给出最近相邻的两个基因名称。
Annotation:突变在外显子区域,对氨基酸编码的影响。如:同义突变、非同义突变、移码突变、非移码突变等。
Mutation:突变对核苷酸和氨基酸编码改变的详细信息。
注,如果ALT有两个或以上的变异碱基型,则在后续的列追加对应的注释信息。
分析模块引用了ANNOVAR v2016Feb01软件(http://annovar.openbioinformatics.org/en/latest/)。
相关文献如下所示:
Wang K, Li M, Hakonarson H. ANNOVAR: Functional annotation of genetic variants from next-generation sequencing data Nucleic Acids Research, 38:e164, 2010
Chang X, Wang K. wANNOVAR: annotating genetic variants for personal genomes via the web Journal of Medical Genetics, 49:433-436, 2012
Yang H, Wang K. Genomic variant annotation and prioritization with ANNOVAR and wANNOVAR Nature Protocols, 10:1556-1566, 2015