GATK DepthOfCoverage(GATK方法统计目标区域深度覆盖度)
分析模块,封装了GATK的 DepthOfCoverage 命令,输入按坐标排序过的bam比对结果文件、参考序列文件、bed区间信息文件,统计bed文件中,目标区间内比对结果的深度和覆盖度信息。
关于SAM/BAM格式的介绍,参考分析模块 "Map with BWA" 的帮助文档,或者参考:(https://samtools.github.io/hts-specs/SAMv1.pdf)。
关于BED格式的介绍,参考:(http://asia.ensembl.org/info/website/upload/bed.html)。
输入:
1、fasta格式的参考序列文件。
2、坐标排序过的bam比对结果文件。
3、bed区间信息文件。
示例:
chr1 2000 4000
chr2 13500 15000
chr3 23000 25000
输出:
bed文件内,每个区间比对结果的深度和覆盖度信息。
示例:
Target total_depth average_depth %_above_0 %_above_1 %_above_5 %_above_10 %_above_15
ecoli_section:2001-4000 287685 143.84 100.0 100.0 100.0 100.0 100.0
ecoli_section:13501-15000 219340 146.23 100.0 100.0 100.0 100.0 100.0
ecoli_section:23001-25000 294815 147.41 100.0 100.0 100.0 100.0 100.0
注:
追加的第二列为,bed区间内比对上的碱基总数。
追加的第三列为,bed区间内碱基的平均深度。
追加的后续列为,深度在对应阈值之上的碱基覆盖度。
分析模块引用了GATK v3.5-g36282e4软件的DepthOfCoverage 功能进行目标区域深度和覆盖度的统计(https://software.broadinstitute.org/gatk/)。
相关文献如下所示:
The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, Gabriel S, Daly M, DePristo MA, 2010 GENOME RESEARCH 20:1297-303
A framework for variation discovery and genotyping using next-generation DNA sequencing data DePristo M, Banks E, Poplin R, Garimella K, Maguire J, Hartl C, Philippakis A, del Angel G, Rivas MA, Hanna M, McKenna A, Fennell T, Kernytsky A, Sivachenko A, Cibulskis K, Gabriel S, Altshuler D, Daly M, 2011 NATURE GENETICS 43:491-498
From FastQ Data to High-Confidence Variant Calls: The Genome Analysis Toolkit Best Practices Pipeline Van der Auwera GA, Carneiro M, Hartl C, Poplin R, del Angel G, Levy-Moonshine A, Jordan T, Shakir K, Roazen D, Thibault J, Banks E, Garimella K, Altshuler D, Gabriel S, DePristo M, 2013 CURRENT PROTOCOLS IN BIOINFORMATICS 43:11.10.1-11.10.33