目标区域序列提取

Extract DNA sequences(目标区域序列提取)


  分析模块,输入bed区间信息文件和fasta序列文件,根据区间信息提取fasta文件中对应的序列信息。


  输入:

       1、fasta格式的序列文件。

>chr1

ATGCCTTCGCCATGTTGACGGGATCGTCCGCGACGGCAATCGCCGTATTCACTAACACCG

CGTCGGCCCCCATTTCCAGCGCCTGCGCGGCATGGCTGGGAACGCCGATGCCAGCATCGA

>chr2

……

>chr3

……


       2、bed格式的区间信息文件。

chr1   2000         4000

chr2   13500       15000

chr3   23000       25000


  输出:

  根据bed区间提取的序列文件(fasta格式)。

  示例:

>chr1:2000-4000

ATCGCCAGCCGCCAGTAATCGTTG

>chr2: 13500-15000

……

>chr3: 23000-25000

……


  分析模块引用了bedtools v2-2.20.1软件中的getfasta命令进行序列的提取(http://bedtools.readthedocs.io/en/latest/)。


相关文献如下所示:

Quinlan AR and Hall IM, 2010. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26, 6, pp. 841–842.


分享