Extract DNA sequences(目标区域序列提取)
分析模块,输入bed区间信息文件和fasta序列文件,根据区间信息提取fasta文件中对应的序列信息。
输入:
1、fasta格式的序列文件。
>chr1
ATGCCTTCGCCATGTTGACGGGATCGTCCGCGACGGCAATCGCCGTATTCACTAACACCG
CGTCGGCCCCCATTTCCAGCGCCTGCGCGGCATGGCTGGGAACGCCGATGCCAGCATCGA
>chr2
……
>chr3
……
2、bed格式的区间信息文件。
chr1 2000 4000
chr2 13500 15000
chr3 23000 25000
输出:
根据bed区间提取的序列文件(fasta格式)。
示例:
>chr1:2000-4000
ATCGCCAGCCGCCAGTAATCGTTG
>chr2: 13500-15000
……
>chr3: 23000-25000
……
分析模块引用了bedtools v2-2.20.1软件中的getfasta命令进行序列的提取(http://bedtools.readthedocs.io/en/latest/)。
相关文献如下所示:
Quinlan AR and Hall IM, 2010. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26, 6, pp. 841–842.