Build Transcript Reference Index(构建转录本参考索引)
分析模块,输入转录本序列文件(fasta格式),以及基因ID与转录本ID关系文件。建立Bowtie/Bowtie2比对和RSEM/eXpress表达量计算所需的转录本参考索引文件。
!!对于主要物种,软件团队从Ensemble网站上,下载并整理了对应物种的转录本序列文件,和基因ID与转录本ID关系文件。访问,VG软件官方网站:(http://www.vgenomics.cn/),进行下载。
输入:
1、fasta格式的转录本序列文件。
示例:
>ENSDART00000164359
ATGAAGGTCGAGCTGTGCAGTTTTAGCGGATACAAAATCTATCCCGGTCACGGCCGGCGATACGCCAGGA
TTGACGGAAAGGTTTTCCAGTTCCTCAATGCCAAATGTGAGTCTGCGTTTCTGTCCAAGAGGAACCCGAG
……
>ENSDART00000166393
ATGGCGGATCCGGTGCTGCAGATGCCGAATCACAGAGGTCCGGGGGTTTTAGACCTGTCGGCTCGGGGTC
TGCAGCGGCTGGAGCCTCAGCTGTTCCGCCCGGATTCACACACACACACCCTGATCCTGGATCAGAACCA
……
2、制表符分隔的基因ID与转录本ID关系表,文本文件。其中,第一列为:基因ID,第二列为:对应的转录本ID(转录本ID与fasta文件中的转录本序列ID一致)。
示例:
ENSDARG00000000001 ENSDART00000000004
ENSDARG00000000001 ENSDART00000169788
ENSDARG00000000002 ENSDART00000000005
ENSDARG00000000018 ENSDART00000138183
ENSDARG00000000019 ENSDART00000124452
ENSDARG00000000068 ENSDART00000000069
ENSDARG00000000068 ENSDART00000136272
ENSDARG00000000069 ENSDART00000000070
ENSDARG00000000069 ENSDART00000134964
ENSDARG00000000069 ENSDART00000140891
输出:
Bowtie/Bowtie2比对和RSEM/eXpress表达量计算所需的转录本参考索引文件(fasta格式)。
注:假设输出为trans_index.fasta,则索引由以下后缀的文件组成,包含:
trans_index.fasta(fasta格式的转录本序列文件)
trans_index.fasta.bowtie.1.ebwt
trans_index.fasta.bowtie.2.ebwt
trans_index.fasta.bowtie.3.ebwt
trans_index.fasta.bowtie.4.ebwt
trans_index.fasta.bowtie.ok
trans_index.fasta.bowtie.rev.1.ebwt
trans_index.fasta.bowtie.rev.2.ebwt
trans_index.fasta.bowtie2.1.bt2
trans_index.fasta.bowtie2.2.bt2
trans_index.fasta.bowtie2.3.bt2
trans_index.fasta.bowtie2.4.bt2
trans_index.fasta.bowtie2.ok
trans_index.fasta.bowtie2.rev.1.bt2
trans_index.fasta.bowtie2.rev.2.bt2
trans_index.fasta.gene_trans_map
trans_index.fasta.RSEM.grp
trans_index.fasta.RSEM.idx.fa
trans_index.fasta.RSEM.n2g.idx.fa
trans_index.fasta.RSEM.rsem.prepped.ok
trans_index.fasta.RSEM.seq
trans_index.fasta.RSEM.ti
trans_index.fasta.RSEM.transcripts.fa
分析模块引用了Bowtie-0.12.7软件(http://bowtie-bio.sourceforge.net/index.shtml)。
分析模块引用了Bowtie2-2.1.0软件 (http://bowtie bio.sourceforge.net/bowtie2/index.shtml)。
分析模块引用了RSEM-1.2.26软件(http://deweylab.github.io/RSEM/)。
分析模块引用了eXpress-1.5.1软件(http://bio.math.berkeley.edu/eXpress/)。
相关文献如下所示:
Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol 10:R25.
Langmead B, Salzberg S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 2012, 9:357-359.
Bo Li and Colin N Dewey. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics201112:323.
Roberts A and Pachter L (2012). Streaming fragment assignment for real-time analysis of sequencing experiments. Nature Methods.