eXpress方法比对和表达量计算

eXpress: Align and Estimate Abundance(eXpress方法比对和表达量计算)


  分析模块,封装了Trinity程序包中的“align_and_estimate_abundance.pl”脚本,进行原始数据与转录本序列的比对和表达量计算。其中,核心程序为,Bowtie或Bowtie2进行原始数据与转录本序列的比对,eXpress根据比对结果进行表达量的计算。核心程序相关参数为,Bowtie:'--all --best --strata -m 300 --chunkmbs 512'。Bowtie2:'--end-to-end'。eXpress:默认参数。

  分析模块,输入构建好索引的转录本参考文件(由分析模块“Build Transcript Reference Index”生成),以及转录组测序原始数据(fastq文件)。这里,推荐测序原始数据,先通过分析模块“Trimmomatic PE/SE”进行去接头污染和质量控制。

  分析模块,将转录组测序原始数据(fastq文件数据)比对回转录本参考序列,生成bam格式的比对结果文件,转录本水平表达结果文件,基因水平表达结果文件。

  注:bam文件,可以利用IGV软件打开,查看比对结果。

       IGV安装和使用,包含Windows桌面版和iPad版,官方网站提供了详细的文档。参考网站:(http://www.broadinstitute.org/igv/)。


  输入测序数据分两种模式(SE/PE):

  选择Paire-End时,分析模块处理双末端测序数据,需提供2个fastq原始数据文件,分别对应左端和右端测序结果。

  选择Single-Single时,分析模块处理单末端测序数据,需提供1个fastq原始数据文件。


  输入:

       1、构建好索引的转录本参考文件,由分析模块“Build Transcript Reference Index”生成。

       2、fastq格式的测序原始数据文件。

  示例:

@ecoli_section_9642_10205_3:0:0_1:0:0_0/1

CCCGCCATCTCTTGCAGAAGCGCCTGTTGCTGTACATGGTGCATTCGCATCCCCATCCCTACGCGGCTTC

+

2222222222222222222222222222222222222222222222222222222222222222222222


  如果,转录组是链特异性建库测序,则需要设置链特异性文库类型。

       PE测序,FR表明paired-reads与转录本一致,RF表明paired-reads与转录本反向互补链一致。

       SE测序,F表明read与转录本对应,R表明read对应转录本反向互补链。



  输出:

       1、bam格式的比对结果文件。

关于Bowtie输出的BAM/SAM格式介绍,参考:(http://bowtie-bio.sourceforge.net/manual.shtml#sam-bowtie-output)。

关于Bowti2输出的BAM/SAM格式介绍,参考:(http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#sam-output)。


       2、eXpress转录本水平表达结果文件。

  其中,每一列的含义如下所示:

l   bundle_id10ID of bundle the target belongs to. A bundle is defined as the transitive closure of targets that share multi-mapping reads.

l   target_idNM_016467The ID given to the target in the input multi-FASTA file.

l   length2182The number of base pairs in the target sequence given in the input multi-FASTA file.

l   eff_length783.136288The length of the target adjusted for fragment biases (length, sequence-specificity, and relative position). This number is what the fragment counts are normalized by to calculate FPKM, not the true length.

l   tot_counts99The number of fragments mapping (uniquely or ambiguously) to this target.

l   uniq_counts7The number of fragments uniquely mapping to this target.

l   est_counts26.702456The estimated number of fragments generated from this target in the sequencing experiment.

l   eff_counts74.399258The estimated number of fragments generated from this target in the sequencing experiment, adjusted for fragment and length biases. In other words, his is the expected number of reads from the experiment if these biases did not exist. This is the value recommended for input to count-biased differential expression tools.

l   ambig_distr_alpha3.154652The alpha parameter for the posterior beta-binomial distribution fit to the ambiguous reads.

l   ambig_distr_beta2.293653The beta parameter for the posterior beta-binomial distribution fit to the ambiguous reads.

l   fpkm3.514176The estimated relative abundance of this target in the sample in units of fragments per kilobase per million mapped. This value is proportional to est_counts divided by eff_length.

l   fpkm_conf_low2.119151The lower bound of the 95% confidence interval for the FPKM.

l   fpkm_conf_high4.9092The upper bound of the 95% confidence interval for the FPKM.

l   solvableTA binary (T/F) value indicating whether the likelihood function has a unique maximum. If false (F), the reported posterior distribution is uniform.

l   tpm234722.2Transcripts per million.


       3、eXpress基因水平表达结果文件。

  格式如上,与eXpress转录本表达结果文件一致。

  其中,基因水平的表达量计算结果为,该基因包含的所有转录本的表达量求和。


  后续的下游分析,如,差异表达分析、热图、PCA等。通常情况下,基于eff_counts和fpkm的数值进行分析,即基因原始DNA片段数估算结果和FPKM数值估计结果。



分析模块引用了Trinity v2.0.6程序包中的“align_and_estimate_abundance.pl”脚本(https://github.com/trinityrnaseq/trinityrnaseq/wiki)。

分析模块引用了Bowtie-0.12.7软件(http://bowtie-bio.sourceforge.net/index.shtml)。

分析模块引用了Bowtie2-2.1.0软件(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)。

分析模块引用了eXpress-1.5.1软件(http://bio.math.berkeley.edu/eXpress/)。


  相关文献如下所示:

Haas BJ, Papanicolaou A, Yassour M, Grabherr M, Blood PD, Bowden J, Couger MB, Eccles D, Li B, Lieber M, Macmanes MD, Ott M, Orvis J, Pochet N, Strozzi F, Weeks N, Westerman R, William T, Dewey CN, Henschel R, Leduc RD, Friedman N, Regev A. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nat Protoc. 2013 Aug;8(8):1494-512. Open Access in PMC doi: 10.1038/nprot.2013.084. Epub 2013 Jul 11. PubMed PMID: 23845962.

Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol 10:R25.

Langmead B, Salzberg S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 2012, 9:357-359.

Roberts A and Pachter L (2012). Streaming fragment assignment for real-time analysis of sequencing experiments. Nature Methods.


分享