差异表达分析,支持edgeR、DESeq2、limma

Differential Expression Analysis(差异表达分析,支持edgeR、DESeq2、limma)


  分析模块,封装了Trinity程序包中的“run_DE_analysis.pl”脚本,进行差异表达分析。可以,选择三种不同的分析方法,分别为:edgeR、DESeq2、limma。其中,edgeR支持单个样品,也支持重复样品之间的差异表达分析。DESeq2和limma只支持重复样品之间的差异表达分析。

  分析模块需要提供测序片段计数矩阵(Count Matrix),其中,样品名由数字、字母和下划线组成(不要包含空格等其他字符)。计数矩阵(Count Matrix),可通过模块栏目:“NGS: I.RNA-Seq Expression Calculation”下的模块,对原始数据进行比对、计算、合并得到。

       edgeR和DESeq2直接进行差异分析,limma利用voom转换后的数据进行差异分析。详细参考相应的文献信息。

  注意:分析模块不支持,FPKM矩阵等均一化之后的数据进行差异表达分析。


  输入:

       1、测序片段计数矩阵(Count Matrix)。

  示例:

  T4    T5    T6    T7    T8    T9

BM590_A0001         565   505   843   286   247   1909

BM590_A0002         362   295   512   124   118   876

BM590_A0003         235   213   333   126   47     1021

BM590_A0004         291   325   447   404   878   1600

BM590_A0005         530   607   848   709   1194         2001

BM590_A0006         456   425   786   287   139   1857

BM590_A0007         21     16     27     1       3       26

BM590_A0008         282   252   425   85     46     843

……


       2、重复样分组信息文件(edgeR可选,DESeq2和limma必须)。其中,第一列为样品名称,第二列为分组名称。

  示例:

T4     group1

T5     group1

T6     group1

T7     group2

T8     group2

T9     group2


  输出:

       HTML格式结果文件,链接所有样品或分组之间的差异表达分析结果。提供分组信息文件,输出分组之间的差异分析结果。反之,输出样品间的差异分析结果。

  示例:

1.jpg

       

       HTML文件链接如下后缀的文件,具体如下所示:

      (1)、*.DE_results文件,差异表达分析结果文件(文本文件,可用写字板,或Excel打开查看)。按检验的p值由小到大进行排序。

  

  其中,*.edgeR.DE_results文件,为选择edgeR方法的分析结果。对应的列从左到右,依次为id、logFC、logCPM、Pvalue、FDR。

示例:

logFC        logCPM    PValue      FDR

BM590_B0190         -6.22004162791632         13.3689809907188 2.98996378853995e-14   1.02137163016525e-10

BM590_B0191         -6.13104867587805         10.0374982362663 1.12830573683373e-13   1.92714619851201e-10

BM590_A0444         -5.49159468960263         12.9054578419781 3.92883335526202e-12   3.39358904855402e-09

  

  其中,*.DESeq2.DE_results文件,为选择DESeq2方法的分析结果。对应的列从左到右,依次为id、baseMeanA、baseMeanB、baseMean、log2FoldChange、lfcSE、stat、pvalue、padj。

  示例:

id      baseMeanA      baseMeanB      baseMean         log2FoldChange        lfcSE         stat   pvalue      padj

BM590_B0229         158.98500245234    20.4873928627442 89.736197657542    -2.77996667570144         0.275419809016736         -10.093561119028   5.89898095229944e-24   2.00211413521043e-20

BM590_A1150         115.630330206523 329.186305632427 222.408317919475 1.45325162909141 0.195306253915068         7.44088630015596 1.00012000838412e-13   1.69720365422786e-10

BM590_A1969         102.957928606499 27.5394749915221 65.2487017990105 -1.73283449312105         0.244551689813904         -7.08575963813492         1.38283643518483e-12   1.56444895367244e-09

  

  其中,*.limma.DE_results文件,为选择limma方法的分析结果。对应的列从左到右,依次为id、logFC、logCPM、Pvalue、FDR。

  示例:

logFC        logCPM    PValue      FDR

BM590_B0229         -3.07365718063767         6.67162693503122 0.000135691101766479 0.0772760824560096

BM590_Bt10   -3.45627760166394         3.00750469759457 9.68779097236066e-05   0.0747660968992843

BM590_Ar45   -2.80844908981892         2.72227474712603 0.000109403126864624 0.0747660968992843


  需要注意的是,假设,文件名包含:__sample1_vs_sample2__,logFC的值对应为:log2(sample2/sample1)。sample2比sample1表达量高,则logFC为正值,sample2比sample1表达量低,则logFC为负值。

  通常,会根据logFC、p值、q值进行差异表达结果的过滤和筛选。



      (2)、*.MA_plot.pdf文件,MA图。

2.jpg

注:每个点代表一个基因。对于edgeR和limma,横坐标为logCPM,纵坐标为logFC。对于DESeq2,横坐标为log2(baseMean+1),纵坐标为logFC。其中,黑色点代表没有差异表达的基因,蓝色点代表下调的基因,红色点代表上调的基因。



    (3)、*.Volcano_plot.pdf文件,火山图。

3.jpg

注:每个点代表一个基因。横坐标为logFC,纵坐标为-1*log10(FDR)。其中,黑色点代表没有差异表达的基因,蓝色点代表下调的基因,红色点代表上调的基因。



分析模块引用了Trinity v2.2.0程序包中的“run_DE_analysis.pl”脚本(https://github.com/trinityrnaseq/trinityrnaseq/wiki)。

edgeR,分析模块引用了R语言(v3.2.3edgeR包(v3.10.2)进行差异表达分析(http://bioconductor.org/packages/release/bioc/html/edgeR.html)。

DESeq2,分析模块引用了R语言(v3.2.3DESeq2包(v1.8.1)进行差异表达分析(http://bioconductor.org/packages/release/bioc/html/DESeq2.html)。

limma,分析模块引用了R语言(v3.2.3limma包(v3.24.14)进行差异表达分析(http://bioconductor.org/packages/release/bioc/html/limma.html)。


  相关文献如下所示:

Haas BJ, Papanicolaou A, Yassour M, Grabherr M, Blood PD, Bowden J, Couger MB, Eccles D, Li B, Lieber M, Macmanes MD, Ott M, Orvis J, Pochet N, Strozzi F, Weeks N, Westerman R, William T, Dewey CN, Henschel R, Leduc RD, Friedman N, Regev A. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nat Protoc. 2013 Aug;8(8):1494-512. Open Access in PMC doi: 10.1038/nprot.2013.084. Epub 2013 Jul 11. PubMed PMID: 23845962.

Robinson MD, McCarthy DJ and Smyth GK (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139-140.

Michael I Love, Wolfgang Huber and Simon Anders (2014): Moderated estimation of fold change and dispersion for RNA-Seq data with DESeq2. Genome Biology.

Ritchie, M.E., Phipson, B., Wu, D., Hu, Y., Law, C.W., Shi, W., and Smyth, G.K. (2015). limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research 43(7), e47.

分享