差异表达分析，支持edgeR、DESeq2、limma

Differential Expression Analysis（差异表达分析，支持edgeR、DESeq2、limma）

　　分析模块，封装了Trinity程序包中的“run_DE_analysis.pl”脚本，进行差异表达分析。可以，选择三种不同的分析方法，分别为：edgeR、DESeq2、limma。其中，edgeR支持单个样品，也支持重复样品之间的差异表达分析。DESeq2和limma只支持重复样品之间的差异表达分析。

　　分析模块需要提供测序片段计数矩阵（Count Matrix），其中，样品名由数字、字母和下划线组成（不要包含空格等其他字符）。计数矩阵（Count Matrix），可通过模块栏目：“NGS: I.RNA-Seq Expression Calculation”下的模块，对原始数据进行比对、计算、合并得到。

edgeR和DESeq2直接进行差异分析，limma利用voom转换后的数据进行差异分析。详细参考相应的文献信息。

　　注意：分析模块不支持，FPKM矩阵等均一化之后的数据进行差异表达分析。

　　输入：

1、测序片段计数矩阵（Count Matrix）。

　　示例：

T4 T5 T6 T7 T8 T9

BM590_A0001 565 505 843 286 247 1909

BM590_A0002 362 295 512 124 118 876

BM590_A0003 235 213 333 126 47 1021

BM590_A0004 291 325 447 404 878 1600

BM590_A0005 530 607 848 709 1194 2001

BM590_A0006 456 425 786 287 139 1857

BM590_A0007 21 16 27 1 3 26

BM590_A0008 282 252 425 85 46 843

……

2、重复样分组信息文件（edgeR可选，DESeq2和limma必须）。其中，第一列为样品名称，第二列为分组名称。

　　示例：

T4 group1

T5 group1

T6 group1

T7 group2

T8 group2

T9 group2

　　输出：

HTML格式结果文件，链接所有样品或分组之间的差异表达分析结果。提供分组信息文件，输出分组之间的差异分析结果。反之，输出样品间的差异分析结果。

　　示例：

HTML文件链接如下后缀的文件，具体如下所示：

（1）、*.DE_results文件，差异表达分析结果文件（文本文件，可用写字板，或Excel打开查看）。按检验的p值由小到大进行排序。

　　其中，*.edgeR.DE_results文件，为选择edgeR方法的分析结果。对应的列从左到右，依次为id、logFC、logCPM、Pvalue、FDR。

示例：

logFC logCPM PValue FDR

BM590_B0190 -6.22004162791632 13.3689809907188 2.98996378853995e-14 1.02137163016525e-10

BM590_B0191 -6.13104867587805 10.0374982362663 1.12830573683373e-13 1.92714619851201e-10

BM590_A0444 -5.49159468960263 12.9054578419781 3.92883335526202e-12 3.39358904855402e-09

　　其中，*.DESeq2.DE_results文件，为选择DESeq2方法的分析结果。对应的列从左到右，依次为id、baseMeanA、baseMeanB、baseMean、log2FoldChange、lfcSE、stat、pvalue、padj。

　　示例：

id baseMeanA baseMeanB baseMean log2FoldChange lfcSE stat pvalue padj

BM590_B0229 158.98500245234 20.4873928627442 89.736197657542 -2.77996667570144 0.275419809016736 -10.093561119028 5.89898095229944e-24 2.00211413521043e-20

BM590_A1150 115.630330206523 329.186305632427 222.408317919475 1.45325162909141 0.195306253915068 7.44088630015596 1.00012000838412e-13 1.69720365422786e-10

BM590_A1969 102.957928606499 27.5394749915221 65.2487017990105 -1.73283449312105 0.244551689813904 -7.08575963813492 1.38283643518483e-12 1.56444895367244e-09

　　其中，*.limma.DE_results文件，为选择limma方法的分析结果。对应的列从左到右，依次为id、logFC、logCPM、Pvalue、FDR。

　　示例：

logFC logCPM PValue FDR

BM590_B0229 -3.07365718063767 6.67162693503122 0.000135691101766479 0.0772760824560096

BM590_Bt10 -3.45627760166394 3.00750469759457 9.68779097236066e-05 0.0747660968992843

BM590_Ar45 -2.80844908981892 2.72227474712603 0.000109403126864624 0.0747660968992843

　　需要注意的是，假设，文件名包含：__sample1_vs_sample2__，logFC的值对应为：log2(sample2/sample1)。sample2比sample1表达量高，则logFC为正值，sample2比sample1表达量低，则logFC为负值。

　　通常，会根据logFC、p值、q值进行差异表达结果的过滤和筛选。

（2）、*.MA_plot.pdf文件，MA图。

注：每个点代表一个基因。对于edgeR和limma，横坐标为logCPM，纵坐标为logFC。对于DESeq2，横坐标为log2(baseMean+1)，纵坐标为logFC。其中，黑色点代表没有差异表达的基因，蓝色点代表下调的基因，红色点代表上调的基因。

（3）、*.Volcano_plot.pdf文件，火山图。

注：每个点代表一个基因。横坐标为logFC，纵坐标为-1*log10(FDR)。其中，黑色点代表没有差异表达的基因，蓝色点代表下调的基因，红色点代表上调的基因。

分析模块引用了Trinity v2.2.0程序包中的“run_DE_analysis.pl”脚本（https://github.com/trinityrnaseq/trinityrnaseq/wiki）。

edgeR，分析模块引用了R语言（v3.2.3）edgeR包（v3.10.2）进行差异表达分析（http://bioconductor.org/packages/release/bioc/html/edgeR.html）。

DESeq2，分析模块引用了R语言（v3.2.3）DESeq2包（v1.8.1）进行差异表达分析（http://bioconductor.org/packages/release/bioc/html/DESeq2.html）。

limma，分析模块引用了R语言（v3.2.3）limma包（v3.24.14）进行差异表达分析（http://bioconductor.org/packages/release/bioc/html/limma.html）。

　　相关文献如下所示：

Haas BJ, Papanicolaou A, Yassour M, Grabherr M, Blood PD, Bowden J, Couger MB, Eccles D, Li B, Lieber M, Macmanes MD, Ott M, Orvis J, Pochet N, Strozzi F, Weeks N, Westerman R, William T, Dewey CN, Henschel R, Leduc RD, Friedman N, Regev A. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nat Protoc. 2013 Aug;8(8):1494-512. Open Access in PMC doi: 10.1038/nprot.2013.084. Epub 2013 Jul 11. PubMed PMID: 23845962.

Robinson MD, McCarthy DJ and Smyth GK (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139-140.

Michael I Love, Wolfgang Huber and Simon Anders (2014): Moderated estimation of fold change and dispersion for RNA-Seq data with DESeq2. Genome Biology.

Ritchie, M.E., Phipson, B., Wu, D., Hu, Y., Law, C.W., Shi, W., and Smyth, G.K. (2015). limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research 43(7), e47.

下一篇：合并多个样品eXpress表达量计算结果，得到count和fpkm矩阵

上一篇：过滤差异表达分析结果