TMM scaling normalization for count matrix(TMM方法均一化count矩阵)
分析模块,采用edgeR的TMM(trimmed mean of M-values)方法对测序片段计数矩阵(Count Matrix)进行标准化处理。
如果不提供基因的长度信息文件,将只进行TMM标准化处理。
如果提供基因的长度信息文件,将使用TMM方法将Count数据转换为FPKM数据,输出FPKM矩阵。
注:标准化处理之后的矩阵可用于PCA、热图、聚类分析等。
输入:
1、测序片段计数矩阵(Count Matrix)。
示例:
T4 T5 T6 T7 T8 T9
BM590_A0001 565 505 843 286 247 1909
BM590_A0002 362 295 512 124 118 876
BM590_A0003 235 213 333 126 47 1021
BM590_A0004 291 325 447 404 878 1600
BM590_A0005 530 607 848 709 1194 2001
BM590_A0006 456 425 786 287 139 1857
BM590_A0007 21 16 27 1 3 26
BM590_A0008 282 252 425 85 46 843
……
2、基因长度信息文件(可选),其中第一列为基因名称、第二列为对应的序列长度。
示例:
BM590_A0001 1584
BM590_A0002 1131
BM590_A0003 1155
BM590_A0004 783
BM590_A0005 957
……
输出:
TMM标准化处理后的矩阵(Matrix)。
示例:
T4 T5 T6 T7 T8 T9
BM590_A0001 390.11 379.54 386.52 288.73 372.47 327.73
BM590_A0002 350.06 310.51 328.78 175.32 249.21 210.62
BM590_A0003 222.52 219.54 209.39 174.45 97.20 240.38
BM590_A0004 406.46 494.13 414.62 825.09 2678.41 555.67
BM590_A0005 605.70 755.09 643.55 1184.73 2980.14 568.58
BM590_A0006 306.72 311.16 351.08 282.26 204.19 310.56
BM590_A0007 263.99 218.94 225.39 18.38 82.37 81.27
BM590_A0008 284.78 277.01 285.01 125.51 101.45 211.67
……
分析模块引用了R语言(v3.2.3)edgeR包(v3.10.2)进行标准化处理(http://bioconductor.org/packages/release/bioc/html/edgeR.html)。
相关文献如下所示:
Robinson MD, McCarthy DJ and Smyth GK (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139-140.