TMM方法均一化count矩阵

TMM scaling normalization for count matrix(TMM方法均一化count矩阵)


  分析模块,采用edgeR的TMM(trimmed mean of M-values)方法对测序片段计数矩阵(Count Matrix)进行标准化处理。

  如果不提供基因的长度信息文件,将只进行TMM标准化处理。

  如果提供基因的长度信息文件,将使用TMM方法将Count数据转换为FPKM数据,输出FPKM矩阵。

  注:标准化处理之后的矩阵可用于PCA、热图、聚类分析等。


  输入:

       1、测序片段计数矩阵(Count Matrix)。

  示例:

      T4    T5    T6    T7    T8    T9

BM590_A0001         565   505   843   286   247   1909

BM590_A0002         362   295   512   124   118   876

BM590_A0003         235   213   333   126   47     1021

BM590_A0004         291   325   447   404   878   1600

BM590_A0005         530   607   848   709   1194         2001

BM590_A0006         456   425   786   287   139   1857

BM590_A0007         21     16     27     1       3       26

BM590_A0008         282   252   425   85     46     843

……


       2、基因长度信息文件(可选),其中第一列为基因名称、第二列为对应的序列长度。

  示例:

BM590_A0001         1584

BM590_A0002         1131

BM590_A0003         1155

BM590_A0004         783

BM590_A0005         957

……


  输出:

       TMM标准化处理后的矩阵(Matrix)。

  示例:

      T4    T5    T6    T7    T8    T9

BM590_A0001         390.11      379.54      386.52      288.73      372.47      327.73

BM590_A0002         350.06      310.51      328.78      175.32      249.21      210.62

BM590_A0003         222.52      219.54      209.39      174.45      97.20        240.38

BM590_A0004         406.46      494.13      414.62      825.09      2678.41    555.67

BM590_A0005         605.70      755.09      643.55      1184.73    2980.14    568.58

BM590_A0006         306.72      311.16      351.08      282.26      204.19      310.56

BM590_A0007         263.99      218.94      225.39      18.38        82.37        81.27

BM590_A0008         284.78      277.01      285.01      125.51      101.45      211.67

……



分析模块引用了R语言(v3.2.3edgeR包(v3.10.2)进行标准化处理(http://bioconductor.org/packages/release/bioc/html/edgeR.html)。



  相关文献如下所示:

Robinson MD, McCarthy DJ and Smyth GK (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139-140.


分享