Subcluster Expression Analysis(子表模式、时序分析)
分析模块,输入差异基因FPKM矩阵,对差异基因进行聚类。根据选择的聚类算法将差异基因分为若干个cluster,同一cluster中的基因在不同的处理条件下具有相似的表达水平变化趋势。用于研究不同发育时期,或不同时间节点,具有相似功能基因集(cluster)的表达模式变化趋势。
分析模块默认对fpkm进行log2(fpkm+1) – median(log2(fpkm+1))变换,其中median(log2(fpkm+1))为一行中fpkm取对数之后的中位数;差异基因距离计算方式为欧式距离;差异基因聚类方法为H-cluster(complete)。cluster划分,基于层次聚类结果最高高度的50%为准则。如下图的第二根红线(50%),将层次聚类结果划分为4个cluster。第一根红线(80%),将层次聚类结果划分为2个cluster。
下图结果,先通过分析模块“Matrix Transpose”对差异基因FPKM矩阵进行转置,接着通过分析模块“Plot hcluster tree”生成差异基因聚类树状图。
示例:
划分cluster三种方法如下所示:
1、define K clusters via k-means algorithm(K),采用k-means算法,将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。
2、cut tree into K clusters(Ktree),将层次聚类结果划分为预先定义的若干个cluster。
3、cut tree based on this percent of max(height) of tree(Ptree),基于层次聚类结果最高高度的某个百分比为准则,将层次聚类结果划分为若干个cluster。如上所示,第二根红线(50%,默认),将层次聚类结果划分为4个cluster。第一根红线(80%),将层次聚类结果划分为2个cluster。
输入:
差异基因FPKM矩阵(过滤FPKM矩阵中,非差异表达基因对应的行)。
!!不能使用包含非差异表达基因的原始FPKM矩阵。
示例:
T4 T5 T6 T7 T8 T9
BM590_A0004 406.46 494.13 414.62 825.09 2678.41 555.67
BM590_A0005 605.70 755.09 643.55 1184.73 2980.14 568.58
BM590_A0015 382.41 435.68 435.09 667.24 1664.78 511.53
BM590_A0021 305.80 347.07 323.75 151.16 57.04 252.18
BM590_A0025 82.60 71.30 83.22 95.78 311.02 96.31
BM590_A0028 389.64 441.62 387.26 1020.02 5531.28 345.31
BM590_A0046 295.72 291.23 379.24 308.84 92.26 517.02
……
输出:
差异基因子表达模式分析HTML结果(链接每个cluster表达模式分析结果)。
示例:
关于HTML链接的文件内容和格式。
*.matrix.txt文件,为对应cluster内差异基因的FPKM变换后的矩阵,示例如下所示:
T4 T5 T6 T7 T8 T9
BM590_A0004 -0.749457501583235 -0.468308574684485 -0.720850860071982 0.27018302771744 1.9677275126291 -0.299293604006831
BM590_A0005 -0.596221339387686 -0.278646677124906 -0.508912372925508 0.370498978458865 1.70058757274979 -0.687306161770556
BM590_A0015 -0.618815217439915 -0.431126725920521 -0.433077274641915 0.182663160221544 1.50042278812682 -0.200066730346016
BM590_A0025 -0.355251237014787 -0.564758532144552 -0.344591303813938 -0.144045240106233 1.54481242214129 -0.136166109061779
BM590_A0028 -0.867949808088259 -0.687720849687327 -0.876766408122956 0.518149730081767 2.95601277979255 -1.04172544397578
BM590_A0052 -0.583832994248541 -0.916536798830829 -0.798661563770105 0.95883967448685 1.51888954715657 -0.178697864793941
*.pdf文件,为cluster表达趋势折线图,示例如下所示:
注:横坐标为各比较样本组,纵坐标为基因在该组样本中的表达量。图中每一条线表示一个基因,蓝色的线表示该cluster中所有基因的表达量平均值。每张图展示一种类型的表达模式,即体现这组基因表达量变化的趋势。
通常,会把样本按时间,或发育时期进行排序。表达模式一直向上,一直向下,或只有一个转折点的结果具有生物学意义。
对输入的差异基因FPKM矩阵,可以先使用分析模块“Reorder Matrix columns”进行样本的重新排序。
后续,可以将同一个cluster内的差异基因进行GO或KEGG富集分析,分析cluster内差异基因行使的具体功能。分析结果通过分析模块“Batch Mode: Retrieve Genes list”处理之后,提供给富集分析批处理模块。
分析模块引用R语言(v3.2.1)中的kmeans函数进行k-means聚类,cor函数进行相关系数计算,dist函数进行距离计算,hclust函数进行差异基因间的层次聚类,cutree函数进行层次聚类结果的划分。