——STEM分析代码 |
STEM 基因表达趋势分析
基因调控网络是一个连续且复杂的动态系统。当生物体按照一定顺序发生变化或者受到外界环境刺激(如受到不同浓度的化学药物诱导)时,基因表达变化也会呈现趋势特征。趋势分析就是发现基因表达的趋势特征,将相同变化特征的基因集中在一种变化趋势中,从而找到实验变化过程中最具有代表性的基因群。STEM(Short Time-series Expression Miner),中文名短时间序列表达挖掘器。该软件主要用于分析短时间实验数据,也可用于多组小样本数据。推荐3至8组数据。一般可应用的研究方向有:多个时间点的时间序列数据,例如多个发育时期、处理后多个时间点取样。
基本原理
STEM采用了一种新的聚类算法来分析时间序列基因表达趋势。
聚类算法首先选择一组不同的、有代表性的时间表达模式(temporal expression profiles)作为模型(modelprofiles)。模型是独立于数据选择的,并从理论上保证了所选择的模型剖面具有代表性。然后,根据每个标准化过后的基因表达模式,分配给模型中相关系数最高的时间表达模式。由于模型的选择是独立于数据的,因此该算法可以通过排列测试,确定哪些时间表达模式在统计意义上显著富集基因。对每一个基因都分配时间表达模式完成后,该聚类算法使用标准的假设检验来确定与排列运行中分配给模型配置文件的平均数量相比,哪个时间表达模式在时间点的真实顺序下分配的基因明显更多。
数据要求
表达谱芯片或测序数据(已经过预处理)
下游分析
得到显著富集的时间表达模式之后的分析有:
1.时间表达模式中基因的功能富集
2.时间表达模式中基因表达与性状之间的相关性
挖掘模块的关键信息:
1.找到时间表达模式中的核心基因
2.利用关系预测该时间表达模式功能
图形示例:
1. 趋势分析结果图
对富集得到的基因表达趋势结果进行绘制,可以较为直观的看到不同表达趋势模式下的基因数量。
图注:
每个框对应一个基因表达趋势模型,框顶左侧的数字为该趋势的编号,框内的线段描绘了实验期间不同节点模型表达量的变化,框底左侧数字为该时间表达模式富集基因数,用红色和绿色表示趋势显著富集,筛选标准默认为p-value<0.05,其中红色表示显著向上的趋势,绿色表示显著向下的趋势。
2. 不同趋势基因表达情况
对感兴趣的部分,绘制趋势的表达折线图以及箱线图,能够直观地观察该基因的变化趋势及不同分组的差异情况。
图注:
左侧图为基因表达趋势的折线图,右侧为基因表达趋势的箱线图。横坐标为分组,纵坐标为标准化后的基因表达差异数(log2FC)。
应用示例:
文献1:Dynamic EBF1 occupancy directs sequential epigenetic and transcriptionalevents in B-cell programming(于2018年1月发表在Genes Dev. ,影响因子3.331)
EBF1动态占据在B细胞中对序列表观遗传和转录过程的影响
该文献采用基因表达趋势分析,探寻了EBF1诱导前后25 kb转录起始位点内基因转录水平的差异,来寻找EBF1对特定功能基因的影响以及造成影响的时间节点。
文献2:Comprehensive transcriptional profiling of NaCl-stressed Arabidopsis rootsreveals novel classes of responsive genes(于2016年10月发表在BMC Plant Biol.,影响因子3.670)
盐胁迫下拟南芥根的基因表达情况
该文献采用基因表达趋势分析,研究了高浓度盐水作用不同时间下拟南芥根的基因表达差异,来探寻在遇到高浓度盐水时拟南芥在基因层面上的应对方式。