目的:
输入突变数据,用非负矩阵分解方法NMF分析突变特征,描述样本集的突变模式。
什么是突变模式:
这也是对TCGA数据的深度挖掘,从而提出的一个统计学概念。文章(Signatures of mutational processes in human cancer)研究了30种癌症,发现21种不同的mutation signature。如果理解了,就会发现这个其实蛮简单的,他们并不重新测序,只是拿已经有了的TCGA数据进行分析,而且居然是发表在nature上面!文章研究了4,938,362mutations from 7,042 cancers样本,突变频谱的概念只是针对于somatic 的mutation。一般是对癌症病人的肿瘤组织和癌旁组织配对测序,过滤得到的somaticmutation,一般一个样本也就几百个somatic 的mutation。
还有其它文章(Mutational signatures: the patterns of somatic mutations hidden in cancer genomes)也是这样分析的从2013年提出到现在,已经有30种mutation siganures,在cosmic数据库有详细记录,更新见:Mutational Signatures。它的概念就是:根据突变上下文分成96类,然后每类突变的频率不一样画一个条形图,可视化展现。
应用场景:
突变特征定义:体细胞突变是多个突变过程如DNA修复缺陷,暴露于外源或内源诱变剂等综合结果。不同的突变过程会产生不同组合的突变类型,即突变特征。利用突变特征分析感兴趣癌种突变特征,探讨其可能的发生病因及机制。
肿瘤突变频谱针对点突变进行定义,A,T,C,G四种碱基两两突变,共有4X3=12种排列,考虑到正负链碱基配对原则,正链上的A->C突变,对应负链上为T->G, 所以进一步转换成了一个组合的问题,所以某个位点的突变可以划分为以下6种模式
C>A, 表示C>A和G>T两种
C>G, 表示C>G和G>C两种
C>T, 表示C>T和G>A两种
T>A,表示T>A和A>T两种
T>C,表示T>C和A>G两种
T>G,表示T>G和A>C两种