肿瘤是一种遗传学相关的疾病,同样疾病的患者很少具有相同的基因型,却会出现类似的致癌突变模式。在过去的十年里,得益于二代测序技术的发展,分子检测已经越来越多地渗透到临床实践中,用于筛查癌症驱动基因的突变,这个过程中产生了庞大的遗传数据。癌症中基因突变和表型的关系中还有许多未知的机制有待研究和挖掘。
接下来,我们将通过分享一篇文章展示癌症突变的生信分析思路及技巧。这篇文章PMID为30545397。于2018年11月发表在期刊Journal of Hematology & Oncology上(具有8.731的影响因子)。
1、数据来源
研究用到了33个人骨髓瘤细胞系(HMCLs,Human myeloma cell lines),对其进行了全外显子测序,以检测基因突变情况。此外从以往研究中获取了这33种HMCLs的基因表达谱与药物测试结果,用于与全外显子测序结果进行关联分析。
这33种HMCLs在过去50年中由12个实验室建立,涵盖了多种多样的患者,被广泛用于原发性骨髓瘤的研究。HMCLs主要来源于难以治疗的患者,往往经历了会诱导DNA损伤的药物治疗。因此,HMCL包含了骨髓瘤从早期到晚期的所有遗传异常。
此外,作者还从过往研究中收集了早期多发骨髓瘤细胞(MM cells,可进一步区分为初诊断的多发骨髓瘤细胞DMM和复发的多发骨髓瘤细胞RMM)的遗传学数据作为骨髓瘤早期遗传对照。
2、突变数据筛选与分析
研究首先用到了R包SNPRelate对全部609585个双等位基因SNP进行整体富集分析,基于SNP富集可以将HMCLs细胞系划分为3组:①来源于太平洋/日本机构的细胞系;②除MM1S以外的所有其他细胞系;③来自非洲种族的MM1S。
图1. 33个HMCLs的SNP聚类分析
接着,作者参考ExAC数据库去除了各个种族中超过1%的种族突变。ExAC数据库的全称是外显子组整合数据库(the Exome Aggregation Consortium),收集了60706名不同种族个体的外显子序列,可用于对照,以筛除种族群体普遍存在的突变,避免对致病突变的误判。类似的数据库还有1000 Genomes以及ESP,我们将在文章最后进行深入介绍。此外,由于没有健康对照组,为了挑出肿瘤相关的特异性突变,区别作者去除了频率过高的突变。并去除了表达量过低的基因的突变。最终获得了7641个基因的15602个突变。
对于筛选出的突变,作者使用R包Maftools了统计,发现突变最频繁的样本为 KMM1(916)和KMS12PE(755),最普遍的突变类型为错义突变(14309,92%)。
图2. 突变类型统计(A绝对数量,B取Log10)
此外,单点突变主要是C>T(63%),对应于5-甲基胞嘧啶的自发脱氨基。
图3. 碱基突变方式统计
最后,为了直观地展示基因突变情况,作者就各基因突变绘制了Lollipop图。
图4. TP53的突变Lollipop图
3、HMCLs与MM cells突变情况的差异
作者同样整理了MM cells里的基因突变情况,并用来与HMCLs对比分析共同突变与差异。
比较表明,HMCLs与MM cells(不论是DMM还是RMM)在DIS3、PRDM1、BIRC3、EGR1等基因上具有相似的突变率,这些突变往往是疾病早期的致病突变,受后续处理和细胞培养环境关系不大。KRAS的突变率在三者中也基本相似。相较之下,NRAS、TP53、CDKN2C、PRKD2、FAM46C和BRAF从MM cells到HMCLs突变频率有显著的增加。这种突变频率的增加可能与HMCLs来源群体遭遇的连续复发以及继发性血浆细胞白血病有关。
图6. HMCLs与MMcells基因突变频率的比较(横轴代表基因在DMM中的突变频率,红点纵轴代表基因在HMCLs中的突变频率,蓝点纵轴代表基因在RMM中的突变频率)
作者对突变基因进行了注释分析,发现范可尼贫血基因、解旋酶、表观遗传修饰因子等类型的基因在HMCLs里有较为频繁的突变。而参与凋亡途径的基因几乎没有突变。
图6. HMCLs高频突变基因Oncoprint
4、HMCLs中突变基因的GO、Pathway分析
为了研究突变基因的功能,作者进一步对突变基因进行了GO、Pathway富集分析。GO分析发现,大多数失调的生物过程与Rho磷酸激酶信号转导、细胞周期/DNA复制和DNA损伤有关。
图7. HMCLs突变基因的GO富集(BP)
而Pathway富集发现,原癌基因MAPK信号通路有显著的富集(q value < 0.05),将q value放宽到0.1的话,DNA修复、p53活性调节以及DNA双螺旋修饰等关键信号通路也观测到了富集。
图8. HMCLs突变基因的ReactomePathway富集