不做实验就可以利用GEO数据库发现癌症的marker基因

1.jpg

                                                 

作者发现了Rsa/MAPK和PI3K途径中的一些基因可以做为潜在的肿瘤进程的分子标记。最后作者将研究结果与已发表的研究结果进行综合,提出了一个全新的膀胱癌发展为肌层浸润性疾病的模式图。在临床治疗中,这一研究结果具有改善膀胱癌病人鉴定,治疗和预后的潜能。


人体内基因那么多,怎么才能发现标志基因呢?


事实上,利用统计学方法,生物信息学方法,对基因进行聚类分析,代谢通路分析等方式,就可以发现与疾病密切相关的基因。临床数据获得的难度,成本都极高。但是,GEO数据库的出现,为广大研究者带来了福音。


在这篇文章中,作者就从GEO数据库里找到了GSE34684数据集,它包含了膀胱癌各个阶段的病人样本数据。


2.jpg


那么,作者到底是怎样去寻找膀胱癌中的标志基因的呢?


第一步:以Ta为参照,对比T1-T4期内的基因变化,寻找膀胱癌进程基因。利用Student’s t-test,对GSE数据进行差异性分析。从数据库中分离了4816个上调和693个下调基因。随后,利用WebGestalt在线工具进行KEGG富集分析。


3.jpg


这一结果说明,膀胱癌从Ta发展到T1+阶段的过程中,这些表达上调的基因大多与FGFR3和ErbB家族通路有关。但是,KEGG通路分布极多,富集分析又难以发现各个Pathway之间的关系。因此,作者利用Visual Understanding Environment工具构建了pathway之间的关系图。


4.jpg


这些结果揭示了在膀胱癌的进展过程与Ras/MAPK信号通路有关。


第二步:作者以Ta和T1共同作为对照组,分析T2+阶段基因表达差异,从而寻找出肌层浸润性基因。作者同样是进行了表达基因差异分析和Patway分析。最后发现了496个差异基因。pathway分析后,最终选择了23个癌症相关基因,并且,这些基因并不单独聚集在一个通路中,而是分布在不同的代谢通路中。


5.jpg


为了对这23个候选基因做进一步筛选,作者将这23个基因在其余数据库中的表达情况进行了分析。做菜采用Mann-Whitney Rank-Sum test的方式,检测这些基因在其余数据库中的差异显著性。最后选择了7个基因做进一步分析。


6.jpg

   

作者于是对这7个基因的功能进行了进一步的分析,利用PubGeneto等工具,对这7个基因的功能关联进行分析,并将其与第一步中的pathway关系进行关联,发现这些基因与已经报道的肌层浸润性及肿瘤代谢通路相关。


7.jpg


后续分析发现,COL3A1和COL5A1的表达差异及其显著,并且是肌层浸润性膀胱癌的新的相关基因。所以最后在细胞中检测了这两个基因的表达,进一步证实了COL3A1和COL5A1在肌层浸润性膀胱癌中的表达情况。


8.jpg

9.jpg


最终,作者基于已有的报道和本次研究结果,提出了一个新的肌层浸润性膀胱癌的基因功能和相互作用模式图。并提出膀胱癌的进展与Ras/MAPK信号通路密切相关。


11.jpg


总的来说,作者通过两条路线对肌层浸润性膀胱癌的标志基因及相关通路进行了分析,第一条是以Ta为对照组,发现了与膀胱癌相关的基因及通路,第二条是以Ta和T1为对照,发现了肌层浸润性膀胱癌的相关基因,最终将这两个结果进行整合,确定了肌层浸润性膀胱癌与Ras/MAPK途径密切关联。


12.jpg


尽管作者通过这种方式找出了几个膀胱癌的标志基因,但是作者在对GEO数据进行处理的时候,所有的样本都是来自于膀胱癌患者。并且作者在分析时将数个时期的基因表达数据进行了整合,这种方式分析出来的数据是不是不够准确?有没有更好的分析方式呢?


事实上,大多数时候研究者在选择对照的时候,都是以健康人群作为对照的。


此外,这篇文章是不是可以换一个思路来对膀胱癌的基因表达情况进行解析?比如,以健康人群为对照,分别分析Ta,T1,T2,T3,T4五个时期中的差异基因,然后在对这5个时期的差异基因进行分析,从而找出在这个过程中,有哪些基因发生了变化,发生了什么样的变化。这样分析是不是能够更加精准的找出膀胱癌的变化基因?或者,在作者的基础上,加入健康对照,是不是能够更加明确的找出膀胱癌的标志基因呢?读者们可以自己去探索。


整篇文章作者做了差异基因分析,做了KEGG富集分析,还对pathway的相互作用进行了分析,用到了多种不同的分析方法。后续我们会对这些方法进行一一解析。

分享