测序“污染”不浪费,柳暗花明又一村!

首先来看癌症公共数据TCGA中的测序污染。

TCGA是美国政府发起的癌症和肿瘤基因图谱(Cancer Genome Atlas)计划,其主要收录各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。

挑选9种不同类型的癌症,主要是转录组数据,另外含部分重测序数据。基于下面的流程,研究者深挖了TCGA数据库中存在的微生物“污染”信息:

1.png

经鉴定,Propionibacterium, Ralstonia, Staphylococcus在各类癌症样品中均出现——还真不少呢!

2.png

污染everywhere、everytime,咋办???这研究没法搞了?实则不然,我们来看看这些“外源污染”,还能说明些什么问题呢?    

大量样本数据发现,部分种类的微生物在特异的癌症样品中出现——基于数据库的序列信息,发现某些细菌会是特定癌症类型的优势类群:比如STAD中常见假单胞菌;AML中多见不动杆菌;OV样本的结核分枝杆菌复合体等。

3.png

这就提示我们,微生物的存在还具有另一重意义:随着研究的深入开展,人们发现越来越多的疾病与微生物的存在状态相关——微生物的存在为疾病的发生提供环境干扰,甚至肿瘤的发生也有可能是共生在人体的微生物作用造成的——基因的水平转移(LGT),可能造成细胞的基因突变,进而为肿瘤发生创造条件。那么如何利用这些“垃圾信息”,点石成金,玩儿出花样呢?

瞅瞅牛人都是咋用着数据的[2]:

研究者从TCGA数据库中挖掘乳腺癌相关数据,利用RNAseq数据中的细菌物种信息,研究乳腺癌发生的mRNA与微生态的相互关系。

1. 样品选择:668个乳腺癌组织样本数据+72个非癌症样品

2. 为了获得更加精准的结果,待非人类Reads筛选出后,将Reads比对到16s数据库,只分析16s信息明确的Reads。对鉴定到的微生态结果进行beta多样性分析。研究结果表明:在肿瘤样本中,Proteobacteria丰度显著性增加,而在非肿瘤样本中,放线菌Actinobacteria的丰度显著较高。此外, 不难看出,在不同的疾病类型中,微生物的类群呈现疾病类型的差异,不同癌症之间微生态存在显著差异,微生态的分布与疾病种类的划分相匹配。结果如下图:

4.png

研究比较了不同类型肿瘤样本中微生物的构成,发现在不同亚型癌症样品中,微生物组成略有差异,其中有12个种表现出明显的样品间差异(如下图)。

5.png

结合转录表达研究结果,研究者发现Listeia spp与上皮向间充质转变相关的基因的表达谱有关;H.influenza菌可能存在于周围基质中,这种菌的存在与增值途径显著相关,如G2M检查点、E2F转录因子及有丝分裂的纺锤体组装过程相关……

不难看出,这些所谓“污染”的数据,很可能帮助我们找到微生物存在状态与疾病之间的关系,基于这样的互作研究,能够帮我们更好了的理解疾病的发生发展过程,为提供更好的诊断和治疗方案提供有力参考。

非常低成本高效的科研产出路径提供给大家——探索公共数据库中基因表达与微生态的关联是一个纯数据分析的好策略。


分享
下一篇:HiC-Meta
上一篇:HiC-Meta