那些不做实验不费力气收集临床数据也能发高分的方法


   

1.jpg

1

前言索引


首先问大家一个问题


导致头颈部肿瘤(HNSCC)发生中最常见的机制是啥?

3秒钟的思考时间...不知道的向下看


STAT3(信号转导和转录激活因子)的组成型激活。有研究表明活化后的磷酸化STAT3(pSTAT3)在多种肿瘤的发生发展中具有较强的致癌效应[1],而STAT3活化依赖于酪氨酸(Y705)的磷酸化。而目前研究中关于HNSCC中STAT3的组成型激活相关的机制并未有明确的了解。


有什么方法可以对它有个大致的了解呢?

(1秒钟的思考时间...不知道的向下看)


做实验!!!


但想要作出完整的实验需耗费大量的人力、物力及财力,在这信息化如此发达的时代如何利用互联网上的资源来为科研做便利研究呢?


今天呢我们将学习Noah D. Peyser的一篇文章[2],作者分析了TCGA和TCPA数据与HNSCC相关性看看国外的学者是如何最大化利用临床数据库为自己科研服务的。



2

逻辑思路


作者的方法建立在TCGA和TCPA数据的挖掘利用上,分析了体细胞突变、启动子甲基化、mRNA表达以及拷贝数变化等数据。


主要的分析思路


挖掘206例HNSCC数据,分析pSTAT3(Y705)与临床特征的相关性;

分析HNSCC的相关基因mRNA表达水平与pSTAT3(Y705)的相关性;

分析低频体细胞突变与pSTAT3(Y705)相关性;

最后分析了启动子甲基化和拷贝数变化与pSTAT3(Y705)的相关性。


3

方法剖析


接下来我们详细讲解这些数据的利用


首先,我们在TCGA或TCPA两个数据库中检索HNSCC数据,从TCPA中得到206个HNSCC的蛋白质磷酸化数据,从TCGA中得到外显子测序、DNA甲基化、mRNA表达和拷贝数变化的数据。


同时选择了UMSCC-47细胞,利用Western进行结果验证统计学方法主要运用了非参数检验中Wilcoxon检验分析分类变量(突变及高甲基化数据),采用Spearman相关性检验mRNA表达和pSTAT3(Y705)蛋白表达是否相关, 对于拷贝数变更或有序变量,采用Jonckheere-Terpstra检验。对于所有研究,假发现率(FDR)<0.1被认为是有意义的。而发现率基于q值体现,并且使用R包进行q-value计算。


接下来,我们看看这些数据的利用得到了什么结果呢



(1)HNSCC数据挖掘:从TCPA检索pSTAT3(Y705)的RPPA评分,我们可以看出基本呈正态分布,也就是中间高、两边低的趋势(图1)。单因素分析患者临床特征与STAT3通路激活之间无明显的相关性。

2.jpg


图1

3.jpg


表1


(2)多数基因mRNA表达与pSTAT3(Y705)表达的相关性:经过研究发现1279个基因的mRNA水平与pSTAT3(Y705)蛋白表达具有明显的相关性(q<0.1)(图2)。

4.jpg


图2


5.jpg

图3


同时使用COSMIC数据库确定了51种已知的癌基因,其mRNA表达与pSTAT3(Y705)显著相关(上图3)。


分析表明:半胱天冬酶(caspase)-8 mRNA表达与pSTAT3(Y705)表达之间具有相关性(P<0.01)。通过western实验表明caspase-8 Mrna表达的增高与pSTAT3(Y705)表达的增高呈现正相关。


6.jpg

图4


(3)低频体细胞突变与pSTAT3(Y705)表达的相关性:在筛选分析的14596个基因中,7984个基因在至少2个HNSCC肿瘤样本中表现出非同义突变,比较这些基因中野生型与突变型的pSTAT3(Y705)表达,结果表明242个基因有显著差异(表2)。应用非参数Wilcoxon检测出无体细胞突变的基因与pSTAT3(Y705)表达(表2)显着相关(q<0.1)。


7.png

表2


【总结】

充分利用TCGA与TCPA的数据,鉴定与pSTAT3(Y705)表达相关的基因组和表观基因组变化,有助于确定HNSCC中致癌信号的分子基础,包括STAT3激活。


4

思维发散


这篇文章中,最大的特点是基于较为权威的数据库进行了分析,且没有繁琐的临床样本收集,如果要说挖掘数据库的缺陷,那么最大的问题就是因为环境、人种、民族、生活习惯等差异,数据库中分析得来的数据并不能真实反映各个医院或者研究者手中的样本情况。


遗传背景的差异会让不同研究者得到差异甚至完全不同的结论,但是收集大量临床样本并检验相关数据对大部分的医院来说工作量也显得过于庞杂,那么,通过挖掘临床数据库其实给我们的研究提供了一条捷径,即使他有那么一些差异会存在,但是通过预先挖掘数据库可以先对结果进行预判,指明方向,大幅度降低研究损耗提高效率。


基于这篇研究,我们可以给很多临床医生提供相似的研究思路。所谓模式套用,只要挖掘得当,可以引申到其他疾病的研究中,如果我们能够结合实际临床样本进行确定研究或者差异研究,相信分值会更高(本篇IF=2.806)


通过以上的讲解,大家是不是对TCGA和TCPA数据的作用意义有了大致的了解呢?接下来我们会更详细的讲解关于TCGA的运用。


下期再见~


[1] LEE JEEYUN, KANG WON KI, PARKJOON OH, et al. Expression of activated signal transducer and activator oftranscription 3 predicts poor clinical outcome in gastric adenocarcinoma.[J].APMIS, 2009, 117(8):598-606.


[2] Peyser ND,Pendleton K,GoodingWE,et al.Genomic and Transcriptomic Alterations Associated with STAT3 ActivationinHead and Neck Cancer[J].PLoS One,2016,11(11):e0166185.

分享