TCGA数据库是目前最大的癌症基因信息数据库,收录了包括罕见癌型在内的39种癌症,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件。其数据的全面也体现在数据类型丰富上,包括临床数据、基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP等。TCGA数据库对外提供经过处理的数据,可由官方途径GDC data Portal(https://portal.gdc.cancer.gov/)获取最新数据。但是官方途径下载较为繁琐,且数据下载的文件为单个样本,需要自行合并。故在这里介绍另外一种获取TCGA数据的方法。
cBioPortal(https://www.cbioportal.org/)整合了包括TCGA在内多个数据库数据,提供大规模癌症基因组数据集的可视化、分析和下载。使用cBioPortal可以较为直观地了解想要研究癌症的大致情况,较为简便的获取相关数据,但相对的作为第三方工具,cBioPortal上的数据并不是实时更新的。如果有这方面需要,可以根据TCGA官方更新时间和cBioPortal的更新时间自行进行判断。
cBioPortal界面如下。用户可以根据查阅方式选择标签:“Query”可以横跨多个癌症项目获取基因表达,“Quick Search”可以就某一个基因或疾病查询相关信息,“Download”为某一个项目针对性的获取。目前“Quick Search”为测试版本,结果网页反馈较慢。“Query”和“Download”界面类似,界面左侧为疾病所在器官,中间为具体研究项目名称。
以TCGA的乳腺癌数据为例,在该界面左侧为点选“Breast”,在中间项目名称选择“BreastInvasive Carcinoma (TCGA, PanCancer Atlas)”。
在这里简单解释一下为什么TCGA的乳腺癌会有多个选项,以及它们的区别。“Breast InvasiveCarcinoma (TCGA, Cell 2015)”和“Breast Invasive Carcinoma (TCGA, Nature 2012)”均为该数据发表时的数据,数据去除了质量较低的样本,但因为时间原因样本相对会少一些。“Breast Invasive Carcinoma (TCGA, Provisional)”为公开渠道最新的可获取数据,会包括一些最近上传的样本。“BreastInvasive Carcinoma (TCGA, PanCancer Atlas)”为TCGA中PanCancer项目使用的样本,该项目于2018年完成,时间不太久且样本数据经过筛选,所以在这里推荐使用该项目。
点击后下面会跳出“SelectGenomic Profiles”让你选择下载的数据类型,包括突变、拷贝数变异和经过标准化的转录组数据。“Select Patient/Case Set”可以选择样本子集。“Enter Genes”选择想要下载的基因,可以自行提供可以选择数据库提供的特定功能相关基因。选择完成后点击“Submit Query”。
在这个界面我们能只选择感兴趣的基因下载相关数据,但如果没有明确的研究目标基因,想要获取样本的全转录组数据时,这样做就不太合适了。以乳腺癌为例,点击上图中箭头所指位置,跳转得到如下界面。界面上直观地显示了乳腺癌临床和基因突变的统计图表,能够让人较为直观地对该疾病有个整体地理解。左上方“Breast Invasive Carcinoma (TCGA, PanCancer Atlas)”旁的图标,即可下载乳腺癌全部1084个样本的表达、临床等数据。如果想先看一下临床数据的话,可以点击右上方的下载图标,获取样本临床信息。在全部信息下方会提供原始数据来源和相关已发表文献。
数据下载格式为压缩包,解压后得到文件夹。其中“data_clinical_patient.txt”中包含样本的临床信息,包括患者的性别、年龄、生存状态和时间等信息。“data_RNA_Seq_v2_expression_median.txt”和“data_RNA_Seq_v2_mRNA_median_Zscores.txt”文件为样本的表达数据,分别使用中位数标准化和Zscore标准化,我们可以根据后续的分析方法选取合适的标准化格式数据。
Progenitor Cell BiologyConsortium(PCBC,https://progenitorcells.org/frontpage)祖细胞学联盟是由NHLBI赞助支持的一个公开的在线协作研究联盟,提供数据注释、文档和文件来源。该联盟的目标是识别和鉴定祖细胞谱系,研究和优化诱导多能干细胞(iPSC)重新编程和分化的方法。PCBC科研数据被存放在Synapse,一个支持实时共享生物医学科研数据的软件平台上。Synapse提供了多种接口,科研人员可以通过网页、R、python等多种软件来获取在平台上的共享数据。
因为PCBC数据存放在Synapse上,所以获取该数据库时需要注册Synapse。注册后登陆页面“https://www.synapse.org/#!Synapse:syn1773109/wiki/”,界面如下。左上方为该项目几个标签:“Wiki”为该数据库的数据介绍和使用说明;“Files”为具体数据文件;“Tables”为查询方式显示数据;“Discussion”为留言板块。当前界面为“Wiki”界面,可以看到左边时使用教程目录,右侧为具体使用教程信息。
因为该数据库文件较多且包含了大量的原始数据,在这里以“Table”为例介绍数据库文件的下载。点击进入后界面如下。其中“C4 Data”为原始数据,“C4 Data(Summarized)”是整理合并后的数据,下面的“metadata”为样本信息。
点击“C4Data(Summarized)”,进入界面如下。左侧为筛选栏,右侧为合并之后的表达矩阵,数据包括原始和标准化后的mRNA、miRNA、甲基化数据。根据需要点击数据名称。
Roadmap(NIH Roadmap Epigenomics MappingConsortium,http://www.roadmapepigenomics.org/)是美国国立卫生研究院主持建立的人类表观遗传学数据库项目数据库。该数据库收集了干细胞和主要体外组织中的DNA甲基化、组蛋白修饰、染色质可及性和小RNA转录本等信息。已有研究证明表观遗传学对疾病的发生发展存在重要的影响,而该数据库可以在基础生物学和疾病研究方面提供一组正常的表观遗传学信息作为参考。
官网界面如下所示,上方为各个标签栏,界面主要为该数据库的介绍。点击上方标签“BROWES DATA”或下方“PROJECT DATA”都会跳转到数据界面。
点击进入界面如下。界面右下角显示了Roadmap几种数据下载渠道,点击第二条链接“NIH Roadmap Epigenomics - GEO - NCBI”则会直接连接到GEO数据库,使用GEO数据库的方法下载数据。如果想预先了解一下数据的大致情况,可以点击上方的标签进行浏览。
点击“DATA TABLE”,进入界面如下。上方简单的介绍了该界面如何使用。矩阵的每一行代表数据来源器官或组织,每一列代表数据类型,矩阵中蓝色的方框表示对应器官或组织的对应研究类型存在数据。对感兴趣的数据类型和器官部位,点击选中对应的方框,然后点击“Go to Browser”按钮,即可跳转到UCSC界面直观地了解这部分数据情况了。