整个分析流程主要涉及的数据库为①人类基因变异数据库ExAC、1000 Genomes以及ESP;②突变有害性分析数据库Provean。接下来我们将逐一进行介绍,并挑选部分数据库(ExAC、Provean)的进行重点介绍。
ExAC全名ExomeAggregation Consortium(外显子组整合数据库),由哈佛-麻省理工Broad研究所的科学家完成,整合了17个人类基因组项目,60706个个体的外显子测序数据。整合数据的过程中去除了严重儿科疾病的个体和TCGA中的肿瘤样本,因此适合作为研究严重疾病的等位基因频率的参考组。所有项目的源文件都经过了同一的重新处理,使用的参考基因组为GRch37,使用的SNP数据库版本为dbSNP 135,使用的突变注释工具为VEP version 85基于Gencode Version 19。
图9. ExAC收录数据的样本来源
图9. ExAC样本的种族及性别分布
①探索特定突变基因或突变在样本中的情况
进入ExAC首页,在搜索框输入感兴趣的突变基因、特定突变或者地区编号即可获取其在数据库中对应的数据。此外在ExAC任意页面的左上角都可以找到搜索框,可以同样进行搜索。
图10. ExAC首页
检索基因
以KRAS为例进行检索,输入后将出现基因信息页面,其中页面左上角提供基因基本信息。包含基因简介,基因在数据库中收录的突变数,基因在数据库中收录的拷贝数变异数,基因的UCSC链接以及其他一系列其他数据库的链接。
图10. ExAC检索得到的基因基本信息
同时页面右上角给出了基因的变异类型和变异情况。第一列为变异类型,第二列为预期的突变数,第三列为实际突变数,第四列为基因对特定类型突变的保守度参数,数值越大基因越保守对变异的容忍度越低,实际突变数少于预期的突变数。数值越小基因对变异的容忍度越高,实际突变数大于预期的突变数。
图11. ExAC检索得到的基因突变类型和突变情况
页面正中间给出了基因结构上的变异分布和突变列表。
图11. ExAC检索得到的基因突变总结图
从上到下依次为突变在基因上位置的分布、突变在外显子上的位置分布、外显子CNV分布。下方绿色按钮可以保存图像。
突变总结图下方还给出了基因对应的具体突变列表。
图11. ExAC检索得到的基因突变列表
Variant为具体突变位置(如果找到突变在SNPdb中ID标注),Chrom为染色体编号,Position为染色体位置,Consequence为转录本变化或者蛋白质改变,Filter为VQSR评估结果,Annotation为突变类型注释,Flags为LOF(包括Nonsense、 splice acceptor和splice donor variants)注释,Allele Count为有此突变的等位基因数,Allele Number为全部等位基因数,Number of Homozygotes为该突变的纯合子个体数,Allele Frequency为突变等位基因占所有等位基因的比例。
点进其中一个突变可以进入突变的信息页面(检索特定突变也会进入这个页面)。左上为突变基本信息面板。
图12. ExAC得到的突变基本信息
包含VQSR评估结果、突变频率、突变稀有指数及UCSC和ClinVar
数据链接。
右上为质控数据。
图13. ExAC得到的突变质量信息
接着往下看,有较为重要的突变注释信息和突变在各个种族样本中的分布。
图14. ExAC得到的突变在各个人群中的频率
下载数据
除了提供检索外,ExAC还提供了数据下载。在首页点击右上“Downloads”菜单就可以进入下载界面。
图15. ExAC数据下载界面
图16. IGSR(1000Genomes Project)首页
1000 Genomes Project(缩写为1KGP)在2008年到2015年间进行,1000Genome Project 的目标是在群体中找到频率至少为1%的遗传变异,为人类遗传变异的研究提供了一个综合的资源。最终数据集包含来自26个群体的2504个个体的数据。所有样本都有外显子测序数据。比其他同类数据库优越的是,1000 Genomes Project里有24个个体进行了全基因组测序。现在1000 Genomes Project的数据可以通过IGSR(The International Genome Sample Resource)的数据门户网站访问,现已更新匹配GRCh38参考基因组的数据。在首页可以进行检索和分析,进入FTP站点可以进行数据下载。
ESP 全称是NHLBIExome Sequencing Project(国家心肺血液研究所外显子组测序项目), 是由多个大学和研究结构合作开展的一个大型的外显子测序项目,主要目的是通过对不同人群进行SNP分型,来辅助心脏,肺,血液相关疾病的研究。点击Data Browser可以检索感兴趣的基因和突变,点击Downloads可以下载突变文件(已匹配到GRCh38基因组)。
图17. ESP首页
PROVEAN全称蛋白变异功能分析程序(ProteinVariation Effect Analyzer),是一个在线的,可以预测蛋白取代、插入、缺失是否会对蛋白的生物学功能产生影响的工具。
图18. PROVEAN首页
PROVEAN可以有效地识别非同义突变和在功能上较为重要的插入缺失突变。多个文章验证表明,PROVEAN与同类软件相比(如SIFT、PolyPhen)有较好的效果。
PROVEAN评估突变有害性是基于蛋白质位点结构改变和对邻近结构改变的。PROVEAN一个位点会导致蛋白结构变异程度越大,被认为造成的有害性越高。
提供蛋白序列和突变PROVEAN能够预测所有物种的突变有害性(突变对蛋白功能产生影响的可能性)。同时PROVEAN内置了人类和小鼠的基因组序列,可以批量预测人类和小鼠突变的有害性。
PROVEAN共提供3种功能,具体介绍见下方表格:
图19. PROVEAN功能
PROVEAN PROTEIN
在PROVEAN首页点击“PROVEAN Tools”-“PROVEAN Protein”即可进入PROVEAN Protein界面。只需要提供需要预测的蛋白的序列以及标准格式的蛋白突变数据即可获得预测结果。
图20. PROVEAN Protein功能
PROVEAN PROTEIN BATCH
在PROVEAN首页点击“PROVEAN Tools”-“PROVEAN Protein Batch”-“Human”(或者Mouse)即可进入PROVEAN Protein Batch界面。只需要提供标准格式的蛋白突变数据(蛋白esembl编号突变位置突变前氨基酸突变后氨基酸)即可获得预测结果。
图21. PROVEAN Protein Batch功能
PROVEAN GENOME VARIANTS
在PROVEAN首页点击“PROVEAN Tools”-“PROVEAN Genome Variants”-“Human”(或者Mouse)即可进入PROVEANGenome Variants界面。只需要提供一系列标准格式的基因数据(格式参考下图右侧)即可获得预测结果(提供的序列位点需要基于GRCh37参考基因组)。
图22. PROVEAN Genome Variants功能