CDG:检测生物学上最接近致病基因的在线服务器及其在原发性免疫缺陷中的应用

CDG: An Online Server for Detecting Biologically Closest Disease-Causing Genes and Its Application to Primary Immunodeficiency4.716

. 2018; 9: 1340.
Published online 2018 Jun 27. doi: 10.3389/fimmu.2018.01340


Abstract

High-throughput genomic technologies yield about 20,000 variants in the protein-coding exome of each individual. A commonly used approach to select candidate disease-causing variants is to test whether the associated gene has been previously reported to be disease-causing. In the absence of known disease-causing genes, it can be challenging to associate candidate genes with specific genetic diseases. To facilitate the discovery of novel gene-disease associations, we determined the putative biologically closest known genes and their associated diseases for 13,005 human genes not currently reported to be disease-associated. We used these data to construct the closest disease-causing genes (CDG) server, which can be used to infer the closest genes with an associated disease for a user-defined list of genes or diseases. We demonstrate the utility of the CDG server in five immunodeficiency patient exomes across different diseases and modes of inheritance, where CDG dramatically reduced the number of candidate genes to be evaluated. This resource will be a considerable asset for ascertaining the potential relevance of genetic variants found in patient exomes to specific diseases of interest. The CDG database and online server are freely available to non-commercial users at: http://lab.rockefeller.edu/casanova/CDG.

Keywords: disease-causing gene; gene filtering; genomics; human gene connectome; next-generation sequencing.

我们在科研的时候,选择候选致病变异的常用方法是检查相关基因是否以前被报告为致病的。如果在缺乏已知致病基因的情况下,将候选基因与特定的遗传病联系起来可能是不太可靠的。为了有助于发现新的基因-疾病关联,最接近的致病基因(CDG)数据库就这样应运而生了,该数据库可用于从用户定义的基因或疾病列表中推断出与相关疾病最接近的基因。附上数据库链接:http://lab.rockefeller.edu/casanova/CDG

CDG的构建
人类基因突变数据库(HGMD)是一个人工管理的变异数据库,其中包含了可能与人类遗传疾病相关或易患人类遗传疾病的变异。首先,作者从中挑选了5430HGMD基因,这些基因被认为是高质量的致病或疾病相关的突变(主要与单基因疾病有关)。接下来,作者确定了人类基因连接组(HGC)中存在的13005个蛋白质编码基因,这些基因目前在HGMD数据库中没有被报告为致病基因。简而言之,HGC是整个人类基因(表示为节点)的网络,其中每条边代表两个人类基因之间的直接生物学距离。小编在这里解释一下,任意两个基因之间的HGC生物学距离定义为在包含大多数人类蛋白质编码基因的网络上,连接两个给定基因的最短路径中直接距离的加权总和。

对于这13005个基因,首先从HGC数据库中检索每个基因的相应连接,从而计算出它们的生物学CDG和相关疾病。对于任何给定的人类基因,基因特异性连接包含所有其他人类基因的集合,这些基因按照它们与该特定基因的生物学距离进行排序。然后,按照HGC的生物学相关性标准,p<0.01范围内的连接组中筛选HGMD已知的致病基因。

CDG效能验证
为了验证CDG作者使用在构建原始CDG数据库时未使用的一组验证基因,将CDGFunCoupHumanNet的性能进行了比较。作为验证集,使用了两个外部数据集:(1)新的HGMD数据集,包含了该数据更新时新添加339个致病基因;(2)来自ClinVar84个致病基因。在此计算了每个基因中的CDG,并比较了CDGFunCoupHumanNet在预测基因数量,预测疾病与报道疾病符合度方面的效能。由于FunCoupHumanNet不关联疾病,作者HGMD中检索了与每个预测基因相关的疾病名称,并与预期的疾病名称进行比较。

CDG比较分析
作者首先探索了13005个目前未被报告为导致临床表型的基因与HGMD已知致病基因之间的关系。通过HGC生物邻近性分析发现,每个基因平均与48HGMD致病基因和7个疾病相关。如下图所示92.9%的相关致病基因与相应的查询基因在一个或两个分离度之内。相比之下,所有人类基因对中只有13.9%在一两个分离度之内。

然后,使用在CDG数据库构建过程中未使用的新致病基因来评估这些关联的准确性和实用性。根据第一个数据集(来自HGMD339个新基因)作者发现287CDG预测的基因,优于使用FunCoupHumanNet分别发现的133个和116个。从这些预测基因中,CDG预测的287个基因中有134个与预期疾病相关,相比之下,FunCoup预测的133个基因中有46个基因与预期疾病相关,HumanNet预测的116个基因中有47个与预期疾病相关(A)接下来,作者使用第二个数据集(84个来自ClinVar的基因)重复进行了比较,并观察到CDG在预测致病基因的数量以及与预期疾病的正确关联方面同样优于其他两个软件(B)

为了评估预测的稳定性,从5430个已知致病基因中随机抽取了1000287个基因,并估计了它们的CDG和相关疾病,CDG86.33%的病例中通过精确的疾病名称匹配确定了预期疾病。然后,作者检查了CDG预测和已知致病基因的生物接近性概况。假设为高斯分布,对观察到的287个新HGMD基因与预期的13005个基因(目前未知会导致疾病)之间的HGC p值进行了10000次自举模拟。结果显示,观察到的和预期的CDG预测对于基因集及其CDG之间的生物学相关性产生了相似的p值曲线。因此,与以前的方法相比,CDG关联对与候选基因相关的假定疾病更具活力和相关性。由于缺少FunCoupHumanNet的平面文件(Flat File),因此无法使用这些方法重复进行此分析,这也使得CDG预测对研究没有公开表型的基因具有重要的意义。

数据存储和Web访问
为了便于访问CDG作者创建了一个网络服务器,允许使用基因或疾病作为输入来查询CDG数据库。如果已知输入基因是致病基因,则服务器提供已知的相关疾病。如果不知道该基因是致病基因,则会显示预测数据。服务器还允许使用疾病名称作为输入,返回已知和预测的致病基因列表。CDG数据库中的疾病名称与HGMD中报告的名称相同。

CDG用法示例
最后,作者证明CDGWES数据中的实用性,这些患者具有不同的原发性免疫缺陷、遗传模式和已知的突变基因,这些基因在CDG构建期间没有出现在HGMD公共数据库中。这些例子中的表型和相关基因型包括:(1)严重的自身炎症,RNF31的纯合子突变;(2)疣状表皮发育不良,STK4(MST1)的纯合子突变;(3)单纯疱疹病毒性脑炎,UNC93B1的纯合子突变。然后,应用标准QC(DP> 4MQ> 40QD> 2),次要等位基因频率(<1),并使用GDIMSC进行基因水平筛选,从而将每个患者中的基因数量减少到18~322个候选基因的范围(数量主要取决于遗传模式)。最后,将CDG服务器应用于要研究的基因数量,将范围减少到1~11,候选基因减少了92.1–96.6%,却不会丢失任何致病基因。
用户可以将基因提交到网络服务器(下图)以获得两个输出(1)所有CDG和相关疾病,包括它们到输入基因的路径(即最短路径上的HGC预测基因)(2)每个输入基因最显著CDG。如果输入的是已知致病基因,则输出的将是所有已知的相关疾病。除此之外,用户还可以输入疾病名称,以获得有关表型的已知和预测的致病基因。当CDG没有提供理想的结果时,建议用与所研究疾病表型相近的不同疾病重新进行检索,这将有助于致病基因的发现。CDG还为研究人员定义的疾病列表确定了新的候选基因,为新候选基因与特定疾病表型的潜在相关性提供了参考,简化了NGS数据的分析

转自生信人

分享