研究背景
全基因组关联研究(GWASs)已经发现了超过7万个基因组序列变异与疾病和其他特征之间的联系,大多数涉及非编码变异,在某些情况下,已知通过影响基因表达来发挥其作用。然而,在大多数情况下,作用机制是未知的。这种关联通常被归因于特定的基因,仅仅基于它们与一个变异序列相邻;而在现实中,还不清楚是哪些基因调节了这种影响。
(血浆)循环蛋白表达水平的GWASs研究可以用于鉴定蛋白质数量性状位点(pQTL)。通过与疾病变异的共定位,pQTL可帮助寻找致病基因和疾病通路。目前有两种方法被用于检测大量个体中的大量循环蛋白:基于适配体的SomaScan和基于抗体的Olink。使用这些方法的大型研究可以揭示蛋白质水平的序列决定因素,识别疾病及其进展的生物标志物,并评估与其他表型和环境暴露的相关性。蛋白质与疾病之间的相关性通常不能区分因果关系,但结合pQTL和疾病变异关联(借助孟德尔随机化),可以区分因果关系,揭示发病的本质并鉴定出药物靶点。
deCODE Genetics研究团队在Nature Genetics 杂志(IF=38.33)上发表题为“Large-scale integration of the plasma proteome with genetics and disease”的研究论文,阐述了该团队借助血浆蛋白组技术,大规模整合基因组数据、疾病/表型数据所获的新发现。
血浆蛋白质组可以帮助弥补基因组和疾病之间的差距。在本研究中,deCODE Genetics团队描述了基于血浆蛋白水平检测(35,559个冰岛人,4,907个蛋白)的全基因组关联研究(GWASs),他们在基因序列变异和血浆蛋白表达水平之间发现了18,084个pQTL,蛋白质数量性状位点;其中19%为罕见的变异(次要等位基因频率(MAF) < 1%)。
该团队检测了血浆蛋白水平与373种疾病和其他性状的关联,并确定了257,490种关联。他们整合了pQTL和与疾病及其他性状的遗传关联,发现GWAS目录中45,334个位点中有12%的位点存在pQTL高连锁不平衡的变异。他们确定了938个基因编码潜在的药物靶点,这些靶点具有影响可能生物标志物水平的变异。结合蛋白质组、基因组和转录组,他们提供了一个有价值的资源,可以用来提高对疾病发病机制的理解,并帮助药物的发现和开发。
研究团队分析了35,559名冰岛人的2,720万个序列变异与血浆中4,719种蛋白质水平的关联。发现序列变异和蛋白质水平之间有18,084种关联,其中19%与全基因组测序发现的罕见变异有关,93%的关联是新发现的。
研究发现,在GWAS目录中,12%的序列变异与疾病和其他性状之间的关联是高连锁不平衡(LD),且pQTL与一个或多个蛋白质水平相关。通过对pQTL与蛋白质水平以外表型关联的分析,该研究团队发现了将该资源与疾病和其他性状的遗传数据整合的多种方法。
该研究基因型数据是基于近15%冰岛人的全基因组测序的估算,与此前的血浆蛋白质组学研究中的1,000个基于基因组的估算不同,其结果能够分析罕见变异对蛋白质水平和疾病风险的影响。同时,研究人员还揭示了pQTL如何定位由序列变异导致的发病机制所涉及的组织或细胞类型,以及如何帮助搜索药物靶向的生物标志物。
综上所述,该研究针对血浆蛋白水平进行GWAS分析,发现了18,084个序列变异和血浆中蛋白质水平之间的关联,并确定了257,490种相关性。研究团队整合了pQTL与疾病和其他性状的遗传关联,发现GWAS目录中45,334个先导关联中有12%是pQTL高连锁不平衡的变异,并鉴定了938个基因编码的潜在药物靶点,这些变异会影响可能的生物标志物水平。结合蛋白质组学、基因组学和转录组学,可以提高对疾病发病机制的理解,并协助药物的发现和开发。
参考文献:
1.Ferkingstad, E., Sulem, P., Atlason, B.A. et al. Large-scale integration of the plasma proteome with genetics and disease. Nat Genet 53, 1712–1721 (2021).
2.The largest ever study of the plasma proteome published
https://medicalxpress.com/news/2021-12-largest-plasma-proteome-published.html
3. Nature Genetics发表迄今最大规模血浆蛋白质组研究,揭示冰岛人群序列变异与蛋白质水平之间的关联 https://www.seqchina.cn/15417.html