从总体和亚型特异性分析中通过全基因组关联研究识别了32个新的乳腺癌易感性基因座

Genome-wide association study identifies 32 novel breast cancer susceptibility loci from overall and subtype-specific analyses27.603Nat Genet . 2020 Jun;52(6):572-581. doi: 10.1038/s41588-020-0609-2. Epub 2020 May 18.

Abstract

Breast cancer susceptibility variants frequently show heterogeneity in associations by tumor subtype1-3. To identify novel loci, we performed a genome-wide association study including 133,384 breast cancer cases and 113,789 controls, plus 18,908 BRCA1 mutation carriers (9,414 with breast cancer) of European ancestry, using both standard and novel methodologies that account for underlying tumor heterogeneity by estrogen receptor, progesterone receptor and human epidermal growth factor receptor 2 status and tumor grade. We identified 32 novel susceptibility loci (P < 5.0 × 10-8), 15 of which showed evidence for associations with at least one tumor feature (false discovery rate < 0.05). Five loci showed associations (P < 0.05) in opposite directions between luminal and non-luminal subtypes. In silico analyses showed that these five loci contained cell-specific enhancers that differed between normal luminal and basal mammary cells. The genetic correlations between five intrinsic-like subtypes ranged from 0.35 to 0.80. The proportion of genome-wide chip heritability explained by all known susceptibility loci was 54.2% for luminal A-like disease and 37.6% for triple-negative disease. The odds ratios of polygenic risk scores, which included 330 variants, for the highest 1% of quantiles compared with middle quantiles were 5.63 and 3.02 for luminal A-like and triple-negative disease, respectively. These findings provide an improved understanding of genetic predisposition to breast cancer subtypes and will inform the development of subtype-specific polygenic risk scores.

基因座locusloci):基因在染色体上所占的位置。在分子水平上,是有遗传效应的DNA序列。形象地说,一对染色体可想象为两条平行线,染色体上一个给定的位置,好比两平行线上相对应位置的一点或一段,叫做基因座。一个基因座可以是一个基因,一个基因的一部分,或具有某种调控作用的DNA序列。基因座与位点(site)不同,后者是一个顺反子内部的突变位置,可以小到一个核苷酸对。基因座是染色体上的固定部位,在相同基因座上编码相同的DNA被称为等位基因。一些基因座上的等位基因具有明显的个体差异,因此它们就像指纹一样可以确定一个人的身份。

全基因组关联研究Genome-Wide Association StudiesGWAS)是指在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNPCNV等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法,全面揭示疾病发生、发展与治疗相关的遗传基因。
一、摘要
乳腺癌(BRCA)易感性变异在肿瘤亚型中经常表现出异质性。为了识别新的基因座,本工作进行了一项全基因组关联研究,包括133384例乳腺癌病例和113789例对照,以及18908名欧洲血统的BRCA1突变携带者(9414名乳腺癌患者),使用标准的和新的方法,根据雌激素受体、孕激素受体和人类表皮生长因子受体2的状态和肿瘤级别来解释潜在的肿瘤异质性。本工作识别32个新的易感性基因座,其中15个显示与至少一种肿瘤特征相关。5个基因座在luminal亚型和non-luminal亚型之间呈相反方向的相关性。计算机模拟分析显示,这5个基因座含有细胞特异性增强剂,不同于正常的luminalbasal乳腺细胞。5intrinsic-like亚型之间的遗传相关性范围从0.350.80。通过全基因组芯片遗传率解释所有已知易感位点,luminal A-like型占54.2%,三阴性(triple-negative)型占37.6%。多基因风险评分polygenic risk scores,是一个用来评估个体患某种疾病风险的方法,它是通过GWAS统计数据的基因型效应值来计算的)的优势比(OR),包括330个变异,luminal A-liketriple-negative的多基因性风险评分的最高1%分位数与中分位数的优势比(包括330个变异)分别为5.633.02。这些发现提高了对乳腺癌亚型遗传易感性的认识,并将为亚型特异性多基因风险评分的制定提供信息。
二、背景
根据乳腺癌协会联盟(BCAC)迄今为止最大的全基因组关联研究(GWAS),已经鉴定出170多个独立的乳腺癌易感性变异。许多这些变异显示不同的肿瘤亚型的相关性,特别是雌激素受体阳性与雌激素受体阴性或三阴性疾病。然而,以往的GWASs并没有同时考虑多个相关肿瘤标志物,如雌激素受体、孕激素受体和人表皮生长因子受体2HER2)之间的高相关性和分级,以确定病因异质性的具体来源。本工作使用标准分析和一个新的两级多元回归(two-stage polytomous regression)方法对乳腺癌GWAS进行了研究,该方法有效地表征了病因异质性,同时考虑了肿瘤标记物相关性和缺失数据。
三、数据
1.总体乳腺癌样本:来自20个国家的欧洲血统女性的82BCAC研究的样本。基因分型数据来自两个Illumina全基因组定制阵列:iCOGSOncoArraySupplementary Table 1)。分析的总样本量(包括iCOGSOncoArray和其他GWAS数据)共133384例样本和113789控制。
2.GWAS分析数据:two-stage logistic回归分析使用106278侵袭样本和91477控制。
3.CIMBA数据:18岁以上有致病性BRCA1变异,有15566BRCA1突变携带者的数据,其中7784人患有乳腺癌(Supplementary Table 3)。还通过 CIMBA获取54项研究中的3342BRCA1突变携带者(1630名乳腺癌患者)的iCOGS基因型数据。
方法
1. 为了识别BCAC整体乳腺癌(侵袭性、原位或未知侵袭性)的变异,使用标准的logistic回归估计优势比ORs95%置信区间,并根据国家和主成分进行调整。分别对iCOGSOncoArray数据进行评估,并使用固定效应fixed-effects,试验设计的基本概念之一。试验中,若因素的水平选取已定好,该因素的水平效应作为固定参数,称此为固定效应)meta-analysis将结果与其他11GWASs的结果结合。

2. 为了识别显示异质性的乳腺癌易感性变异的证据,使用了一种基于两级多元回归的新评分测试,在雌激素受体、孕激素受体、HER2/grade(肿瘤分级)存在潜在异质性的情况下,该模型允许灵活而简洁地建立关联模型。该模型通过实现一个有效的期望最大化算法来处理丢失的肿瘤特征数据。这些分析仅限于BCAC对照和侵入性病例。

3. 本工作拟合一个另外的两级模型来估计变异型由雌激素受体、孕激素受体、HER2grade联合定义的intrinsic-like亚型之间的病例-对照ORs95% 置信区间。(1luminal A-like 2luminal B/HER2-negative-like 3luminal B-like 4HER2-enriched-like 5triple-negativebasal-like。分别分析了iCOGSOncoArray数据,调整了主成分和年龄,并使用固定效应模型对结果进行meta分析。使用leave-one-out敏感性分析来评估国家的影响。

4. 在易发展为三阴性疾病的BRCA1突变携带者中,在回顾性队列分析框架内估计了每个等位基因的危险比。假设BCAC三阴性病例的估计ORsCIMBA BRCA1携带者的估计风险比近似相同的潜在相对风险,并且使用固定效应meta分析来合并这些结果。在所有新的变异中,使用两级的多元模型来测试不同亚型之间的关联异质性,全局性的和肿瘤特异性的。
5.定义候选因果变异(Candidate causal variantsCCVs):将可靠的ccv集定义为每一个新区域中位于lead变异±500kb范围内的变,且P值在lead变异大小的100倍范围内。
五、结果
总的来说,识别32个新的独立易感基因座,其变异P<5.0×10−8(图1):有22个变异使用标准logistic回归识别,16个变异用两级多元模型(其中8个未被标准logistic回归检测到)识别,以及3个变量在CIMBA/BCAC三阴性meta分析中识别(rs78378222也被BCAC的两级多元模型检测到)。

1.所有独立全基因组显著性乳腺癌易感性变异的总体、亚型、BCAC三阴性和CIMBA BRCA1   携带者meta分析
经整体异质性检验,32个变异中有15个有异质性(图2)。雌激素受体(7种变异)和grade7种变异)最常导致观察到的异质性,其次是HER24种变异)和孕激素受体(2种变异)

2.32个乳腺癌易感性基因座的marker-specific异质性检验的热图和聚类P
五种变异与luminal 亚型和non-luminal亚型呈相反方向的相关性(图3)。四种变异与luminal A-like和三阴性亚型相反方向相关。rs78378222与雌激素受体和HER2相关;rs206435与雌激素受体和grade相关;rs141526427rs6065254 仅与雌激素受体相关。rs7924772HER2阴性和HER2阳性亚型之间显示了相反的病例-对照关联,与这些发现一致,rs7924772只与HER2相关(图3)。

3.在不同亚型之间具有相反方向关联的易感性变异
接下来为每个新位点定义了候选因果变异(CCVs),并研究了原发乳腺细胞中CCVs与先前注释的增强子的关系。结合H3K4me1H3K27ac组蛋白修饰染色质免疫沉淀测序(ChIP-seq)信号,basal细胞、luminal祖细胞和成熟luminal细胞中假定的增强子被鉴定为offprimedactive。将开关增强子定义为在细胞类型之间表现出不同特征的那些,在五个亚型间反向关联的基因座中,每个基因座至少有一个CCV与一个开关增强子重叠(图4)。这些结果表明,某些变异可能以细胞类型特异性的方式调节增强子活性,从而差异地影响肿瘤亚型的风险。

4.在原发性乳腺癌的亚型之间有相反的关联方向的五个基因座中,与增强子状态重叠的CCVs
使用INQUISITCCVs与来自公共数据库的功能注释数据交叠,以确定潜在靶点基因。32个独立信号中的26个预测了179个独立的靶基因。有报道称rs78378222与血液和脂肪组织中的TP53信使RNA水平有关,但在本工作中没有在乳腺组织中重复。然而,该研究发现rs78378222与乳腺basal上皮细胞中一个细胞类型特异的调控元件重叠,这意味着增强子功能是另一种潜在的TP53转录控制机制。高置信度预测了14个区域的23个靶基因,其中13个区域的22个靶基因被预测为远端调控。INQUISIT之前预测了4个靶基因(即POLR3CRNF115SOX4TBX3TBX3是已知的体细胞乳腺癌驱动基因),以及转录全关联涉及的基因(LINC00886YBEY17)。

使用连锁不平衡评分回归来研究亚型之间的遗传相关性,并比较luminal A-like和三阴性亚型之间基因组特征的富集情况。所有亚型均中度至高度相关,luminal A-like和三阴性相关系数为0.46 BRCA1携带者与BCAC三阴性乳腺癌之间的相关性为0.83表明这些亚型之间的遗传基础高度相似(图5

5.通过连锁不平衡评分回归分析5intrinsic-like乳腺癌亚型与BRCA1突变乳腺癌的遗传相关性
32个新变异体加上178个早先已确定的变异体在全基因组芯片遗传率中, luminal A-like、三阴性和BRCA1携带者所占的比例分别为54.2%37.6%26.9%(表1)。这210个变异解释了约18.3%的双重家族性相对风险的浸润性乳腺癌,而OncoArray上所有可靠的可归因变异解释了37.1%luminal A-like和三阴性亚型的多基因风险评分(polygenic risk scores PRSs)之间的每个标准差ORs1.831.65,其中包括313个已发表的变异和17个独立于313个变异的新变异,相应的ROC曲线下面积分别为66.0963.58

表1.侵入性乳腺癌的遗传变异可由确定的易感性变异和所有可靠的全基因组可归因变异来解释
这些分析显示了将标准GWAS方法与考虑潜在肿瘤异质性的方法相结合的好处。此外,这些方法和结果可能有助于阐明导致特定分子亚型的机制,并为亚型提供精确的风险估计,为特定于亚型的PRSs的开发提供信息。然而,为了扩大本工作发现的普遍性,这些分析应该在多重祖先群体(multi-ancestry)中重复和扩展。

总结:本工作进行了一项全基因组关联研究,使用标准的和新的方法,根据雌激素受体、孕激素受体和人类表皮生长因子受体2的状态和肿瘤级别来解释潜在的肿瘤异质性,识别32个新的易感性基因座,并分析这些基因座的亚型异质性。通过定义候选因果变异,研究了原发乳腺细胞中CCVs与先前注释的增强子的关系,发现某些变异可能以细胞类型特异性的方式调节增强子活性,从而影响肿瘤亚型的风险。确定CCVs潜在靶点基因,已分析调控机制。然后使用连锁不平衡评分回归来研究亚型之间的遗传相关性,发现亚型之间的遗传基础高度相似。

转自生信人

分享