柳叶刀子刊|Olink E3072 + UKB首发数据发现肺癌早期预测蛋白标志物

研究背景

肺癌仍然是全球癌症死亡的最大原因,占所有癌症死亡的18%,估计有220万例新发癌症病例和180万例死亡,这与大多数肺癌被发现时已处于晚期密切相关,目前没有比手术等更有效的治疗方案,且预后较差。低剂量CT (LDCT) 筛查已被证明比传统的症状诊断检测出更高比例的早期疾病,从而改善预后。但LDCT筛查仅限于有显著吸烟史的人群。仅根据吸烟和年龄选择LDCT,并不能完全解释吸烟者因遗传或环境因素而产生的不同风险。肺癌风险生物标志物(表明对肺癌的易感性)与诊断生物标志物(表明当前疾病的可能性)有显著重叠。多种不同的生物标志物已被证明可辅助肺癌早期诊断(与LDCT筛查同时使用或不使用LDCT筛查),但仍存在技术挑战和临床需求未满足。

图片
Olink 蛋白组学在癌症诊疗中的应用
尽管如此,诊断性血浆蛋白生物标志物的加入已被证明可以改善目前的风险评分,而Olink高通量超灵敏蛋白质平台为识别进一步的癌症(包括肺癌)风险,预测生物标志物提供了进一步的机会。风险评估还可帮助确定哪些人将受益于预防性医疗干预;血浆蛋白可能具有特别的优势,因为它们为潜在的预防性治疗方法提供了生物学见解。特定血浆蛋白水平的差异先前已被证明是肺癌诊断的指示性指标,或与即将发生的肺癌有关。然而,在诊断前较长时间内更全面的血浆蛋白谱分析尚未得到研究。
新文速递
强生/杨森研发团队联合利物浦大学科学家们近期从利物浦肺项目( Liverpool Lung Project, LLP)的观察性研究中作为发现队列,使用Olink Explore 3072平台生成血浆蛋白质组学数据,同时也使用Olink Target 96 平台13个panel进行重复检测,确定了与肺癌状态显著相关的血浆蛋白组,以此建立了预测肺癌诊断的模型;随后采用国生物样本库(UK Biobank, UKB)首批公开发布的Olink Explore 1536 蛋白组学数据作为验证队列,通过使用四种不同的机器自学习算法,进一步研究发现两组蛋白质在诊断前12年能够以相同的程度(AUC = 0.7)预测肺癌,该项目结果发表于柳叶刀子刊 eBioMedicine 杂志。
图片

研究解析

利物浦肺项目发现队列设计

利物浦肺项目人群队列包括在肺癌诊断前1年或更长时间采集的样本,对照组年龄、性别和吸烟史匹配。LLP人群队列中回顾性选择了本研究的病例和对照作为巢式病例对照队列。LLP人群队列研究对象在招募时未患肺癌,但在5年内被诊断为原发性肺癌,被确定为主要的发现队列(病例)。非小细胞肺癌病例中腺癌(n = 53)和鳞状细胞癌(n = 49)数量类似,在诊断时分为早期(45%)或晚期(52%)。对42例患者的纵向研究确定了诊断时(n = 23)、诊断前1 ~ 3年(n = 21)、诊断前3 ~ 5年(n = 30)或诊断前5 ~ 10年(n = 33)的样本,以及来自48例对照的相同时间点的110个纵向样本。对于每个病例,使用性别、年龄和吸烟状况匹配对照受试者(发现队列中每个病例2名对照,纵向研究中每个病例1名对照)。使用Olink Explore 3072平台生成血浆蛋白质组学数据,同时也使用Olink Target 96 平台13个panel进行重复检测。

图片
研究流程图

UKB首发数据作为验证队列

验证队列使用在UKB 人群队列中Olink Explore 1536平台生成的首批数据。定义肺癌病例使用ICD10代码C34。癌症情况仅限于第一次发生,有未来的癌症从基线抽血,并有Olink数据,病例总数为392例。对照组定义为无记录的个体没有自述既往患过癌症的人,如果死亡,癌症不是死亡原因。根据年龄、性别、吸烟状况和种族,使用最近邻K方法生成匹配对照。采用两种患者与对照组对比:一种是平衡比例,即癌症与对照组的比例为1:1,另一种是将患肺癌风险作为1种癌症:14个对照(392例病例和5500例对照)。
图片

以UKB 作为验证队列确定未来肺癌病例和相关匹配对照

Olink Explore 3027 和 Target 96一致性

通过Olink血浆蛋白组分别鉴定了425个健康受试者和493未来肺癌病例诊断前(1到3年)及(1到5年)之间差异表达蛋白质。在过滤掉与溶血显著相关的蛋白后,将240 (1-3Y)和267 (1-5Y)个蛋白分别组合成z评分,以研究与临床和流行病学因素的关系。该评分与吸烟或者COPD(Chronic Obstructive Pulmonary Disease)病史无关。因此,血浆蛋白与已知的癌症危险因素没有直接关系,这意味着当与肺癌风险评分结合使用时,它们可以提供额外的有用信息,且与吸烟引起的炎症无关。发现的蛋白组也进一步在Olink Target 96平台上检测,结果表明Target 96与Explore平台有良好的一致性
图片

血浆蛋白组Olink Target 96和Olink Explore 3072相关性

血浆蛋白组结合基因集合富集分析

240种血浆蛋白在诊断前1-3年差异表达,267种血浆蛋白在诊断前1-5年差异表达,共390种蛋白质中只有117种(30%)在两种分析中被鉴定出来。这一点值得注意,因为血浆蛋白质组不仅反映了诊断前隐匿性肿瘤的存在(信号很可能更接近诊断),还反映了对癌前疾病免疫反应,及对与吸烟和环境因素相关的炎症生物反应(这些危险因素在诊断时不一定较高)。此外,当通过基因集富集分析映射到通路时,从1-3Y和1-5Y的通路之间有限的重叠(290个显著富集的通路中只有21个),表明不同的生物通路驱动信号的长期和短期风险。

图片

基因集合富集分析

借助机器自学习发现肺癌预测蛋白标志物

通过使用四种不同的机器自学习算法表明,1-3Y和1-5Y蛋白均能在诊断前5年预测肺癌(1- 3Y模型的AUC为0.76 ~ 0.90,1- 5Y模型的AUC为0.73 ~ 0.83)。使用UKB队列作为验证队列,其中包括392例未来肺癌病例和5,500例无癌症对照。UKB队列目前公开数据中仅包括部分Olink Explore平台数据,在LLP和UKB中都被测量的蛋白质用于模型分析,所以107个蛋白用于1-3Y模型拟合,129个蛋白用于1-5Y模型拟合。结果表明,这两组蛋白质在诊断前12年能够以相同的程度(AUC = 0.7)预测肺癌。值得注意的是,这种癌症预测仅适用于肺癌,而UKB队列中的其他癌症未被预测,这表明易感因素和肿瘤释放蛋白质组对于不同的肿瘤可能是不同的。

图片

循环血浆蛋白预测未来肺癌
从纵向样本来看,1-3Y蛋白的联合z评分在诊断过程中显著上升。然而,对于1-5Y蛋白,差异延伸到疾病进展早期,且一些蛋白水平在接近诊断时没有增加到很大程度。这表明它们可能代表风险标志物,提示遗传易感性或与吸烟相关的损伤,而不是肿瘤释放或肿瘤反应蛋白。风险生物标志物(而不是用于早期诊断)可帮助确定哪些人将从包括治疗预防在内的预防措施中最大获益。
写在最后
利用基于抗体检测的Olink Explore 和 Target 蛋白组学平台,研究团队采用利物浦肺项目(LLP)发现队列和英国生物样本库首发数据为验证队列,并借助机器自学习模型,对肺癌诊断前不同时间采集的血浆样本进行了全面的血浆蛋白发现及基因集合富集分析,最终发现两组蛋白质在诊断前12年能够以相同的程度(AUC = 0.7)预测肺癌这为早期预测生物标志物及其随时间的变化提供了见解。其中,血浆蛋白质组学提供了的蛋白质生物标志物组,可用于在诊断前5年或更长时间识别肺癌最高风险人

参考资料:

1. Plasma protein biomarkers for early prediction of lung cancer. eBioMedicine. 2023;93: 1046863.



分享