肺癌早诊｜基于Olink血液蛋白组学肺癌风险模型优于当前指南标准预测

研究背景

肺癌是全球癌症死亡的首要原因，且对晚期患者的滞后诊断会导致预后不良。目前对高危人群的标准预测方法为低剂量计算机断层扫描（LDCT），通过早期诊断筛查可对肺癌尽早进行干预以降低其死亡率。美国预防服务工作组（USPSTF）的最新指南建议，对于曾经每年吸烟至少20包、目前仍吸烟或戒烟不到15年的50-80岁人群，应每年进行LDCT筛查。然而，这些标准会导致很大一部分肺癌病例因未符合筛查条件而被遗漏。

LDCT（图片来源：Journal of Internal Medicine）

生物标志物具有在早期进行癌症风险评估的潜力，如能改善风险评估，可作为LDCT筛查前资格检测工具。目前癌症风险预测的可选生物标志物涉及多个领域，包括蛋白质、microRNA、自身抗体和甲基化循环肿瘤DNA等。

新文速递

国际癌症研究机构（IARC/WHO）Mattias Johansson博士联合全球多个癌症研究中心，最新研究结果发表与JNCI杂志（IF = 10.82)：文中对肺癌队列联合会（LC3）的6个前瞻性队列人群进行了肺癌诊断前样本和匹配吸烟史的非癌症样本的循环蛋白质组学研究，并建立了基于蛋白标志物的初步风险预测模型；该研究旨在评估在校正了年龄、性别和吸烟情况后，该模型是否能够提高EarlyCDT-Lung 检测和 PLCOm2012 模型对肺癌风险的预测性能；结果表明，循环蛋白质在预测肺癌发病率方面表现良好，其模型优于标准风险预测模型和商业化的EarlyCDT-Lung，具有识别出不符合当前指南标准的肺癌高危人群的潜力。

实验方法

前瞻性队列选择了624名肺癌患者和624名配对的无癌症人群，其中470对肺癌与无癌症样本来自于发现队列（HUNT、SCHS、CPS-II和MCCS），154对肺癌与无癌症样本来自于验证队列（EPIC和NSHDS）。根据 USPSTF 的肺癌筛查标准，发现队列中 60% 的肺癌参与者和 50% 的无癌症参与者符合筛查条件；验证队列中 57% 的肺癌参与者和 48% 的无癌症参与者符合筛查条件。而根据 PLCOm2012 模型，发现队列中肺癌参与者 6 年罹患肺癌的风险中位数为 2.4%，无癌症参与者为 1.5%；验证队列中肺癌参与者 6 年罹患肺癌的风险中位数为 0.98%，无癌症参与者为 0.69%。

实验分组设计

研究人员使用Olink 心血管III、炎症、肿瘤免疫和肿瘤II 4个panel 检测了302种循环蛋白质，利用发现队列数据发现了一组能预测风险的蛋白质，并训练了一个基于蛋白标志物的初步风险模型，然后使用逻辑回归模型初步评估了每种蛋白质与肺癌风险之间的关联，并对匹配因素（队列、年龄、性别、采血年份、吸烟状况、吸烟强度，曾吸烟者的戒烟年数）进行调整后，得到最终LASSO逻辑回归模型并生成 AUC 作为模型有效性指标。

PLCOm 2012 model vs protein-based risk model

作为对比，研究人员还使用了商业化EarlyCDT-Lung试剂盒进行了检测，共检测了 7 种抗原（CAGE、GBU4-5、HuD、MAGE A4、NY-ESO、p53 和 SOX2）和一种对照蛋白（VOL）。随后，作者将 PLCOm2012 和基于蛋白质的风险预测模型在验证队列样本中进行验证，并与 EarlyCDT-Lung 在相同特异性下确定每个风险模型的模型临界值进行了比较。

研究亮点

● 发现队列中蛋白标志物选择和风险模型训练

在对开发集进行多重测试校正后，作者确定了 22 种与肺癌风险相关的蛋白质。通过多变量 LASSO 逻辑回归，筛选出了四个蛋白质标记物，包括癌胚抗原相关细胞粘附分子 5 (CEACAM5)、巨噬细胞金属弹性蛋白酶 (MMP12)，白细胞介素 6 (IL6) 和含 CUB 结构域蛋白 1 (CDCP1)，并将其纳入最终的基于蛋白质的风险模型中（下图）。发现队列中 PLCOm2012 模型的 AUC 为 0.61（95% CI = 0.57 至 0.65）；而基于蛋白质的风险模型的训练样本的AUC估计为0.72（95% CI = 0.69至0.75；bootstrap校正AUC = 0.71）。

采用LASSO模型在500个训练数据集中选择的蛋白质的比例

● 验证队列的风险鉴别性能对比

在验证队列中，PLCOm2012 模型的总体 AUC 为 0.64（95% CI = 0.57 至 0.70），而基于蛋白质的风险模型AUC 估计为 0.75（95% CI = 0.70 至 0.81；蛋白质模型 vs PLCOm2012 模型 Pdifference = 0.001）（下图）。且在肺癌风险较低的人群中，基于蛋白质的模型的 AUC 估计值更高。

验证集中PLCOm2012模型与基于蛋白质的风险模型的ROC曲线比较

在验证队列中，EarlyCDT-Lung 报告了21 名肺癌样本和21 名无癌症样本的阳性结果，灵敏度为 14% (95% CI = 8.2% to 19%)，特异度为 86% (95% CI = 81% to 92%)。基于蛋白质模型的相应灵敏度（即特异性为 86%）为 49%（95% CI = 41% 至 57%；与 EarlyCDT 相比灵敏度的 Pdifference = 4 × 10-10），而 PLCOm2012 模型的灵敏度为 30%（95% CI = 23% 至 37%；与基于蛋白质的模型相比灵敏度的 Pdifference = 5 × 10-4）。在所有评估的风险分层中，基于蛋白质的模型的灵敏度均高于 EarlyCDT-Lung 模型。

写在最后

采用Olink血液蛋白质组学开发了一种基于4个蛋白质标志物的预测模型，该模型的预测表现良好，在相关比较中优于EarlyCDT-Lung和PLCOm2012模型。基于蛋白质的风险模型包括4种特定标记物：CEACAM5 是一种胎盘上蛋白，属于免疫球蛋白家族，通常在包括肺癌在内的几种癌症类型中过表达，有报道研究，CEACAM5 已被应用于肺癌预测的多个生物标记物Panel中。MMP12 属于锌依赖蛋白酶家族，参与细胞外基质成分的降解，由炎性巨噬细胞分泌，有报道称其参与肺癌转移过程中细胞外基质的调节。IL6 和 CDCP1 与免疫系统和炎症有关，且与癌症发病前几年的肺癌风险有关。

研究团队特别强调：任何用于筛查资格告知的生物标志物在开发时都应该以能识别大量目前不符合 LDCT 筛查资格的肺癌病例为目标；在开发和验证此类生物标记物的过程中，纳入低风险人群的诊断前样本至关重要；为此，与 EarlyCDT-Lung 和 PLCOm2012 风险模型相比，研究发现基于蛋白质的风险模型显示出良好的风险区分性能，值得在更大的研究样本中进一步评估。

肺癌合集：

新文速递｜新一代血浆蛋白质组学助力肺癌早诊提高患者生存率

Nat Med｜Olink Explore 3072 助力肺癌专项大队列研究发现恶病质新机制

柳叶刀子刊｜Olink E3072 + UKB首发数据发现肺癌早期预测蛋白标志物

肿瘤早筛｜在肺癌发病前数年对外周血CDCP1升高的前瞻性识别

参考资料：

1. Feng X. et al. Lung cancer risk discrimination of prediagnostic proteomics measurements compared with existing prediction tools. J Natl Cancer Inst. 2023 Sep 7;115(9):1050-1059.

下一篇：中国声音｜郑大附院团队采用Olink血浆蛋白组揭秘“丝绸之路病”潜在标志物

上一篇：环境健康｜Olink蛋白质组学揭秘污染物如何影响人体系统免疫学