肿瘤免疫微环境

Computational approaches for characterizing the tumor immune microenvironment

计算的方法刻画肿瘤免疫微环境4.147

Liu CC, Steen CB, Newman AM.

DOI: 10.1111/imm.13101

PMID: 31347163


Abstract

Recent advances in high-throughput molecular profiling technologies and multiplexed imaging platforms have revolutionized our ability to characterize the tumor immune microenvironment. As a result, studies of tumor-associated immune cells increasingly involve complex data sets that require sophisticated methods of computational analysis. In this review, we present an overview of key assays and related bioinformatics tools for analyzing the tumor-associated immune system in bulk tissues and at the single-cell level. In parallel, we describe how data science strategies and novel technologies have advanced tumor immunology and opened the door for new opportunities to exploit host immunity to improve cancer clinical outcomes.

Keywords: bioinformatics; cancer genomics; tumor immunology; tumor microenvironment.

高通量测序技术和多重成像平台的发展使得我们可以对肿瘤免疫微环境进行深入研究。在肿瘤相关的免疫细胞的研究中,往往涉及多样性的数据集,且需要更为复杂的分析方法。本文综述了用于分析混合测序和单细胞水平上与肿瘤免疫相关检测方法和生物信息学工具。


目前有一些免疫相关策略用来改善癌症病人的生存:(i)通过免疫检查点抑制阻断免疫抑制[1];(ii)增强T细胞介导的免疫[2];(iii)通过先天免疫激动剂增强适应性免疫反应[3]。恶性的肿瘤细胞与肿瘤微环境(TME)和基质成分之间的复杂相互作用往往对于免疫治疗有着重要的影响。使用复杂的生物信息学工具和定量模型分析和整合这些高维数据,对于深入研究TME的复杂性并进行临床转化过程至关重要。


本文讨论了分析基于cytometry计数的数据(流式细胞术)、成像的方法(IHC)以及二代测序(NGS)数据,以及表观基因组分析方法的结果(图1)。且综述了用于bulk测序组织的中的免疫细胞的组成推测(CIBERSORT),以及抗原受体测序和新抗原预测的方法。最后分享了一些公开的资源可用于分析肿瘤免疫微环境。

图1. 刻画肿瘤免疫微环境的方法概述
1、基于Cytometry的方法
自1960年以来,流式细胞术和荧光激活细胞分选技术彻底改变了免疫学。在流式细胞仪中,使用与蛋白质标记结合的荧光染料对细胞进行染色,该蛋白质标记在激光激发后发光,这样可以确定每个细胞上的抗原密度。流式细胞术被广泛用于对TME进行表型分析。Cytobank(https://community.cytobank.org/)和FlowRepository(https://flowrepository.org/)是两款常用的分析软件。Cytobank Community (https://community.cytobank.org/)和FlowRepository (https://flowrepository.org/)是两个存储流式数据的公开数据库。
流式数据的典型分析包括四个步骤:(i)预处理,质控和数据标准化;(ii)二维散点图亚群识别;(iii)跨样本的比较分析;(iv)将细胞亚群与外部变量关联分析[4]。CyTOF可同时测量40多个参数,分辨率的提高使人们更为深入的了解TME的表型多样性。利用CyTOF生成高维,单细胞数据集,通常使用二维散点图进行可视化。目前开发了许多算法来进行高维数据的分析(表1)。例如常见的tSNE,UMAP等降维工具,这些算法在单细胞RNA-seq数据分析中不可或缺。最广泛使用的算法tSNE是一种非线性降维技术。

表1. 分析和可视化高维数据的工具
   
2、基于图像的方法
基于流式的方法可以让我们评估免疫细胞表型,但无法捕获空间信息。IHC是分析通常由病理学家手动进行,结果差异很大。自动图像分析不仅可以节省时间并且主观性较低,图像分析的两个公开可用的软件工具是ImageJ和CellProfiler[5, 6]。传统的IHC只能同时检测有限的marker基因,最近开发的CODEX可用于新鲜/冷冻组织切片中进行多重成像的技术,该技术使用DNA条形码,为了克服光谱重叠问题,使用了多重离子束成像技术[7]。采用这些成像技术,可以更好地了解组织的空间异质性以及细胞之间的相互作用。
3、bulk转录组和表观基因组学
NGS技术的出现以及测序费用的下降,导致生物大数据时代的到来。肿瘤及其微环境的RNA-seq可用于推测癌细胞,免疫亚群和非免疫基质成分之间的相互作用[8]。表2列出了一些广泛用于基因表达分析的工具,包括转录组拼接,差异表达分析,通路富集分析工具。例如常用的STAR、HISAT2等比对工具以及差异分析R包(DESeq2,edgeR)等。


表2. 分析基因组、转录组和表观组的工具
4、单细胞转录组和表观组
传统bulk测序仅能测量总体平均值,而无法捕获单个细胞之间的异质性。最近,火遍学术界的单细胞RNA测序(scRNA-seq)和其他单细胞技术(scATAC-seq)应运而生。目前也有许多利用单细胞测序技术剖析肿瘤的免疫异质性[9]。目前许多工具可用于scRNA-seq数据分析[10]。其中Seurat是一种广泛使用的工具包,Seurat中数据预处理、降维(PCA,tSNE,UMAP),聚类、marker基因识别等。表2列出了用于从scRNA-seq数据进行聚类和识别细胞类型的其他方法。Monocle2是另一个广泛应用于伪轨迹推测工具包,可以对细胞进行聚类并进行差异表达分析。Monocle2使用DDRTree的非线性重建算法对细胞进行排序,表2还列举了轨迹推断的其他方法。单细胞测序面临的问题之一就是drop-out,即存在着许多零值。MAGIC和scImpute是常用的缺失填补的方法。对于单细胞的其他组学数据,甲基化和ATAC-seq同样也研究较多,例如北大汤富酬老师课题组研发的scTrio-seq方法可以同时检测单个细胞的转录组和甲基化状态。
5、计算机方法解析组织成分
单细胞RNA测序通常需要新鲜的冷冻样品,而通常样本是用石蜡包埋的。在癌症的情况下,可以使用bulk测序的数据集对细胞类型进行反卷积。表3列举了用计算机方法解剖细胞组成的工具。

表3. 组织解析的计算机方法分析
在计算机上用于解决组织组成的方法可大致分为两类:富集方法和去卷积方法。例如,ESTIMATE使用ssGSEA来计算基质和免疫评分以预测肿瘤纯度的方法。相比之下,去卷积方法可以通过计算来估计细胞类型的比例, CIBERSORTx扩展了CIBERSORT的功能,可从bulk测序数据中推断细胞丰度和特定细胞类型的基因表达谱。与基因表达谱的去卷积方法一样,DNA甲基化和ATAC-seq图谱也可用于量化bulk基因组数据中的免疫细胞亚群。Chakravarthy等使用了Illumina Infinium的DNA甲基化数据,用于对肿瘤成分进行去卷积,以估计肿瘤纯度和基质细胞含量[11]。
6、免疫组库分析和新抗原预测
TCRs和BCRs可以识别抗原,可以通过V(D)J重排产生了高度多样化的免疫库。TCR和BCR测序可追踪特定淋巴细胞克隆。免疫组库测序的局限性在于无法区分不同的细胞状态,例如active的细胞还是naive细胞。表4列出了用于分析免疫组库测序的生物信息学工具。一些常用工具包括IgBLAST,IMGT / V-QUEST和iHMMune-align,例如IgBLAST具有分析核苷酸和蛋白质序列的能力。

scRNA-seq技术的发展为使得单细胞TCR分析成为可能。单细胞TCR分析可以配对α和β链序列。TraCeR是一种通过先对V和J片段的所有可能组合进行比对然后将读段组装成连续序列来重建TCR-α和-β链配对的工具。新抗原预测(根据患者肿瘤DNA或RNA预测与突变相关的癌症抗原)对癌症个性化治疗也具有重要意义。新抗原预测首先要比较肿瘤和匹配的健康组织鉴定突变的蛋白质。常用的变异检测工具包括GATK和MuTect。一些常见的HLA分型工具为Polysolver和OptiType。最后分享一下可用于新抗原预测的公开获得的资源。IMGT / HLA是一个包含WHO认可的(https://www.ebi.ac.uk/ipd/imgt/hla/)的所有HLA等位基因的序列。

表4. 免疫组库分析和新抗原预测的工具
   
7、最后分享一下常用的公共资源

免疫基因组计划(ImmGen)建立了小鼠免疫系统中基因表达和调控网络图谱(http://www.immgen.org/)。ImmPort是由NIH资助的数据平台(https://www.immport.org),ImmPort由四个部分组成:私有数据,共享数据,数据分析和资源。ImmPort的共享数据中包含300多个公开可用的数据集。PRECOG是一种泛癌数据库,可对约40,000个肿瘤的表达进行meta分析(http://precog.stanford.edu),它使用CIBERSORT确定22个免疫细胞亚群与生存之间的复杂关联。

转自生信人

分享