转自Olink Proteomics
单细胞分析的进展正在深刻影响着生物系统研究的规模和分辨率。这些进展大多集中在单细胞RNA测序的应用上(scRNAseq),然而,转录组未必能全面反映细胞的状态。scRNAseq提供了基因表达的全面快照,但基因转录是随机的,其特点是转录的速度和大小不一,而且mRNA分子的半衰期在不同的基因之间有很大的差异。与mRNA相比,蛋白质更稳定,通常在细胞内的数量级更高,减少了其丰度水平的偶然波动。此外,与转录本相比,蛋白在维持细胞功能方面有更直接的作用。
以单细胞分辨率同时测量mRNA和蛋白的技术正不断涌现,包括几种针对靶向性mRNA和蛋白质的检测方法。然而,对全局性mRNA的测量可以促进全新的研究,如调节蛋白对整个转录体目标的影响。目前以CITE-seq为例的方法允许测量全局mRNA和较多的蛋白,但仅限于膜表面蛋白。
Olink可以被用于突破这一瓶颈。
瑞典乌普萨拉大学的研究人员最近报道了一种称为SPARC(Single-Cell Protein And RNA Co-profiling, 单细胞蛋白质和RNA联合测定)的方法,结合了经过改进的Smart-seq2全长mRNA测序和Olink PEA(邻近延伸扩展)的技术,可以同时测量单个细胞中的全局mRNA和89种细胞内蛋白质。该研究测量了人类胚胎干细胞(hESCs)在未受干扰或在诱导定向神经元分化后的固定时间点的mRNA和蛋白质水平。结果表明,在测量时mRNA的表达不能准确反映蛋白质的丰度,尽管在神经元分化过程中其变化方向是一致的。此外,转录因子的蛋白水平比其相应的转录产物更能预测其下游效应。蛋白质的表达变化总体上低于mRNA的变化,但相对蛋白质的变化并不反映mRNA水平。
SPARC展现了一种先进的联合测定方法,克服了目前在通量和蛋白质定位方面的限制,并展示了蛋白质测量如何极大地帮助分析基因表达变化、细胞状态和细胞调节机制。该方法被应用于探索在多大程度上转录本的数量可以预测细胞在稳定状态,或经历状态转换时相应蛋白质的水平。该研究发表在学术期刊《Communications Biology》 (2020 IF: 4.05) 上,题为《A combined approach for single-cell mRNA and intracellular protein expression analysis》
单细胞mRNA表达数据:适用于SPARC协议的Smart-seq2 scRNAseq方法包括一些与已发表协议不同的步骤。主要的区别包括在细胞裂解缓冲液中加入额外的洗涤剂,以确保获得细胞核蛋白,使用oligo-dT 偶联 T1 Dynabeads以固定poly(A) mRNA部分,以及在逆转录反应前排除72℃加热步骤以避免细胞蛋白变性等。
单细胞蛋白表达数据:研究人员与Olink Proteomics合作开发了一个用于单细胞分析的探索性多重PEA面板,涉及96种蛋白质,为其研究所关注的细胞内蛋白质。该面板包括与多能性、神经发生、细胞周期阶段和代谢功能等相关的不同功能组的蛋白质。在该面板的96个蛋白标志物中,有87个蛋白在100个细胞的对照中可以检测到,89个蛋白在单细胞中可以检测到。
该研究使用PCA研究mRNA和蛋白质表达数据集的主要变异来源。使用RNA表达数据,对采样细胞之间的变化贡献最大的三个因素是检测到的基因的数量、发育状态和细胞周期阶段。假设这些重要的因素反映了RNA或蛋白质的数量与细胞大小之间的关系,较大的细胞含有更多绝对数量的分子。为了尽量减少细胞周期、细胞大小和mRNA捕获效率对mRNA表达变化的影响,数据被归一化为与细胞周期和检测的基因数量有关的变化。蛋白质数据根据每块板和背景水平进行归一化处理。
图一. SPARC对同一单细胞的RNA和细胞内蛋白质进行检测。a) 在有oligo-dT偶联磁珠存在的情况下分离和裂解单细胞。在oligo-dT mRNA杂交后,含蛋白质的上清液被用于随后的多重邻近延伸分析(Olink PEA),并使用修改后的Smart-seq2方法处理mRNA。b) 使用SPARC分析的细胞模型概述。
单细胞mRNA与蛋白质表达数据。为了降低数据的维度,并根据细胞表达模式的相似性沿轨迹排列,作者进行了tSNE和伪时间(pseudotime)分析,应用SCORPIUS,一种单一的轨迹推理方法,将动态细胞沿着从未分化到更多分化状态的进展排序。该分析是在对归一化的mRNA和蛋白质表达数据分别进行分析。细胞基本上是根据采样的时间点(0、24和48小时)进行排序和分组,无论轨迹是根据mRNA还是蛋白质表达数据确定,细胞排序都非常相似(Spearman's rho = 0.82,N =242)。这些结果突出表明,用SPARC生成的mRNA和蛋白质数据都再现了模型细胞系统的预期动态变化。
图二. mRNA丰度仅部分反映了单细胞中的蛋白质丰度。a) 归一化的mRNA和b) 蛋白质表达数据的tSNE图和伪时间分析。c如果根据mRNA或蛋白质表达数据计算,细胞伪时排序的比较。图中的颜色与时间点相对应,0小时(绿色),24小时(橙色)和48小时(蓝色)。
稳态条件下及动态变化期间单细胞中RNA和蛋白质水平的关系。作者将当平均蛋白质或mRNA水平在几个小时内保持相对稳定时定义为细胞处于稳定状态。他们把重点放在基因内部的相关性上,即一个基因的mRNA和蛋白质浓度在单个细胞中的变化,所关注的是在至少一个时间点的100个细胞群体对照中,所检测到的蛋白质水平超过背景3Cq的基因。研究发现,mRNA的表达水平通常不能预测单细胞中蛋白质的表达(Pearson correlation coefficient between −0.12 and 0.40, N = 83),mRNA和蛋白质之间的比例和程度是基因特定的。对于在大多数细胞中同时检测到mRNA和蛋白的基因,分子的动态表达范围非常不同--与蛋白相比,mRNA的表达水平跨度更大。而蛋白质水平的测量提供了一个更稳定的基因表达状态的代表。
图三. POU5F1的mRNA 与 蛋白表达数据的散点图,每个轴上包括各自的密度图,或者显示为沿RNA伪时排序的细胞,RNA和蛋白表达绘制在Y轴上。RNA和蛋白质的数据均以对数表示。
同时调查了在定向神经元分化的早期时间点上mRNA和蛋白表达的一致性(图1b)。观察到在mRNA和蛋白表达水平上基因表达的时间延迟的明显例子。POU5F1很好地证明了这一点,它是一种转录因子,在定向神经外胚层分化时在hESCs中迅速关闭。当将单细胞沿伪时间RNA排序并绘制POU5F1基因表达时,观察到POU5F1 mRNA和蛋白质的表达都呈现一致的下降趋势。结果强调,虽然mRNA表达丰度不能预测测量时的蛋白质丰度,但当在一个(伪)时间尺度上解决mRNA和蛋白质的表达,从而考虑到基因调控的时间因素,包括转录和翻译之间的滞后时间,以及mRNA和蛋白质分子的不同半衰期,这些差异可以得到调和。
蛋白/mRNA表达水平比(Protein vs. mRNA)与它们的反式调控目标有更好的相关性。 迄今为止,调节网络推断分析的一个主要限制是需要非常多的重复观测数据。单细胞分析实验产生了成百上千的独立测量数据,但scRNAseq的使用仍然是一个挑战,部分原因是RNA转录的随机性和测序的技术限制。
作者感兴趣的是看将蛋白质水平的表达数据与mRNA表达结合起来是否有助于解读基因调控网络,分析了四个重要的和可靠度高的TFs(NOTCH1、POU5F1、SOX2和TP53)和它们来自三个数据库的预测靶点,对应于10组TF-靶点关系,和约1900个单独的TF-目标关系。对于每一组关系,测试了TF是否与它的目标基因比与非目标背景基因有更好的相关性。结果发现,转录因子在蛋白质水平测量时比在RNA水平测量时对其靶基因表达的预测效果要好得多。
该研究决定将分析重点放在POU5F1上,因为它是一个重要的干细胞因子,具有正负调节功能,并在分化时关闭。总的来说,POU5F1蛋白表达与POU5F靶基因的皮尔逊相关性和调控联系权重都比POU5F1 RNA表达更显著。随后研究了使用其他TF和候靶标RNA表达之间的调节联系权重作为该转录因子直接调节相应基因表达的证据的可能性。将POU5F1蛋白或POU5F1 RNA的所有TF-目标链接权重作为TF对一组样品中所有表达的基因进行排序,来创建一个ROC曲线,以确定识别阴性目标的成本,即假阳性率(FPR),基于识别出的阳性目标数量,即真阳性率(TPR)。计算了ROC曲线的曲线下面积(AUC):POU5F1蛋白和靶RNA与稳态(AUC = 0.80)或所有细胞(AUC = 0.97)的相关性,POU5F1 RNA和靶RNA与稳态(AUC = 0.23)或所有细胞(AUC = 0.29)的相关性。AUC结果显示,与仅使用来自稳定状态的数据相比,使用来自动态变化的细胞的数据能更好地检测出POU5F1的阳性目标,重要的是,结果还显示POU5F1蛋白表达水平比POU5F1 RNA水平更能预测调节目标。
图四. 转录因子蛋白而非mRNA具有与靶标mRNA的良好相关性。a) POU5F1在0小时单细胞(稳态)中的表达散点图,包括RNA和蛋白水平与POU5F1调节靶标基因TDGF1和OTX2的RNA表达相比。b) 在稳态(0小时)或动态(0、24和48小时)条件下,POU5F1蛋白和RNA水平与POU5F1调控目标的RNA表达之间的相关性。较深的阴影表示较强的相关性。c) 热图显示POU5F1在蛋白质和RNA水平的表达水平以及POU5F1调控目标候选基因的RNA表达。色阶与高(红色)和低(蓝色)表达有关。热图中的列是根据POU5F1的蛋白表达量排序的。d) 红线代表POU5F1(蛋白)-目标(RNA)ROC曲线,蓝线代表POU5F1(RNA)-目标(RNA)ROC曲线,基于调节环节的权重。实线代表动态条件,虚线表示稳态条件。填充方块代表不同ROC曲线的Youden index. e) ROC的总曲线下面积的量化,每个AUC表示为一个点。
基因表达的变化。单细胞基因表达谱的一个主要优势是可以研究细胞之间的基因表达是如何变化的。重要的是,在mRNA或蛋白质水平上影响表达变化的因素不同。文中分别计算了每个基因在mRNA和蛋白质水平上的变异系数。对于mRNA来说,基因表达的变化取决于平均表达量(图4a)。蛋白质也有类似的依赖性(图4b)。这种依赖性不仅反映了生物学变化,也反映了技术成分,如采样噪声。随后,将mRNA和蛋白质的表达变化数据归一到它们各自的平均表达量,以获得mRNA和蛋白质表达变化的独立测量结果,发现在mRNA和蛋白水平的表达变化之间一般有微弱的相关性(Spearman's rho = 0.28, N = 55, 图4c)。
结果表明,mRNA水平上的变异一般不会传播到蛋白质上,因此在评估表达变异对基因功能的影响时,RNA和蛋白质水平都应该被独立考虑。这一发现对单细胞基因表达研究具有重要意义,因为在单细胞中,用于进一步分析的基因组往往是根据表达变化来选择的。值得注意的是,将RNA表达化和估计的翻译率简单相加,可以得到对蛋白质表达变异性的更好估计(Spearman's rho = 0.50,图4d)。这一发现支持了单细胞中的蛋白质变化可以被分解为RNA变化和来自翻译噪声的概念,并首次提供了证据证明它是生理性的和可推广的。
图五. RNA变化对蛋白质变化没有预测作用。a) RNA表达均值(RPKM)和RNA表达变异(CV2)之间的关系。b) 与a类似,但对蛋白质而言。c) RNA和蛋白质水平的归一化基因表达变化(残差)适度相关(Spearman's rho = 0.28)。d) RNA变异和估计翻译率的简单加成模型有效地预测了蛋白质的表达变化(Spearman's rho = 0.50)。
与转录本相比,蛋白质在维持细胞功能方面具有更直接的作用,加上翻译后调节的公认的重要性,使单细胞蛋白质分析成为细胞状态的全面RNA分析的重要补充。该研究观察到mRNA和蛋白质变异性之间的关系与早期的观察一致,即细胞采用机制来减少或放大细胞内和细胞间蛋白质表达的差异性,这些是由突发性/噪声性mRNA转录引入的。虽然蛋白质在全局范围内表现出比RNA低的变异性,但单个基因的内在RNA变化并不能预测其蛋白质变化。
文中描述的SPARC方法可以帮助解决调节网络或监测发育过程和细胞对例如遗传或化学扰动的反应。这项工作表明,当在蛋白质水平上测量转录因子时,与其目标的RNA表达有很好的相关性,但当在RNA水平上测量转录因子时,则几乎没有相关性。
Smart-seq2协议的更新版本,通过使用UMI,可以进一步提高灵敏度和更好的量化。随机六聚体或感兴趣的特定序列可以被连接到磁珠上,以便将捕获范围扩大到非多腺苷酸化的转录物。SPARC提供了高灵敏度和精确的转录本量化,同时在单细胞中实现了高度规格化和可扩展的细胞内蛋白质检测,而不需要进行侵入性细胞凋亡。该方法建立在两种成熟的方法之上,其性能已被反复证明。