敲黑板:单细胞转录组测序分析核心知识点

1. 单细胞悬液制备完成,质检合格后,才能上样、GEM制备(10x Chromium™仪器作用就在这边体现)。

怎样的细胞才是质量好的细胞呢?看下图

1.jpg

细胞浓度:700个-1200个/μl

总数:3万以上(ATAC需10万以上)

直径:小于40μm

细胞悬浮Buffer:PBS+0.04%BSA;PBS+10%FBS

Ca2+, Mg2+, EDTA Free    清洗2遍

2. 文库制备完成,上机测序,这里3’转录组测序,我们选择Illumina Novaseq6000。

3. 接下来就是享用数据的时候了:单细胞转录组分析。这个环节与大家后续的论文撰写直接相关,所以要格外关注。


·   正   ·   文   ·   来   ·   啦   ·

10x单细胞测序结果相对于bulk水平的测序,所包含数据要丰富的多,因为每个细胞我们都能得到一个独立的数据,形象地讲,单细胞测序中,一个单细胞就相当于bulk水平的一个样本,所以数据分析要复杂的很多。


一、单细胞水平对转录本进行定量


10x单细胞转录组测序的核心:首先是利用微流控技术将单细胞分隔成单细胞反应室(GEM),其次每一个GEM里面除了包含一个细胞外,还有一个就是带有双层标签的Beads,第一层标签10x barcode,用来标记细胞,即每个GEM里面的barcode是唯一的;第二层标签是用来进行表达定量的UMI,用来标记反转的cDNA分子,避免PCR bias。

2.jpg

图2 单细胞转录本定量示意图

如上图所示:两种10x barcode,首先根据此分成两类(即有两个细胞),然后根据UMI个数对转录本定量,以橙色的10x barcode为例,图中该barcode有两个转录本,转录本A有2种UMI,即表达量为2,转录本B有3种UMI,即表达量为3。以此进行归类,我们最后获得的就类似于图3这样的成千上万个细胞的转录表达矩阵。

3.jpg

图3 单细胞转录表达矩阵示意图

二、细胞群无监督聚类—Cellranger

细胞无监督聚类是基于细胞之间转录组的相似性。10x genomics公司自带一个分析平台cellranger,分析结果主要包括两个组成部分:
一个就是网页版的质控报告(图4),通过该报告大概能看到这些信息:获得的细胞数,数据量以及基因的中位数

4.jpg

图4 cellranger网页版质控图


另一个就是loupe可视化平台(图5),客户可以自行利用该软件协助细胞群定义
具体操作可参考:https://support.10xgenomics.com/single-cell-gene-expression/software/visualization/3.0/what-is-loupe-cell-browser

5.jpg

图5 Loupe可视化软件展示图


三、定义细胞群

单细胞测序的目的主要是研究细胞之间的异质性,所以对细胞群的定义也是比较关键的步骤。要想对细胞进行定义,我们就需要找到可以定义这些细胞的已知的marker genes,所以marker genes的寻找也就成为定义细胞群的关键
寻找marker genes的方法推荐:
  • 一是通过阅读文献来寻找,这个一般也是比较可靠的;

  • 二是通过cell marker的一些网站进行寻找,推荐表1列出的网站供参考;

  • 三是可以通过分析结果中的特异marker genes来判断,这个需要经验丰富,或者查阅资料,确定这些marker genes的功能以及主要存在什么细胞类型里面;

  • 四是基于已公布的转录组数据进行相关性分析以确定细胞类型。

表1 cell marker数据库统计表
数据库

物种

网址

MCA

小鼠

http://bis.zju.edu.cn/MCA/index.html

cellmarker

人,小鼠

http://biocc.hrbmu.edu.cn/CellMarker/index.jsp

panglao

人,小鼠

https://panglaodb.se/index.html

CancerSEA

肿瘤

http://biocc.hrbmu.edu.cn/CancerSEA/goDownload

点击链接,可直接跳转


Cell
一篇顶级期刊文章,教你如何定义细胞
Cell一篇关于果蝇脑的单细胞转录组图谱的文章,这篇文章总共测了56,902个细胞,他们首先利用已发表的marker genes,将细胞群进行定义


比如先将所有细胞归为归胆碱能(VAChT,24,802个细胞,占比43.6%),谷氨酸能(VGlut,13,296个细胞,占比23.4%)和GABA能神经元(Gad1,6,177个细胞,占比10.8%)三大类,之后将单胺能神经元(Vmat)进一步细分为5-羟色胺能(SerT),章鱼胺能/酪胺蛋白(Tdc2)和多巴胺能(ple)神经元,并区分了光感受器(ninaC, trp, trpl)、大脑区域(神经细胞)、MB(图6A-F)等。

6.jpg

图6 通过单细胞RNA-Seq鉴定细胞类型的多样性


对于已知marker genes定义不了的群体,他们采用了两种方式来解决,一种是将自己单细胞数据的clusters中的基因表达与先前发表的果蝇脑亚群的转录组进行了比较并建立回归模型,对细胞群进行了定义,这种方法可以识别独特的单细胞簇(图6G),第二种方式是通过与现有的bulk转录组数据比较,进行相关性统计,通过相关性大小来区分未知群与已知群的相关性以达到定义细胞的目的(图7)[1]。

7.jpg

图7 单细胞RNA-Seq和Bulk RNA-Seq数据的相关性研究


细胞定义基本上算是单细胞分析中最难的一部分,这一部分需要客户研读大量文献,客户如果进行单细胞测序,最好提前查找相关marker genes,这样便于细胞定义的准确性及缩短分析周期。


四、后续分析

当完成对细胞群的定义之后,一般会根据老师的实验目的进行后续的研究,比如有些老师可能更关注亚群之间的差异,那么差异性分析就比较适合;有些老师可能比较关注细胞群之间的发育分化关系,对此,我们可以做细胞群拟时轨迹分析等。


总结很重要~
单细胞转录组测序常规的流程:拿到数据后首先是对细胞进行定义,在定义细胞的过程可以使用cellranger平台自带的可视化软件loupe来协助,定义好细胞后可进行差异性分析,发育分化分析及其他个性化分析(图8)。

8.jpg

图8 单细胞转录组测序分析常规流程


当然有些老师并不以定义细胞群为目的,只是为了研究某类细胞群的功能,这种或其他非常规的分析也是可以的,需要后续进行沟通。

参考文献:

Kristofer D , Jasper J , Duygu K , et al. A Single-Cell Transcriptome Atlas of the Aging Drosophila Brain[J]. Cell, 2018:S0092867418307207-.
分享