一个蛋白编码基因表达水平的直接体现就是其丰度情况,蛋白编码基因丰度程度越高,则蛋白编码基因表达水平越高。在转录组测序分析中,通过定位到蛋白编码基因组区域或蛋白编码基因外显子区的测序序列(reads)的计数来估计蛋白编码基因的表达水平。Reads计数除了与蛋白编码基因的真实表达水平成正比外,还与蛋白编码基因的长度和测序深度成正相关。
我们用已知的参考基因序列以及注释文件做为数据库,采取序列相似性比对的方法鉴定出各蛋白编码基因在各样本中的表达丰度。使用htseq-count软件获取每个样本中比对到蛋白编码基因上的reads数,cufflinks软件来计算蛋白编码基因的表达量FPKM值。
1、基因表达量注释及统计
蛋白编码基因表达量的计算使用fpkm 法(Fragments Per kb Per Million Reads),是每百万fragments中来自某一蛋白编码基因每千碱基长度的fragments数目。FPKM同时考虑了测序深度和蛋白编码基因长度对fragments计数的影响,是目前最为常用的蛋白编码基因表达水平估算方法。fpkm计算公式如下:
FPKM法能消除蛋白编码基因长度和测序量差异对计算蛋白编码基因表达的影响,计算得到的蛋白编码基因表达量反映表达高或低。
基因注释信息表头说明
表头 | 内容 | 示例 |
---|---|---|
id | 基因名 | OR4F5 |
Dbxref | 参考数据库 | GeneID:79501,Genbank:NM_001005484.1,HGNC:HGNC:14825,HPRD:14974 |
product | 产物 | lfactory receptor family 4 subfamily F member 5 |
GO_id | GO条目id | GO:0005634 |
GO_term | GO条目描述 | nucleus |
pathway | KEGG通路id | hsa05165 |
pathway_description | KEGG通路描述 | Human papillomavirus infection |
基因的FPKM值的分布统计如下表所示:
基因的FPKM值的分布统计表
表格说明:
(1)sample:样本名;
(2)Min.:最小值;
(3)1st_Qu. :第一四分位数;
(4)Median:中位数;
(5)Mean:平均值;
(6)3rd_Qu. :第三四分位数;
(7)Max. :最大值;
(8)Sd. :标准差;
(9)Sum. :总和。
输出文件:各样本基因表达量总表;各样本基因比对上reads数目统计表;各样本基因表达量情况统计表。
2、基因表达水平箱线图、密度图及区域分布图
箱线图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数(25%)、中位数(50%)、第三四分位数(75%)和最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息。
图片说明:横坐标为样品名称,纵坐标为 log10(fpkm+1),每个区域的盒形图对五个统计量(至上而下分别为最大值,上四分位数,中值,下四分位数和最小值)。
FPKM密度分布体现了各样品的蛋白编码基因表达模式。fpkm密度分布图一般呈非标准正态分布,区域面积大小为1,代表概率的总和为1,密度分布曲线的峰值代表该表达量水平的蛋白编码基因数最多。我们对所有样本基因的fpkm做密度分布图,以便直观地体现各样本中基因的fpkm分布的情况。 各样本fpkm值密度分布曲线图如下图所示:
图片说明:图中不同颜色的曲线代表不同的样本,曲线上点的横坐标表示对应样品fpkm的对数值,点的纵坐标表示概率密度。
由于样本的基因表达数目及基因表达值分布存在一定差异,可以将样本表达值(fpkm)划分为不同区间,计算不同表达区间样本表达的基因数目,并绘制堆积柱状图进行展示。样品基因表达量分布图如下图所示:
图片说明:图中不同颜色代表不同范围的fpkm值,横坐标为样品,纵坐标为蛋白编码基因数量。
3、样品间相关性检验
样品间蛋白编码基因表达水平相关性是检验实验可靠性和样本选择合理性的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。根据基因表达情况获得测序样品间的相关系数图如下图所示:
样品间相关系数热图
图片说明:横坐标表示样品名称,纵坐标表示对应的样品名称,颜色代表相关系数大小。
4、主成分分析(三个样本以上)
利用基因的表达量进行主成分分析(PCA分析),考察样品分布情况,对样本间关系进行探究或者对实验设计进行验证。PCA可以从不同维度展现样品间的关系。样本聚类距离或者PCA距离越近,说明样本越相似,各组样本分布在二维或三维空间的不同区域,同组的样品在空间分布比较集中。PCA图如下图所示:
PCA图
5、聚类分析(三个样本以上)
利用聚类方法计算样本和样本的距离,从而对样本之间的相似性进行考察。该分析结果能准确反映实验设计情况,属于同一设计的样本距离相近,优先聚在一起。根据基因表达情况获得测序样本聚类图如下图所示:
Sample-to-sample 聚类分析结果
图片说明:横坐标表示样品名称,纵坐标表示对应的样品名称,颜色代表相关系数大小。