一般的实验设计中,都会包括实验组和对照组,组内的个体都会经过相同的处理方式。如这里,对照组有三只小鼠,实验组也有三只小鼠。对照组的三只小鼠即为一组生物学重复,实验组的三只小鼠,经过相同的实验处理,也是一组生物学重复。在这样的一组简单实验设计中,就有两组生物学重复存在。
这里就谈一下生物学重复存在的意义:
通过相同背景和处理的生物学重复,可以实现消除组内的误差,提高检验的灵敏度,还可以通过比较生物学重复来测量样本间的差异程度,以此来挖掘在组内具有普遍规律性的结论。我们常说生物学重复越多,越具有统计学意义,这是因为检测的样本越多,越能够降低背景差异,提升结果的可靠性,同时也越容易总结出普适的规律性结论。
在我们的研究中,由于处理的实验个体间可能存在的遗传背景差异或操作处理偏差等都可能造成有一些异常样本的存在,这些样本产出的异常数据会给实验结果带来偏离。那么通过生物学重复的设置,我们可以通过后续的生物信息分析,发现和排除异常样本,得到具有普适性规律的结论。
下面就通过两个案例,来分享一下生物学重复设置的优势和必要性:
首先是转录组研究的案例:通过生物学重复的设置,比较了转录组测序中的假阳性率FPR和真阳性率TPR.从表一(下图)中不难看出,在单样本测序量不变的前提下,伴随着生物学重复数的增加,研究的真阳性率得到了显著的提升。
实验对差异表达基因的检测变得更加灵敏,那些表达量较低的基因,或者差异倍数较小的差异表达基因也更容易被检出。
即便保持整个项目测序的总数据量不变,既全项目的总数据量为1,那么n个生物学重复的话,单样本测序数据量为1/n。从研究的曲线图可以看出,增加生物学重复可能对FPR的影响不那么显著,但在TPR中,伴随着生物学重复数的提高,TPR率也在不断提高:即便2个样本时,单样本数据量达50%,TPR比率也仅有3%左右,但当有8个生物学重复时,单样本的数据量虽然降到了12.5%,但TPR比例显著提升到20%以上。
再看一个全基因组甲基化研究的案例,同样的也是利用差异甲基化区域DMR检测的假阳性率FPR和真阳性率TPR评估生物学重复对检测结果的影响。不难看出伴随测序深度的提高,差异甲基化区域的检出效果也在提升,我们留意到在同一个测序深度下,增加生物学重复的个数TPR显著提高(a图),FPR也有相应的下降(b图)。在测序深度达到30%以上时,生物学重复的增加也能显著提高DMR检测的灵敏度(c图)。
参考文献:
1. Efficient experimental design and analysis strategies for the detection of differential expressioon using RNA-sequencing. BMC Genomics, 2012.
2. Coverage recommendations for methylation analysis by whole genome bisulfits sequencing. Nature Methods, 2015.