I. SNP-Index Calculation
分析模块,输入过滤后的VCF变异信息文件,由分析模块“Clean VCF file for BSA Analysis”生成。VCF文件必须包含两个混池样品的变异信息(混池间的个体性状存在极端差异)。分析模块,根据设定的窗口大小(bp)和步长(bp),对窗口进行滑动,计算区间内所有变异位点的SNP-Index均值。
SNP-Index指覆盖基因组某一位点的reads中,在该位点含有突变型亲本基因型的reads占总reads的比例。如下图所示,参考基因组上是C碱基,G是突变碱基,覆盖左边的C的reads有10条,其中有4条reads该位点是G,那么SNP-index为0.4;而覆盖右边的C的10条reads,该位点全部是G,那么SNP-index为1。受限于有限的测序深度和测序随机性带来的波动,单个SNP计算SNP-index值通常不稳定。为了克服这个问题,我们通常会计算某个区间内的SNP-index均值。
输入:
过滤后的VCF变异信息文件,由分析模块“Clean VCF file for BSA Analysis”生成。
示例:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Bulk1 Bulk2
Chr01 248 . C T 79.44 . . GT:AD:DP:GQ:PL 0/1:4,4:8:53:53,0,76 1/1:0,2:2:6:55,6,0
Chr01 333 . C T 200.60 . . GT:AD:DP:GQ:PL 0/1:2,11:13:21:118,0,21 1/1:0,7:7:12:112,12,0
Chr01 364 . T C 161.86 . . GT:AD:DP:GQ:PL 0/1:3,10:13:99:112,0,104 1/1:0,5:5:9:79,9,0
输出
SNP-Index计算结果文件。
示例:
CHROM START END NUMBER Buik1 Bulk2 D-VALUE
Chr01 0 999999 1121 0.8543276619818 0.867040175960477 0.0127125139786768
Chr01 10000 1009999 1106 0.854161474803691 0.868039816683269 0.0138783418795785
Chr01 20000 1019999 1117 0.85345864406317 0.867608508431804 0.0141498643686343
Chr01 30000 1029999 1106 0.851523985208697 0.866291775694722 0.0147677904860253
格式说明如下所示。
CHROM:染色体名称
START:窗口起始坐标(bp)。
END:窗口终止坐标(bp)。
Number:窗口内的SNP个数。
Builk1:混池1在这个区间内所有变异位点SNP-Index计算结果的平均值(混池名称与输入的VCF文件中的名称一致)。
Builk2:混池2在这个区间内所有变异位点SNP-Index计算结果的平均值(混池名称与输入的VCF文件中的名称一致)。
D-VALUE:混池1与混池2在这个区间内SNP-Index均值的差值计算结果。
参考文献:
Takagi H, Abe A, Yoshida K, et al. QTL‐seq: rapid mapping ofquantitative trait loci in rice by whole genome resequencing of DNA from twobulked populations[J]. The Plant Journal, 2013, 74(1): 174-183.
Abe A, Kosugi S, Yoshida K, et al. Genome sequencing revealsagronomically important loci in rice using MutMap[J]. Nature biotechnology,2012, 30(2): 174-178.