II. SNP-Index Calculation
分析模块,输入过滤后的VCF变异信息文件,由分析模块“Clean VCF file for BSA Analysis”生成。VCF文件必须包含两个混池样品的变异信息(混池间的个体性状存在极端差异)。分析模块,根据设定的窗口大小(SNP number)和步长(SNP number),对窗口进行滑动,计算区间内所有变异位点的SNP-Index均值。
SNP-Index指覆盖基因组某一位点的reads中,在该位点含有突变型亲本基因型的reads占总reads的比例。如下图所示,参考基因组上是C碱基,G是突变碱基,覆盖左边的C的reads有10条,其中有4条reads该位点是G,那么SNP-index为0.4;而覆盖右边的C的10条reads,该位点全部是G,那么SNP-index为1。受限于有限的测序深度和测序随机性带来的波动,单个SNP计算SNP-index值通常不稳定。为了克服这个问题,我们通常会计算某个区间内的SNP-index均值。
输入:
过滤后的VCF变异信息文件,由分析模块“Clean VCF file for BSA Analysis”生成。
示例:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Bulk1 Bulk2
Chr01 248 . C T 79.44 . . GT:AD:DP:GQ:PL 0/1:4,4:8:53:53,0,76 1/1:0,2:2:6:55,6,0
Chr01 333 . C T 200.60 . . GT:AD:DP:GQ:PL 0/1:2,11:13:21:118,0,21 1/1:0,7:7:12:112,12,0
Chr01 364 . T C 161.86 . . GT:AD:DP:GQ:PL 0/1:3,10:13:99:112,0,104 1/1:0,5:5:9:79,9,0
输出
SNP-Index计算结果文件。
示例:
CHROM START END NUMBER Buik1 Bulk2 D-VALUE
Chr01 248 931371 1000 0.850350202147585 0.863969497569142 0.0136192954215574
Chr01 3709 938965 1000 0.851419341341724 0.865869497569142 0.014450156227418
Chr01 14207 945061 1000 0.851019341341724 0.866869497569142 0.0158501562274181
Chr01 27051 946049 1000 0.848052674675057 0.861869497569142 0.0138168228940849
格式说明如下所示。
CHROM:染色体名称
START:窗口起始坐标(bp)。
END:窗口终止坐标(bp)。
Number:窗口内的SNP个数。
Builk1:混池1在这个区间内所有变异位点SNP-Index计算结果的平均值(混池名称与输入的VCF文件中的名称一致)。
Builk2:混池2在这个区间内所有变异位点SNP-Index计算结果的平均值(混池名称与输入的VCF文件中的名称一致)。
D-VALUE:混池1与混池2在这个区间内SNP-Index均值的差值计算结果。
参考文献:
Takagi H, Abe A, Yoshida K, et al. QTL‐seq: rapid mapping ofquantitative trait loci in rice by whole genome resequencing of DNA from twobulked populations[J]. The Plant Journal, 2013, 74(1): 174-183.
Abe A, Kosugi S, Yoshida K, et al. Genome sequencing revealsagronomically important loci in rice using MutMap[J]. Nature biotechnology,2012, 30(2): 174-178.