Leading with leaders

SNP-Index计算（窗口基于物理距离）

I. SNP-Index Calculation

分析模块，输入过滤后的VCF变异信息文件，由分析模块“Clean VCF file for BSA Analysis”生成。VCF文件必须包含两个混池样品的变异信息（混池间的个体性状存在极端差异）。分析模块，根据设定的窗口大小（bp）和步长（bp），对窗口进行滑动，计算区间内所有变异位点的SNP-Index均值。

SNP-Index指覆盖基因组某一位点的reads中，在该位点含有突变型亲本基因型的reads占总reads的比例。如下图所示，参考基因组上是C碱基，G是突变碱基，覆盖左边的C的reads有10条，其中有4条reads该位点是G，那么SNP-index为0.4；而覆盖右边的C的10条reads，该位点全部是G，那么SNP-index为1。受限于有限的测序深度和测序随机性带来的波动，单个SNP计算SNP-index值通常不稳定。为了克服这个问题，我们通常会计算某个区间内的SNP-index均值。

输入：

过滤后的VCF变异信息文件，由分析模块“Clean VCF file for BSA Analysis”生成。

示例：

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Bulk1 Bulk2

Chr01 248 . C T 79.44 . . GT:AD:DP:GQ:PL 0/1:4,4:8:53:53,0,76 1/1:0,2:2:6:55,6,0

Chr01 333 . C T 200.60 . . GT:AD:DP:GQ:PL 0/1:2,11:13:21:118,0,21 1/1:0,7:7:12:112,12,0

Chr01 364 . T C 161.86 . . GT:AD:DP:GQ:PL 0/1:3,10:13:99:112,0,104 1/1:0,5:5:9:79,9,0

输出

SNP-Index计算结果文件。

示例：

CHROM START END NUMBER Buik1 Bulk2 D-VALUE

Chr01 0 999999 1121 0.8543276619818 0.867040175960477 0.0127125139786768

Chr01 10000 1009999 1106 0.854161474803691 0.868039816683269 0.0138783418795785

Chr01 20000 1019999 1117 0.85345864406317 0.867608508431804 0.0141498643686343

Chr01 30000 1029999 1106 0.851523985208697 0.866291775694722 0.0147677904860253

格式说明如下所示。

CHROM：染色体名称

START：窗口起始坐标（bp）。

END：窗口终止坐标（bp）。

Number：窗口内的SNP个数。

Builk1：混池1在这个区间内所有变异位点SNP-Index计算结果的平均值（混池名称与输入的VCF文件中的名称一致）。

Builk2：混池2在这个区间内所有变异位点SNP-Index计算结果的平均值（混池名称与输入的VCF文件中的名称一致）。

D-VALUE：混池1与混池2在这个区间内SNP-Index均值的差值计算结果。

参考文献：

Takagi H, Abe A, Yoshida K, et al. QTL‐seq: rapid mapping ofquantitative trait loci in rice by whole genome resequencing of DNA from twobulked populations[J]. The Plant Journal, 2013, 74(1): 174-183.

Abe A, Kosugi S, Yoshida K, et al. Genome sequencing revealsagronomically important loci in rice using MutMap[J]. Nature biotechnology,2012, 30(2): 174-178.

下一篇：Trimmomatic PE(paired-end)（PE数据去接头、低质量）

上一篇：SNP-Index计算（窗口基于SNP数目）