SNP全称Single Nucleotide Polymorphisms(单核苷酸多态性),是指在基因组上单个核苷酸的变异,SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况,而用INDEL来表示。INDEL全称Insertion and Deletion,即插入和缺失。 基于样本与参考基因组的比对结果,利用samtools软件进行染色体坐标排序、去重等处理,再用samtools、bedtools等软件预测样本中的SNP和INDEL位点。然后利用snpEff等软件进行功能注释。
1、SNP/INDEL检测
SNP和INDEL检测的结果见命名为INDEL_Sample.xls以及SNP_Sample.xls的文件。为了降低SNP&INDEL检测的错误率,使用 QUAL (A quality score associated with the inference of the given allele) 大于等于20,且DP(combined depth across samples)大于等于4进行结果过滤。
SNP/INDEL结果表格范例
表格说明:
(1)chr/scaffold:染色体号/scaffold号;
(2)position:SNP/INDEL位置;
(3)ref:参考基因组上的碱基;
(4)alt:检测到的其他碱基类型;
(5)QUAL:SNP/INDEL的质量值;
(6)ref_reads:参考基因组上的碱基reads覆盖数目;
(7)alt_reads:检测到的其他碱基reads覆盖数目;
(8)coverage:检测到的其他碱基reads覆盖百分百;
(9)FNC:SNP/INDEL所在位置的类型;
(10)codon_change:密码子变换(INDEL没有这一列);
(11)substitute:基因上的碱基替换位置和蛋白替换位置;
(12)gene:基因;
(13)biotype:生物类型。
2、SNP/INDEL分布
对SNP/INDEL在基因组上各功能区域的分布进行统计,结果范例如下表所示:
SNP/INDEL分布结果范例
表格说明:
(1)region:SNP/INDEL所在区域;
(2)counts:SNP/INDEL计数;
(3)percentage:所占的百分比;
(4)splice_region:剪接区域;
(5)5_prime_UTR:5'UTR区域;
(6)3_prime_UTR:3'UTR区域;
(7)upstream:基因上游区域;
(8)downstream:基因下游区域;
(9)intergenic_region:基因间区;
(10)intron:内含子区域;
(11)exon:外显子区域。
SNP/INDEL分布图如下所示:
SNP/INDEL分布图
图片说明:纵轴为SNP/INDEL所在区域或类型,横坐标为分类数目。
另外,我们将每个基因的 SNP/INDEL 位点数目除以基因的长度,得到每个基因的 SNP 位点密度值,统计所有基因的 SNP/INDEL 位点密度值并做密度分布图。
SNP/INDEL密度分布图
图片说明:横轴为基因上平均每1000bp序列中SNP数目,纵轴为基因数。
3、转换/颠换统计
转换(transition)是指嘌呤置换嘌呤,或嘧啶置换嘧啶,颠换(transversion)是指嘌呤置换嘧啶或嘧啶置换嘌呤。对所有样品中SNP的转换/颠换数量进行统计。
表格说明:
(1)SNP:SNP突变类型;
(2)type:SNP突变属于转换(transition)或颠换(transversion);
(3)Sample:样本中SNP位点数。
各样本中SNP的转换/颠换数量统计图如下:
图片说明:纵轴为样本中各个分类的SNP位点数目,横轴为SNP突变类型。