——CNV分析代码 |
CNV(copy-numbervariant)是指拷贝数目变异,也称拷贝数目多态性(copy-numberpolymorphism,CNP),是一个大小介于1kb至3MB的DNA片段的变异,在人类及动植物基因组中广泛分布,主要表现为亚显微水平的缺失或重复。CNV是近年来基因组学的研究热点,是许多人类疾病(如癌症、遗传性疾病、心血管疾病等)发生发展的重要分子机制之一。
CNV的分析多见于易于发生染色体结构变异的肿瘤研究中,也可用于复杂的神经精神疾病的病因学研究,如智力障碍、帕金森病和孤独症等,也可用于其他疾病的易感性分析,如银屑病、克罗恩病和一些自身免疫系统疾病。CNV研究既可用于单个的病例分析,找到遗传高度异质性的个体致病的遗传学基础,如智力低下的病因诊断;也可用于大量的病例一对照分析,患病群体的常见CNV变异研究,还可用于核心家系的研究,如疾病相关新发CNV的研究。
基本原理
目前主流的CNV检验方法有RNA-seq和SNP Array,已有研究表明使用转录组数据分析到的CNV情况和SNP6.0芯片的结果差异不大。
CNV分析的第一步为筛选somatic CNVs。对正常人来说,基因组应该是二倍体的,所以凡是测到非2倍体的地方都是CNV。但是CNV本身就是人群遗传物质多样性的体现,所以对癌症样本来说,是需要过滤掉正常人体内的germline的CNV,得到somatic的CNV。
接下来,我们需要将CNV数据注释到基因。CNV原始数据都是基于基因组区域的。但是人们感兴趣的往往是这些位置上面到底有哪些基因。获得注释到基因的拷贝数变异数据就可以对其中基因进行各种下游分析。
数据要求
RNA-seq或者SNP Array数据。
下游分析
1、不同实验组的基因拷贝数变异差异分析
2、拷贝数变异差异基因的GO、Pathway分析
3、拷贝数变异的生存分析
图形示例:
1、不同患者组各个染色体位置的cnv frequence分布图
2、不同患者组各个染色体位置的cnv gistic scores分布图
应用示例:
文献1:Genome-widecopy number analyses of samples from LACE-Bio project identify novel prognosticand predictive markers in early stage non-small cell lung cancer.(于2018年6月发表在Transl Lung Cancer Res.,影响因子4.806)
对LACE-Bio数据进行全基因组CNV分析筛选早期非小细胞肺癌中的预后标志物
文章对LACE-Bio项目的SNP Array数据进行了系统的CNV分析,并分析了不同基因CNV情况对预后的影响,从而找到潜在的预后标志物。
文献2:Genomiclandscape of metastatic colorectal cancer(于2014年2月发表在nature communications,影响因子11.878)
转移性结肠癌的基因组分析
文章对转移性结肠癌患者的基因组数据进行CNV分析,发现了194个发生拷贝体变异的染色体亚区与无进展生存相关,分析了这些拷贝体变异相关的mRNA表达,并分析了发生拷贝数变异基因的靶向药物。