Cell:基于33个遗传多样性水稻种质泛基因组分析揭示“隐藏”的基因组变异

      结构变异(Structural variation,SVs)和基因拷贝数变异(gene copy number variations,gCNVs)是动植物中主要的遗传变异来源,对于作物进化、驯化和改良具有重要贡献。全面准确地鉴定和分析SV和gCNV对挖掘优异等位基因、保障水稻粮食安全具有重要意义。

     四川农业大学研究人员合作于2021年发表于《Cell》期刊“Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations”的研究论文,通过组装了31个具有遗传多样性的水稻种质的高质量基因组,并结合两个现有的水稻基因组,开发了水稻泛基因组,为水稻及其他作物基因组研究、种质资源的精准鉴定、优良基因的挖掘、基因功能解析、分子设计育种等研究奠定了坚实基础。

图片

研究设计

本研究选取了遗传背景具有高度代表性的33个水稻材料,包括亚洲栽培稻各亚群代表性材料和非洲栽培稻材料,以及水稻生产和育种上广泛使用的优良品种和核心亲本材料。
利用PacBio长片段测序、Illumina测序、RNA-seq和NCBI数据库,获得了31份材料平均深度为60倍的长片段序列数据。利用高质量基因组组装和注释流程,获得了31个均达到参考基因组水平的高质量基因组和基因注释。结合已发表的两个高质量基因组(日本晴和蜀恢498)和注释结果,构建了水稻泛基因组,同时比较分析水稻的结构变异情况。

研究亮点

1、获得31 个从头组装高质量水稻基因组,用于遗传多样性的种质研究;

2、构建水稻泛基因组规模资源和基于图的基因组揭示隐藏的SV和gCNV;

3、使用O. glaberrima基因组推断O. sativa SVs的衍生状态;

4、SVs和gCNVs塑造了水稻基因表达谱和农艺性状变异。

主要研究结果

组装的31份水稻的高质量基因组中,亚洲稻基因组大小平均为385.8 Mbp(371.7–392.9 Mbp),非洲稻CG14基因组大小为344.7 Mbp。平均Contig N50达到12.88 Mbp。
以日本晴基因为基础采用迭代策略构建泛基因组,获得了包含66,636个蛋白质编码基因的首次构建了水稻图形基因组,是水稻中迄今最为完整的基于图形结构的泛基因组。其中20,374个基因为核心基因,46,262个为可变基因。

表1 31个水稻高质量基因组组装及注释结果

图片
图片

图1 遗传多样性水稻种质的不同农艺表型


将32个基因组序列与日本晴基因组序列进行比较检测SVs,获得了总共有171,072个非冗余SVs,包括164,009个存在/缺失变异(PAVs),6,109个易位和954个倒位。SVs在染色体上呈不均匀分布,有140个SVs热点区域。在染色体11上一个SV热点区域与12个稻瘟病抗性数量性状基因座(QTLs)重叠或邻接。这些发现表明,位于SV热点区域内的变异可能经历更强的环境选择。
图片

图2 代表衍生状态的SVs的推断和表征


大多数dSVs与非编码区重叠。对R527的29种不同样本类型的RNA测序分析发现胁迫处理后dSVs基因表达变化大于3倍的比例明显高于非dSVs基因,表明dSVs基因通常对环境压力更敏感,水稻进化和驯化过程中SVs具有广泛的基因表达谱。。这些基因组变异很难利用传统手段鉴定到,绝大多数在先前研究中均未发现,但在农艺性状调控中发挥重要作用。例如,著名日本优质稻品种“越光”中一个早熟位点(qDTH7-3),可能由OsMADS18基因在“越光”产生两个拷贝,导致表达量升高从而表现早熟表型。
图片

图3 SVs对基因的影响促成了环境适应和驯化


水稻泛基因组中25,549个(38.34%)蛋白质编码基因被推断为gCNVs,包括14,782个基因PAVs。此外,gCNVs可以导致异位表达模式,水稻中gCNV普遍存在并与农艺性状的变异有关。总体而言,这个gCNVs目录有助于研究水稻表型变异背后潜在的隐藏基因组变异。
图片

图4 广泛存在的基因CNVs与农艺性状变异相关


这些SVs主要的形成机制是转座因子插入(TEI),其次是非同源末端连接(NHEJ)。研究表明TEs,尤其是LTRs,能够以某种方式频繁地为NHEJ产生DNA断裂,或者通过提供同源序列来促进非等位同源重组(NAHR)。
图片

图5 多种机制驱动水稻SV的形成


以日本晴基因组作为基础线性基因组,基于彼此同源性<50%的PAV序列构建水稻图形基因组。总共6,542个PAVs被整合到图形基因组中。将水稻3K-RG数据集中选择的674份覆盖所有亚群、测序深度>10X的水稻材料比对到图形基因组,证明了水稻图形基因组的实用性。
图片

图6 水稻图形基因组的构建及效用展示


为了便于使用这些基因组资源,作者搭建了水稻数据库网站(http://www.RiceRC.com)。该网络工具集成了基因组浏览器和BLAST功能,便于使用基因组序列和查询遗传变异等内容,促进水稻功能基因组学和育种应用研究。
图片

图7 水稻数据库网站

研究总结

总之,本研究获得了31 个从头组装高质量水稻基因组,用于遗传多样性的种质研究。同时首次构建了水稻图形基因组,是水稻中迄今最为完整的基于图形结构的泛基因组。研究对 SV 形成机制、对基因表达的影响以及亚群之间分布的分析说明了这些资源在理解 SV 和 gCNV如何塑造水稻环境适应和驯化方面的效用。研究基于水稻泛基因组通过全基因组关联 (GWAS)分析,来鉴定那些仅通过SNPs和单个参考基因组所无法检测的、与表型相关的遗传变异。本文的工作提供了水稻群体级别的基因组资源,同时配套开发了在线网站便于用户获取相关资源,有助于促进水稻育种以及植物功能基因组学和进化生物学研究。


参考文献

Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations. Cell, 2021.


分享