随着越来越多的植物基因组的组装,人们发现一个单一的参考组装并不能反映一个物种的基因多样性。泛基因组反映了基因组中的结构变异和多态性,从而能够深入比较物种水平或更高分类水平中的变异,同时泛基因组在作物改良、进化和生物多样性研究方面也有应用潜力,这就需要将泛基因组进行整合、分析并可视化的呈现。为了充分利用泛基因组的价值,需要整合更广泛的信息,如表型、环境和表达数据,以深入了解基因组中可变区域的作用。
泛基因组组装方法
由于存在大量的重复序列和多倍体,植物基因组和泛基因组的组装常常具有挑战性。相比denovo组装的方法,迭代mapping和组装是从单个参考基因组开始,用其他个体的非冗余序列对其进行顺序更新,最终构建成一个泛基因组。这种方法能够有效的捕获可变基因,评估大群体中的存在/缺失变异(PAV)等。
图1. 泛基因组组装方法
泛基因组的深度学习工具
近年来,机器学习在植物基因组研究中的应用越来越广泛。深度学习变异检测已经超越了现有的工具,深度学习模型也已经广泛应用于例如基因保守性和表达分析、CRISPR-Cas9拖把预测和蛋白质分析等。
图2. 用于植物泛基因组分析的深度学习模型
泛基因组的可视化
适用于植物泛基因组的可视化工具能够促进更深入的综合分析以及作物改良,这一领域虽然开发了一些工具,但是仍然很难为大规模的样本设计可伸缩的解决方案。大部分工具需要基于参考基因组结构,或需要用VG从头组装,同时植物基因组的复杂度也是可视化工具的开发面临的重要计算挑战,“云”的使用可以解决这一问题,建立一个基于云计算的植物泛基因组中心也可以促进研究人员之间的数据和分析共享。
图3. 泛基因组可视化
泛基因组在作物改良中的应用
基因组信息广泛的应用于作物育种研究中,然而参考基因组的数量并不能代表所有的种质资源,因而泛基因组在作物改良应用中具有重要作用。可以用来绘制非必须的基因组序列,突出显示提供了优异农艺性状的基因,同时泛基因组也能更好的支持和研究PAV在作物育种重点意义,为后续培育优异种质打下坚实基础。
图4. 甘蓝泛基因组图谱
跨物种的泛基因组及进化研究
虽然迄今为止大多数泛基因组都是在物种内构建的,但可以在更高的植物物种分类水平上构建泛基因组。这有助于鉴定单个物种特异的基因以及共有基因。为生物学家提供了从基因组学角度探索定义物种的机会。
图5. 比较核心与可变基因
挑战和展望
随着诸如“10KP基因组测序计划”的开展,构建泛基因组正变得越来越具有吸引力。然而,未来的研究需要新的工具来支持泛基因组的组装、整体结构的可视化等。虽然泛基因组具有提高作物育种效率的潜力,但未来的工具和数据库必须将泛基因组与基因功能分析和进化重建结合起来,形成一套整合不同组学数据的泛基因组工具,用于解析基因组变异和复杂农艺性状的关系。当泛基因组应用于大量不同的物种时,研究人员能够了解物种是如何在基因组水平定义的,为植物进化和多样化研究提供更深入的见解。
【参考文献】
1. Plant pangenomics: approaches, applications and advancements. Current Opinion in Plant Biology. 2020.