A primer on deep learning in genomics25.455
Nat Genet. 2019 Jan;51(1):12-18.doi: 10.1038/s41588-018-0295-5. Epub 2018 Nov 26.
Abstract:
Deep learning methods are a class of machine learning techniques capable of identifying highly complex patterns in large datasets. Here, we provide a perspective and primer on deep learning applications for genome analysis. We discuss successful applications in the fields of regulatory genomics, variant calling and pathogenicity scores. We include general guidance for how to effectively use deep learning methods as well as a practical guide to tools and resources. This primer is accompanied by an interactive online tutorial.
Keywords:deep learning, genomics
深度学习(deep learning)是机器学习的一个分支,是一种以人工神经网络为架构,对数据进行表征学习的算法(简而言之就是深度学习模仿我们人类大脑运行的方式,从经验中进行学习,进而对未来接触的事物做出反应和决策)。那么什么是人工神经网络呢?人工神经网络(Artificial Neural Network,ANN),有时也简称神经网络,是一种通过模仿生物神经网络的结构和功能的计算模型。神经网络架构的计算单元被称为神经元。
深度学习在许多领域都有应用,在生物信息学领域也不例外。今天我们介绍的这篇文献 A primer on deep learning in genomics (2019年1月发表于Nature Genetics,IF=25.5)就是提供了一个深度学习应用于基因组分析的入门操作介绍和前景分析。主要讨论了调控基因组学、基因组变异检测、和致病性分析等方面的成功应用。
1.深度学习的详细介绍
深度学习作为一种机器学习方法,机器学习技术在基因组学研究中得到了广泛的应用。机器学习任务分为两大类:有监督和无监督。在有监督的学习中,目标是通过使用提供的一组有标签的训练示例来预测每个数据点的标签(分类)或响应(回归)。在无监督学习中,例如聚类和主成分分析,目标是学习数据本身的内在模式。许多机器学习任务的最终目标是优化模型性能,而不是在可用数据(训练性能)上,而是在独立数据集(泛化性能)上。基于这个目标,数据被随机分成至少三个子集:训练、验证和测试集。训练集用于学习模型参数,验证集用于选择最佳模型,测试集用于估计泛化性能。机器学习必须在模型灵活性和训练数据量之间达到适当的平衡。一个过于简单的模型将不合适,无法让数据“说话”。一个过于灵活的模型会过度适应训练数据中的虚假模式,而不会泛化。
大型神经网络是深度学习的主要形式,是一类能够进行预测和降维的机器学习算法。深度学习和基因组学中使用的标准机器学习方法(如支持向量机和logistic回归)的关键区别在于,深度学习模型具有更高的容量和更大的灵活性。典型的深度学习模型有数百万个可训练参数。通过适当地整理训练数据,深度学习可以自动学习特征和模式,而不需要太多的人为手工操作。
图1:基因组学中的深度学习工作流程示意图
在基因组学中,深度学习的输入数据可能是一个DNA序列,其中核苷酸A、C、T和G编码为[1,0,0,0,0]、[0,1,0,0]、[0,0,1,0]和[0,0,0,1]。直接读入数据输入的神经元被称为第一层或输入层。第二层由神经元组成,它们读入第一层的输出,以此类推,更深层的神经元也被称为隐藏层,最后一层是输出层,对输入数据的特征的高度总结输出。
2.如何有效地在基因组学中利用深度学习
和所有的深度学习一样,在基因组中进行深度学习首先也是要确定合适的训练数据集,选择合适的评价指标,这是建立有效的深度学习模型的重要步骤。训练集的构建应确保不会引入可能人为放大影响的偏差。
例如,已知的致病性遗传变异可能聚集在基因组的某些区域,即外显子或启动子,而已知的中性变异可能更广泛地分布在整个基因组中。如果应用了这些不平衡数据,神经网络可能表现良好,但实际上,它可能会学会识别富含致病性变体的基因组区域,而实际上却无法在这些重要的基因组区域内区分中性和致病性变体。因此,重要的是设计训练数据集,这些数据集在应用于现实世界的用例时,适当地平衡会对性能产生不利影响的混杂因素。
此外,基因组学数据往往高度不平衡。例如,相比于致病的变异,有更多的变异是不致病的,或者只有一小部分人可能会因为这些变异发展出一种特定的疾病来进行预测。因此,评估精确性和重现率非常有意义,这是一种衡量分类器性能的指标,可以解释数据集中类的不平衡。与所有其他机器学习方法一样,成功地应用深度学习也需要深厚的领域知识。
3.深度学习在基因组学中的应用举例
越来越多的学术论文提出了深入研究基因组的方法和工具。功能基因组学是深度学习的主要应用领域,包括预测DNA和RNA结合蛋白以及增强子和顺式调控区的序列特异性、甲基化状态、基因表达和剪接控制。当深度学习应用于调控基因组学时,通过直接使用从现代计算机中的视觉和自然语言处理的架构是非常成功的。卷积神经网络(CNN)和循环神经网络(RNN)非常适用于对调节元件进行建模的工作。深度学习还被应用到了单细胞调控,比如检测单细胞甲基化,并通过单细胞的RNA序列数据来识别细胞亚群。
图2:深度学习在基因组学中的应用环节
从遗传数据预测表型也是深入学习的一个主要领域。进行这些类型的预测的第一步是确定个体基因组中存在哪些遗传变异。DeepVariant已经解决了这个问题,它应用CNN从短读序列中进行变量调用。该方法将DNA比对视为一幅图像,其性能似乎超过了标准检测软件的性能。长读测序技术也使用深度学习进行基础呼叫(DeepNano:deep recurrent neural networks for base calling in MinION nanopore reads. PLoS One (2017).
Chiron:translating nanopore raw signal directly into nucleotide sequence using deep learning. (2017).)。根据变异体致病的可能性对其进行优先排序是很重要的。已经提出了几种预测编码变异致病性的方法(MVP:predicting pathogenicity of missense variants by deep neural networks. (2018).
DANN: a deep learning approach for annotating the pathogenicity of genetic variants. Bioinformatics (2015).
Generalising better: applying deep learning to integrate deleteriousness prediction scores for whole-exome SNV studies. PLoS One 13 (2018).)。这些方法本质上是聚合器,结合了先前的非深层学习预测因子以及已知的对预测变异致病性有用的特征。
表1:深度学习平台资源
4.讨论
尽管深度学习在基因组学方面显示出巨大的潜力,但仍有一些悬而未决的问题。第一个挑战是如何设计深度学习系统的挑战,这种系统能够最好地增强和补充人类在做出医疗决策(例如,基因组解释)方面的经验。
第二个挑战是如何避免训练中的偏差以及如何解释预测。解释预测和稳健性是方法发展的两个重要方向。因此,有必要进行反复实验,通过功能性实验室测试或正式临床评估来验证深度学习预测。迄今为止,深度学习在基因组学中最成功的应用是监督学习,即预测。除了预测之外,深度学习还可以通过学习自动生成新的DNA序列和具有理想性质的新蛋白质,有成为合成生物学的强大工具的潜力。这种生成模型也是一个值得期待的新的研究前沿。
转自生信人