​NBT| 通过深度学习预测DNA和RNA结合蛋白的序列特异性

Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning31.864

Nat Biotechnol . 2015 Aug;33(8):831-8. doi: 10.1038/nbt.3300. Epub 2015 Jul 27.


Abstract

Knowing the sequence specificities of DNA- and RNA-binding proteins is essential for developing models of the regulatory processes in biological systems and for identifying causal disease variants. Here we show that sequence specificities can be ascertained from experimental data with 'deep learning' techniques, which offer a scalable, flexible and unified computational approach for pattern discovery. Using a diverse array of experimental data and evaluation metrics, we find that deep learning outperforms other state-of-the-art methods, even when training on in vitro data and testing on in vivo data. We call this approach DeepBind and have built a stand-alone software tool that is fully automatic and handles millions of sequences per experiment. Specificities determined by DeepBind are readily visualized as a weighted ensemble of position weight matrices or as a 'mutation map' that indicates how variations affect binding within a specific sequence.

这篇文献介绍了一项在基因组领域中使用卷积神经网络的开创性工作。文中表明可以使用深度学习从实验数据中确定序列特异性,这为模式发现提供了可扩展,灵活且统一的计算方法。通过使用各种各样的实验数据和评估指标,作者发现,无论是在体外数据训练还是体内测试中,深度学习都胜过其他最新方法。作者根据此设计了一个软件——DeepBind,该软件工具是全自动的,每个实验可处理数百万个序列。下面就来具体的了解一下这篇文献。
基础知识:卷积神经网络
卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。

图1:卷积神经网络结构

1.深度学习训练方法
DeepBind使用一组序列,并为每个序列使用实验确定的结合分数。序列的长度可以变化(在我们的实验中为14-101 nt),结合分数可以是实值测量值或二进制类别标签。
卷积阶段(conv M)扫描整个序列中参数M的一组主题检测器。图案检测器M k是一个4× m的矩阵,非常类似于长度为m的PWM(位置权重矩阵),但不需要系数为概率或对数比值比。所述整流级通过移动检测器的响应隔离具有良好的模式匹配的位置中号ķ由b ķ并将所有负值都标准化为零。合并阶段计算整个序列中每个图案检测器的校正响应的最大值和平均值。最大化有助于识别较长主题的存在,而平均有助于识别较短主题的累积效果,并且每个主题的贡献都是通过学习自动确定的。这些值被反馈到具有权重W的非线性神经网络,该网络将响应组合起来以产生分数。

图2:DeepBind内部工作细节及其训练过程
由图1可知:单个DeepBind模型并行处理五个独立序列。卷积,校正,合并和神经网络阶段使用当前的模型参数来预测每个序列的单独分数。在训练阶段,反向传播和更新阶段会同时更新模型的所有图案,阈值和网络权重,以提高预测准确性。
DeepBind的训练过程在概念上很简单,可以概述如下。在训练开始时,所有参数都初始化为随机值。然后,将N个随机选择的输入序列的“小批量” 馈送给网络,从而生成N个(最初是随机的)得分预测。每个预测与其对应目标之间的差异通过称为“反向传播”的步骤。然后训练以N个随机选择的输入序列的新小批量继续。最终训练运行中使用的迭代次数(小批量)由自动校准阶段确定。
2.确定DNA/RNA序列的特异性
为了评估DeepBind表征DNA/RNA结合蛋白特异性的能力,作者利用同一份数据不同的算法来进行比较。在DNA序列特异性评估中,选择的数据集是DREAM5 TF-DNA基序识别挑战中的PBM数据,收集了目前所有的26种方法进行比较,使用预测的探针强度和实际的探针强度之间的皮尔逊相关性,以及通过将高强度探针设置为正值而将其余探针设置为负值而计算出的接收器工作特性(ROC)曲线(AUC)下面积的值来评估方法。结果表明DeepBind是最优的。

图3:各种类型的保留实验测试数据的定量性能

在RNA序列特异性的分析中,作者采用了从24个真核生物中收集到的结合数据。数据集中跨越了不同的结构家族,数据包含约240,000个短的单链探针(30-41nt)。与之前的软件相比较,DeepBind始终具有比MartixREDUCE 和 PWM_align_Z方法更好的总体性能。
3. 识别和可视化破坏性遗传变异
产生或消除结合位点的遗传变异会改变基因表达模式,并可能导致疾病。精密医学的一个有希望的方向是使用结合模型来识别,分组和可视化可能改变蛋白质结合的变体。为了探索使用DeepBind的遗传变异的影响,作者开发了一种称为“突变图”的可视化,该图说明了序列中每个可能的点突变都可能对结合亲和力产生的影响。变异图传达两种信息。首先,对于给定的序列,突变图通过基字母的高度显示了每个碱基对于DeepBind分析的重要性。其次,变异图包括大小为4 x n的热图,其中n是序列长度,指示每种可能的突变将增加或降低结合得分的程度。

图4:潜在的致病基因组变异突变图分析

4. DeepBind模型可识别有害的基因组变异
作者研究了DeepBind是否可用于预测启动子中的有害SNV,方法是训练一个深度神经网络,以区分来自CADD框架的高频衍生等位基因(中性或阴性)和模拟变异(假定有害或阳性)。约 600个针对野生型和突变序列的DeepBind转录因子模型的得分用作输入。基本原理是,一个真正的转录因子结合位点可能与其他转录因子结合位点位于同一位置,因此这些额外的分数共同提供了背景信息。当使用保留的测试数据进行评估时,称为DeepFind的神经网络实现了0.71的AUC,当输入到最接近的转录起始位点的距离和一个转换/转变标志时,其AUC会增加到0.73。当包括九个保护功能时,AUC增至0.76。
结语讨论
尽管目前尚无用于评估序列特异性预测质量的单一度量标准,但作者认为DeepBind在各种数据集和评估度量标准上都超越了现有技术。重要的是,结果表明可以捕获核酸结合相互作用的真实特性。DeepBind可以很好地扩展到大型数据集,对于ChIP-seq和HT-SELEX,作者发现从其他技术由于计算原因而丢弃的序列中可以学到有价值的信息。

文献发表于2015,而今可能又会有许多新的模型长江后浪推前浪。但本文作为卷积神经网络应用于基因组学中的开创性工作是经典的。

转自生信人

分享