HTMD-分子发现的高通量分子动力学 HTMD-分子发现的高通量分子动力学 日期:2018-04-04 标签: 阅读: 简介:HTMD(High-Throughput Molecular Dynamics),是一个用Python编写的可编程的可扩展平台,旨在解决数据生成和分析问题,并提供完整的工作空间来提高基于模拟发现的可重复性。

 

 

摘要

 

分子模拟方面的最新进展使得科学家能够比以往更深入地研究生物过程。伴随着这些进步,数据爆炸式地增长将传统的计算密集型转化为数据密集型问题。这里介绍HTMDHigh-Throughput Molecular Dynamics),是一个用Python编写的可编程的可扩展平台,旨在解决数据生成和分析问题,并提供完整的工作空间来提高基于模拟发现的可重复性。目前为止,HTMD包括CHARMMAMBER力场的系统构建、抽样方法、聚类、分子模拟生成、自适应采样、亚马逊云界面、马尔可夫状态模型和可视化。因此,一个简短的HTMD脚本可以从PDB结构产生有用的数据,如弛豫时间尺度、平衡总体数量、亚稳态构象和动力学速率。

 

一、简介

蛋白质折叠、蛋白质-配体结合和蛋白质-蛋白质相互作用是生物物理学中研究最多的一些现象。 理解这些现象能够更好的理解新药开发以及细胞功能。有几种方法可用于研究这些问题,包括NMR、荧光和X射线等实验;但研究人员相信:由于信息技术的指数增长,基于模拟的发现将长期处于最佳状态。

 

分子动力学模拟(MD)可以以非常高的时间分辨率提供生物过程的原子水平分辨率,但它具有其自身的一些限制,其中最明显的是力场和时间采样限制的准确性。研究人员认为还有更重要的问题:数据分析和实验的可重复性。 过去的几年中,专用硬件、高通量方法和先进的取样技术已经能够显著改善分子动力学,使其能够达到数毫秒的模拟时间,力场也得到了显着改善。模拟精度和数据的增加导致了准备、执行和处理数千个单独轨迹的更加标准化的方法产生的必要性。


运用MD研究生物过程通常需要使用各种工具处理大量数据和文件,并适应几十年来开发的许多不同软件包的特性。 使用所有的工具集,即使对编写工作流的科学家来说,也很难遵循从原始PDB到结果的工作流步骤。其次,由于语言的多样性以及缺乏引入新扩展的通用编程环境,很难扩展这些工具的功能。本文中阐述了研究人员统一平台的愿景:基于模拟的分子发现的可编程工作空间。研究人员将其命名为高通量分子动力学(HTMD),表明它允许以受控方式处理数千个模拟和多个系统。

 

HTMD通过函数和类扩展了Python编程语言,在实现抽象细节和最佳实践的同时处理不同级别的分子系统。 Python是一种在科学界广泛使用的脚本语言,因此为开发和分发HTMD提供了理想的平台。HTMD的功能包括从分子结构操作到可视化、在不同计算资源上准备和执行分子模拟以及数据分析,包括使用马尔可夫状态模型(MSM)来确定缓慢事件、动力学速率、亲和力和路径。

 

需要更好的工具来处理大量的模拟数据,使得最近开发的工具包HTMD涵盖了分子模拟流程的各个方面。支持多种C ++,Python库和基于Web的环境,支持读写PDB文件和轨迹以及各种模拟数据处理。从更高的层面来看,例如Ensembler软件包可以结合Rosetta和MSMBuilder等各种工具和库,以允许整个蛋白超家族的构建准备和模拟,包括支持通过同源建模、质子化、溶剂化和模拟未知结构的蛋白质模型优化。Copernicus平台提供了用于分布式环境中运行和管理模拟的工具。这些软件解决方案涵盖了分子模拟流程的各种长阶段。但据目前所知,HTMD是第一个整合分子发现所需功能的平台。

 

二、方法

 

2.1整合的分子建模平台(HTMD

HTMD为用户提供了一个用于计算分子模拟发现的集成平台。 它的功能包括从分子结构操作到系统构建、分子对接、MD模拟、模拟管理、聚类、马尔可夫模型和自适应采样。 HTMD可以从任何python解释器以自执行脚本的形式使用,也可以交互式使用IPythonJupyter NotebooksJupyter Notebooks允许用户将代码、文档和图形合并到一个文档中,从而将整个实验、设置和报告集成到一个文件中,这有助于提高实验的可重复性。另外,电脑可以通过服务器和浏览器完全远程执行HTMD

 

2.2结构操作

分子结构信息通常以PDB文件中的原子坐标形式进行编码,必须对其进行处理以准备模拟。PDB文件的格式本身并不便于手动操作,原子操作可能会变得非常复杂。 HTMD提供了一个用于存储和操作结构信息的类。它可以读取、写入和组合PDB文件以及模拟轨迹。对原子信息的修改可以使用与VMD软件相同的强大的原子选择语言来执行。此外,HTMD允许用户进行残基突变并添加或删除原子。结构的可视化直接在HTMD中构建,使用VMD来检查结构和修改,尽管这需要单独安装VMD。此外,Jupyter Notebooks还提供了一个WebGL(NGLView)嵌入式查看器,可以进行远程执行。

2.jpg

 

2.3系统构建

对于系统准备,HTMD将系统准备与相应的力场和模拟软件分离,使代码可重复使用并允许用户即时更改力场。HTMD扩展了先前描述的结构操作功能,提供溶剂化和离子化,以及CHARMMAMBER系统的简单可互换构建。

 

2.4分子模拟

模拟部署和管理被整合到HTMD中。 HTMD提供了一个通用接口,用于管理各种计算资源和软件的模拟,从而使用户能够快速切换本地测试运行和发送到生产运行远程集群。常见过程的配置都编码在一组可以直接使用或修改为符合用户需求的协议中。HTMD提供了一个通用的软件独立接口,用于管理不同模拟软件的模拟。目前,为ACEMD提供协议和模拟接口;受支持的应用程序集可直接由用户扩展,并且在后续版本的HTMD中将支持更多软件。同样,HTMD目前支持ACEMDGROMACS使用的XTC轨迹文件格式,以后将支持更多的文件格式。

 

2.5投影与聚类

HTMD提供了各种类,如支持计算距离、RMSD、二面角等。进一步的投影类可以通过实现共享给定接口的新类来编写。使用HTMD,MD模拟可以很容易地从一组数百万个蛋白质构象聚集到一组明确定义的聚类和聚类中心,代表这些模拟中发现的构象多样性,以及为每个构象聚类定义边界。

3.jpg

 

2.6马尔科夫模型

 HTMD中的马尔可夫状态模型用于模拟分析和自适应采样。对于模拟分析,它们提供了一种强大的方法来检测亚稳态和通过将任意数量的模拟整合到单个统计模型中来计算动力学和自由能。对于自适应取样,马尔可夫状态模型允许基于亚稳态和动力学的更先进的取样方法。HTMD中的MSM是使用来自PyEMMA和Scikit-learn的一些功能来进行聚类。

 

三、结果

 

为了证明HTMD的功能,这里提供了三个例子:首先,对蛋白折叠和展开模拟的大型数据集进行蛋白质折叠分析; 其次,同一系统采样,使用HTMD的自适应采样功能与大数据集设置进行对比;第三,凝血酶和游离配体结合的自适应采样实例。

 

3.1蛋白折叠分析

本例展示蛋白质的HTMD马尔可夫状态模型分析。Villin是一种与肌动蛋白结合的组织特异性蛋白。在此设置中使用Villin氨基酸C-末端的双正亮氨酸K65Nle / K70Nle突变体。该数据集由1614次模拟组成,每次模拟时间为120 ns,在GPU分布式计算基础架构上使用ACEMD模拟,累积模拟时间为193.6μs。

 

首先,使用simlist函数将所有用于分析的模拟文件夹添加到列表中。simlist函数还将轨迹文件夹链接到其相应的结构文件,从而提供HTMD计算各种投影所需的所有原子信息。在给定模拟轨迹的情况下,可以使用聚类方法来定义马尔可夫模型的状态。

5.jpg

本例中使用MetricSelfDistance类从模拟坐标计算蛋白质接触图。通过计算蛋白质的所有碳-α原子之间的距离,如果该距离小于8Å则将它们设置为1,否则将设置为0。 在这种情况下,可以使用不同的投影方法来表示蛋白质构象,如骨架二面角或蛋白质二级结构; 然而,蛋白质接触图倾向于代表蛋白质中的各种构象,给出良好的结果。 使用时滞独立分量分析(TICA)将接触图进一步投影到10个最慢变化的子空间上,以帮助将聚类置于亚稳状态之间的过渡区域中,这提高了模型质量。


然后使用MiniBatchKMeans类Scikit-learn将TICA坐标聚类到1000个簇中。聚类方法和聚类数量的选择留给用户,因为不同的聚类方法可以在不同的模拟集合上更好地执行。 在某些情况下,用户可能需要尝试各种设置以获得最佳结果。 更多数量的聚类产生更小的聚类,这增加了马尔可夫模型的准确性和空间分辨率。 通过消除状态内的能量障碍,小的几何簇往往也产生更多的动力学均匀簇。 然而,大量的小型几何聚类可能会导致较差的统计数据,从而导致精确度较低的模型。 因此,在选择群集数量时必须做出妥协。


本例中离散时间马尔可夫模型将系统建模为一组状态之间的跳跃过程,离散跳跃时间称为滞后时间。选择马尔可夫模型的滞后时间,广泛使用的启发式是通过检查模型的隐含时间尺度在增加的滞后时间上的收敛性。

 

从马尔可夫模型转换概率矩阵,可以得到每个宏观物质的平衡种群以及宏观物质的速率,平均首次通过时间和标准自由能。这些观察结果对生物学家和化学家非常重要,因为他们可以通过实验进行测量,以便MSMs提供预测性和信息性方法学。

 

3.2自适应采样蛋白折叠

本例描述用于取样Villin蛋白质折叠过程的适应性取样方法。 除了轨迹长度更短(50 ns)以更好地适应自适应协议之外,模拟设置与上述分析中的相同。

6.jpg

从用户提供或使用HTMD构建系统构建的一组或多组模拟输入文件开始。然后显示HTMD的自适应配置脚本。第1-10行定义了自适应运行的参数,第11行开始执行自适应协议。自适应协议通过从默认路径读取初始“发生器”模拟输入文件开始,并且产生第一组nmax模拟。第3行和第4行定义了自适应运行中随时应运行的最大和最小模拟次数。一旦nrun的运行模拟次数低于nmin,马尔可夫状态模型将使用所有可用的模拟建立。在AdaptiveRun.run()方法内部,投影类计算所有轨迹的蛋白质的所有碳原子之间的接触图。这些接触地图使用TICA进一步投影到10个最慢的尺寸上。 TICA投影数据然后使用MiniBatchKMeans进行聚类;从预测模拟构建MSM,并使用1/Mc方法计算重构构象。然后在本地GPU上的ACEMD运行新模拟。

 

图例展示了超过60个自适应采样时间的折叠和展开时间计算的进展情况,并将其与使用等效聚集模拟时间和较长轨迹的非自适应采样的进展进行比较。自适应采样方法显示折叠和展开时间的收敛速度比之前的研究预期的自然采样快得多。

 

3.3自适应采样配体结合

8.jpg

本例描述了适用于取样配体与蛋白结合过程的适应性取样方法。由于配体结合的更快性质,每个步骤进行的模拟更少,意味着我们不需要对每个时期进行采样。 在这种情况下,使用不同的度量,即配体重原子和蛋白质的碳-α原子之间的接触,以允许马尔科夫模型检测蛋白质-配体相互作用。

 

9.jpg

分析图显示了最慢隐含时间尺度的进展情况,以及标准自由能超过60次自适应采样的进展情况。隐含的时间尺度图显示了马尔可夫模型如何在越来越多的时期检测到较慢的过程。每个时期都可视化为一个垂直直方图,显示使用自引导计算的最高时间尺度值的分布。

 

四、总结

通过HTMD,研究人员打算将分子模拟发现的整个工作流程整合到单一环境中,同时抽象出不必要的技术细节,减少了工作流程中可预防的错误,提高了分子动力学实验的可重复性,允许操纵大量的模拟数据,并为生物学家和药物化学家开辟了途径,利用模拟试图解决真实的生物学问题。本文描述了HTMD使用马尔可夫模型分析MD模拟的能力,并展示了其在通过自适应采样来改善构象空间探索方面的应用。此外,研究人员的目标是允许社区轻松开发新的协议和方法,通过提供对代码存储库的访问,可以将其包含在未来的HTMD版本中。 HTMD软件、文档、教程和示例可从https://www.htmd.org获取,学术用户可免费下载。

 

参考资料:

  1. https://www.htmd.org/

  2. Doerr S, Harvey M J, Noé F, et al. HTMD: high-throughput molecular dynamics for molecular discovery[J]. Journal of chemical theory and computation, 2016, 12(4): 1845-1852.