导读

Tree- 生成模型作为一种层次化的生成工具,将分子图等效地转换为多叉树,从而创新性地表征分子的复杂结构。在这个模型中,复杂环系统、非环原子和化学键分别由虚拟环节点、单节点和边缘来表征。为了实现节点添加、环形成和节点连接等操作,作者独立训练了三个子模型。这些子模型可以便捷地整合起来,以进行自动回归分子生成。模型引入了独特的掩码机制,能够适应在拓扑约束下的结构生成,从而更准确地控制结构。此外,结合强化学习该模型能够处理各种多样化的受约束结构生成任务,如骨架跃迁、骨架修饰和连接器设计等。

方法理解 Tree- 的基本概念简化分子结构

Tree- 引入了一种表征分子图的创新方法。它将复杂的环系统简化为粗粒化的环节点,同时将非环原子描述为单个原子节点。这种表征方式将复杂的分子生成过程转化为可管理的两步程序:生成树结构,然后生成环结构。

节点拓扑指纹(NTF)

Tree- 的一个关键元素是 NTF。它编码了环系统的各种属性,例如环的数量、芳香环的存在、外环双键,以及特定原子(如 C、N、O 等)的数量。NTF 在生成和细化分子图中的环结构中发挥着至关重要的作用。

五步结构生成过程

Tree- 采用系统的五步过程生成分子结构:

初始化:从一个空图开始,考虑预定义的树结构约束。

节点采样:涉及采样树节点并使用 NTF 生成环。

环生成:模型更新环结构,直至其形成完成。

节点连接:将采样节点的子图与当前的分子图连接。

终止:根据特定标准决定何时终止图的生成。

Tree- 的架构概览

Tree- 的架构基于三个主要模块:

节点采样模块:预测当前图的下一步行动,决定是否继续生长以及添加哪种类型的节点。

环生成模块:在 NTF 约束下生成环结构。

节点连接模块:将新采样的节点与分子图连接。

每个模块都配备了图神经网络(GNN)块和多层感知器(MLP)网络,促进复杂计算和决策过程。

Tree- 的创新特性图神经网络的运用

Tree- 广泛利用图卷积网络(GCN)来学习和表征图结构。该模型将分子图或子图视为一系列节点和边特征,通过门控图神经网络(GGNN)进行处理。

MLP 的作用

Tree- 中的 MLP 对于预测各种过程(如节点添加、环生成和节点连接)的行动概率分布至关重要,提高了模型的决策准确性。

先进的分子生成技术

Tree- 在生成具有各种约束的分子结构方面脱颖而出:

无约束生成:利用其系统化的采样和生成步骤,进行自由形式的分子生成。

拓扑约束:纳入特定的拓扑特征作为约束,允许对生成的结构进行精确控制。

该模型擅长处理复杂任务,如骨架跃迁、骨架修饰和连接器设计,这在药物发现和化学合成中至关重要。

整合强化学习

将强化学习(RL)与 Tree- 结合是一个重大进步。这种整合促进了结构优化,实现了针对靶标属性的优化,使模型不仅具有生成能力,还具有预测和适应能力。

数据集利用

Tree- 在 数据集上进行了训练,涵盖了大量的分子结构。模型的训练涉及复杂的分段、原子遍历方法和优化技术,确保了分子图生成的稳健性和准确性。

主要结果及图表

Tree- 生成模型最初在 数据集上进行训练,并在 50000 个化合物样本集上进行性能评估。结果显示,该模型在结构有效性、唯一性和新颖性方面的表现可与其他模型媲美。然而,在 KL 散度和 (FCD)指标上表现较弱。在特定化学任务中,如使用强化学习生成 DRD2 活性分子时,模型展现了较高的预测准确率和探索化学空间的能力。

在设计 CDK4 抑制剂方面,Tree- 模型通过迁移学习快速掌握 CDK4 抑制剂的结构特点。利用迁移学习,模型能生成与已知抑制剂结构相近的分子。此外,模型在生成结构受限分子方面也展现了其独特性。例如,在生成核苷类似物时,模型在满足拓扑树约束条件下,成功生成新的核苷结构。在强化学习环境中,模型同样有效地执行骨架跃迁和骨架修饰等任务。

综合来看,Tree- 生成模型不仅在无约束环境中表现出色,而且在结合强化学习和迁移学习等方法时,能够灵活应对多种化学设计任务,如骨架跃迁、骨架修饰和连接体设计。

图表 1: 分子表征的拓扑树及其组成部分

生成子图-Tree-Invent 分子生成模型在新药设计中的应用

图表 2: 树状创新分子生成工作流程基础图

生成子图-Tree-Invent 分子生成模型在新药设计中的应用

图表 3: 模型架构

生成子图-Tree-Invent 分子生成模型在新药设计中的应用

图表 4: 训练数据准备的结构划分示例

左侧为输入神经网络的划分片段,右侧为输出。虚线代表预期创建的键。

生成子图-Tree-Invent 分子生成模型在新药设计中的应用

图表 5: 氟苯的拓扑图和分子图

生成子图-Tree-Invent 分子生成模型在新药设计中的应用

图表 6: 拓扑约束示例

图表 7: Tree- 训练过程中生成分子的平均活性得分

图表 8: 迁移学习过程中生成分子与训练集的平均 相似性

图表 9: 腺嘌呤的结构及其树状结构

图表 10: 的结构及其用于结构生成的两种不同拓扑约束

图表 11: 不同约束下生成的结构

生成子图-Tree-Invent 分子生成模型在新药设计中的应用

图表 12: 活性分子的骨架修饰

图表 13: 仅位置约束和拓扑约束下生成的骨架修饰示例

生成子图-Tree-Invent 分子生成模型在新药设计中的应用

图表 14: S1PR1 抑制剂连接器的定义拓扑约束

表 1:节点特征 x 与边特征 Xerw 的构成

生成子图-Tree-Invent 分子生成模型在新药设计中的应用

表 2:APD 加、APD 环与 APD 连接形状张量在单步骤中的应用

生成子图-Tree-Invent 分子生成模型在新药设计中的应用

表 3:迁移学习和强化学习中使用的几个数据集及 SVC 模型在测试集上的分类性能

表 4:Tree- 与其他基准模型的性能比较

生成子图-Tree-Invent 分子生成模型在新药设计中的应用

要点总结缺点:

与现有前沿生成模型的比较

结果与解释

改进建议

扩大比较分析范围

改进结果呈现和解释

参考资料:

编译 | 柠檬青年

策划 | Zero

来源 | 公众号-榴莲忘返 2014

版权 | 文中所述观点仅代表作者本人观点,不代表本平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系本平台编辑 (请添加微信号 )进行删改处理。原创内容未经授权,禁止转载至其他平台。有问题可发邮件至: 。

— 完 —

发表回复

后才能评论