导读
Tree- 生成模型作为一种层次化的生成工具,将分子图等效地转换为多叉树,从而创新性地表征分子的复杂结构。在这个模型中,复杂环系统、非环原子和化学键分别由虚拟环节点、单节点和边缘来表征。为了实现节点添加、环形成和节点连接等操作,作者独立训练了三个子模型。这些子模型可以便捷地整合起来,以进行自动回归分子生成。模型引入了独特的掩码机制,能够适应在拓扑约束下的结构生成,从而更准确地控制结构。此外,结合强化学习该模型能够处理各种多样化的受约束结构生成任务,如骨架跃迁、骨架修饰和连接器设计等。
方法理解 Tree- 的基本概念简化分子结构
Tree- 引入了一种表征分子图的创新方法。它将复杂的环系统简化为粗粒化的环节点,同时将非环原子描述为单个原子节点。这种表征方式将复杂的分子生成过程转化为可管理的两步程序:生成树结构,然后生成环结构。
节点拓扑指纹(NTF)
Tree- 的一个关键元素是 NTF。它编码了环系统的各种属性,例如环的数量、芳香环的存在、外环双键,以及特定原子(如 C、N、O 等)的数量。NTF 在生成和细化分子图中的环结构中发挥着至关重要的作用。
五步结构生成过程
Tree- 采用系统的五步过程生成分子结构:
初始化:从一个空图开始,考虑预定义的树结构约束。
节点采样:涉及采样树节点并使用 NTF 生成环。
环生成:模型更新环结构,直至其形成完成。
节点连接:将采样节点的子图与当前的分子图连接。
终止:根据特定标准决定何时终止图的生成。
Tree- 的架构概览
Tree- 的架构基于三个主要模块:
节点采样模块:预测当前图的下一步行动,决定是否继续生长以及添加哪种类型的节点。
环生成模块:在 NTF 约束下生成环结构。
节点连接模块:将新采样的节点与分子图连接。
每个模块都配备了图神经网络(GNN)块和多层感知器(MLP)网络,促进复杂计算和决策过程。
Tree- 的创新特性图神经网络的运用
Tree- 广泛利用图卷积网络(GCN)来学习和表征图结构。该模型将分子图或子图视为一系列节点和边特征,通过门控图神经网络(GGNN)进行处理。
MLP 的作用
Tree- 中的 MLP 对于预测各种过程(如节点添加、环生成和节点连接)的行动概率分布至关重要,提高了模型的决策准确性。
先进的分子生成技术
Tree- 在生成具有各种约束的分子结构方面脱颖而出:
无约束生成:利用其系统化的采样和生成步骤,进行自由形式的分子生成。
拓扑约束:纳入特定的拓扑特征作为约束,允许对生成的结构进行精确控制。
该模型擅长处理复杂任务,如骨架跃迁、骨架修饰和连接器设计,这在药物发现和化学合成中至关重要。
整合强化学习
将强化学习(RL)与 Tree- 结合是一个重大进步。这种整合促进了结构优化,实现了针对靶标属性的优化,使模型不仅具有生成能力,还具有预测和适应能力。
数据集利用
Tree- 在 数据集上进行了训练,涵盖了大量的分子结构。模型的训练涉及复杂的分段、原子遍历方法和优化技术,确保了分子图生成的稳健性和准确性。
主要结果及图表
Tree- 生成模型最初在 数据集上进行训练,并在 50000 个化合物样本集上进行性能评估。结果显示,该模型在结构有效性、唯一性和新颖性方面的表现可与其他模型媲美。然而,在 KL 散度和 (FCD)指标上表现较弱。在特定化学任务中,如使用强化学习生成 DRD2 活性分子时,模型展现了较高的预测准确率和探索化学空间的能力。
在设计 CDK4 抑制剂方面,Tree- 模型通过迁移学习快速掌握 CDK4 抑制剂的结构特点。利用迁移学习,模型能生成与已知抑制剂结构相近的分子。此外,模型在生成结构受限分子方面也展现了其独特性。例如,在生成核苷类似物时,模型在满足拓扑树约束条件下,成功生成新的核苷结构。在强化学习环境中,模型同样有效地执行骨架跃迁和骨架修饰等任务。
综合来看,Tree- 生成模型不仅在无约束环境中表现出色,而且在结合强化学习和迁移学习等方法时,能够灵活应对多种化学设计任务,如骨架跃迁、骨架修饰和连接体设计。
图表 1: 分子表征的拓扑树及其组成部分
图表 2: 树状创新分子生成工作流程基础图
图表 3: 模型架构
图表 4: 训练数据准备的结构划分示例
左侧为输入神经网络的划分片段,右侧为输出。虚线代表预期创建的键。
图表 5: 氟苯的拓扑图和分子图
图表 6: 拓扑约束示例
图表 7: Tree- 训练过程中生成分子的平均活性得分
图表 8: 迁移学习过程中生成分子与训练集的平均 相似性
图表 9: 腺嘌呤的结构及其树状结构
图表 10: 的结构及其用于结构生成的两种不同拓扑约束
图表 11: 不同约束下生成的结构
图表 12: 活性分子的骨架修饰
图表 13: 仅位置约束和拓扑约束下生成的骨架修饰示例
图表 14: S1PR1 抑制剂连接器的定义拓扑约束
表 1:节点特征 x 与边特征 Xerw 的构成
表 2:APD 加、APD 环与 APD 连接形状张量在单步骤中的应用
表 3:迁移学习和强化学习中使用的几个数据集及 SVC 模型在测试集上的分类性能
表 4:Tree- 与其他基准模型的性能比较
要点总结缺点:
与现有前沿生成模型的比较
结果与解释
改进建议
扩大比较分析范围
改进结果呈现和解释
参考资料:
编译 | 柠檬青年
策划 | Zero
来源 | 公众号-榴莲忘返 2014
版权 | 文中所述观点仅代表作者本人观点,不代表本平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系本平台编辑 (请添加微信号 )进行删改处理。原创内容未经授权,禁止转载至其他平台。有问题可发邮件至: 。
— 完 —
1、本站发布的内容部分购买于网络,仅供读者学习与参考,如有侵权,请联系站长进行删除处理。
2、本站一切资源不代表本站立场,不代表本站赞同其观点和对其真实性负责。
3、本站仅分享资源,以极低的价格降低大家被割韭菜的损失。本站无法保证资源质量,所以介意的小伙伴请勿下单!
4、资源大多存储在云盘,如发现链接失效,请联系站长第一时间更新。