分子设计与三维等变
1 背景
1.1 等变性 (Equivariance)
定义:当输入数据发生某种变换时,模型的输出也会以可预测的方式发生相应的变换。数学上,对于变换操作
则称
1.2 不变性(Invariance)
定义:不变性指当输入数据发生某种变换时,模型的输出保持不变。数学上,对于变换操作
则称
1.3 卷积神经网络(CNN) 中的等变性与不变性
等变性:卷积核在图像上滑动时共享权重,局部特征的位置会随输入平移而同步变化,如:输入图像中的一只猫向右平移,卷积层输出的特征图中对应猫的特征也会右移。
不变性:通过池化层(Pooling)和深层堆叠逐渐引入不变性,例如最大池化——抗局部像素干扰;深层的高级特征抽象程度高,对输入的低级变换(如位置、光照)表现出更强的不变性。
1.4 蛋白质口袋条件下分子生成需要的等变性
定义:三维等变性(3D Equivariance):若对蛋白质口袋施加某种几何变换(如旋转,平移,反射),生成的分子结构也会以相同方式变换,保持与口袋的相对位置和化学互补性不变。
数学上,对于变换
为什么此时需要等变?
- 物理合理性:分子与蛋白质的结合是几何和化学的协同过程,等变性确保生成分子的姿态与口袋变换同步,避免生成"不可能"的构象。
- 数据效率:无需通过数据增强学习所有可能的蛋白质姿态,模型天然适应几何变换。
- 泛化能力:对末见过的蛋白质构象或口袋变形具有鲁棒性。
2 一些等变性方法
2.1 E(3) 等变图卷积网络
- Satorras V G, Hoogeboom E, Welling M. E (n) equivariant graph neural networks[C]//International conference on machine learning. PMLR, 2021: 9323-9332.
2.1.1 坐标形式
公式改变:
证明:
2.1.2 向量形式
公式改变:
证明:
2.2 E(3) 等变扩散模型
2.2.1 方法
- EDM将分子建模为点云,化学键被忽略,生成点云后,化学键由原子间距离和原子类型预测得到
- 为了生成分子,坐标
和特征 是通过从标准正态噪声 开始,逐步去噪到 得到。这是通过从分布 中采样实现的。 - 为了训练模型,在步骤
中使用 将噪声添加到数据 和 ,然后训练网络学习去噪。
本文等变的核心假设:只要神经网络满足等变性,则整个生成过程具有等变性。因此神经网络采用EGNN实现等变。然而事实上,这里输入的噪声是没有等变的,于GEODIFF一文指出
2.2.2 扩散模型用于分子模型的优势
- 与文本类模型不同(生成的顺序天然是从左往右的,存在“固定模式“),扩散和图网络本身都不存在顺序,符合分子结构的模式,不存在“顺序依赖“导致的偏差
- 扩散模型本质上是求解随机微分方程 SDE ,生成的多样性会很高
SDE 形式
局限性:
- 分子加噪不同于图像,图像逐步加噪基本不影响整体图像的识别,而分子结构某些关键基团,加噪后就很难学习如何去噪。例如,苯环邻位的取代基方向,若加噪扰动,可能导致氢键断裂,从而失去结合力
- 分子数据中既有连续的数据(每一个原子的坐标),又有离散的数据(每一个分子的种类)。存在连续与离散数据的协同对齐问题。
- DDPM 的训练和采样效率较低,算力要求高、耗时长
2.3 Structure-based drug design with equivariant diffusion models
简介:DiffSBDD提出通过单一预训练扩散模型解决多任务(如属性优化、负设计、部分分子生成),突破任务专用模型的限制,提升通用性和效率。
2.3.1 数据
- 数据集:CrossDocked(100k蛋白质-配体对,训练集)与Binding MOAD(40k实验验证复合物,测试集)
- 预处理:过滤非药物类分子(QED>0.3),去除非常见原子类型,定义结合口袋为配体8Å内的残基。
2.3.2 训练策略
条件生成(DiffSBDD-cond):在每一步去噪过程中,将蛋白质口袋的原子作为固定上下文输入(通过掩码标记为不可变部分)。
联合生成(DiffSBDD-joint):训练时学习配体与口袋的联合分布,推理时通过掩码注入目标口袋信息。
2.3.3 下游任务
固定子片段并通过 mask 剪裁,将固定片段注入到上下文(口袋,已生成分子)中,进行分子生成
强化学习的 PG 算法:扩散生成 -> 分子打分 -> 选 top 分子 -> 继续优化生成
2.3.4 实验结果
- 生成的分子相似性不高,说明生成的多样性很高
- Vina 对接分数,说明生成的结果
- 与其它模型对比,DiffSBDD 的生成没有“环状“的偏好(从而更多地探索线性、支链或螺旋结构)