1.本发明涉及计算机技术和化学的交叉领域,特别涉及一种基于三分支结构的神经网络模型,可用于分子的预测和筛选。
背景技术:
2.传统化学合成新分子,测试分子性质,开发新药的流程耗费资源大,周期长,效率较低,通过基于深度学习的分子筛选模型,能够从虚拟分子中发现新结构,指导化学合成,实现高通量分子筛选。
3.立足药物化学和分子合成领域知识,合理运用数据科学和深度学习技术,在计算机辅助的高性能支持下,建立虚拟筛选模型,能够实现更加自动化、智能化的分子筛选和药物设计。全连接前馈神经网络结构,通过堆叠线性变换和非线性激活来学习输入分子信息和标签输出之间的映射关系,实现分子筛选预测。相比卷积神经网络和循环神经网络,这种深度神经网络模型较易训练,通过加入多信息的不同分支,提升模型的预测性能和泛化能力。
4.目前众多研究领域有着丰富的文献和研究报道,通过数据挖掘能够构建分子数据样本,结合数据特征工程和数据预处理,提升数据质量,为分子筛选深度学习模型提供高质量的训练数据,是训练与优化分子筛选模型不可缺少的一步。分子指纹可以高效地表示分子的化学结构信息,将分子结构特征转化为计算机可识别的不同比特长度的特征向量,使分子指纹可以作为神经网络模型的输入,实现通过分子结构进行分子筛选。maccs是一种166位二进制的分子指纹编码,基于smarts模式高效编码分子结构信息,不仅包含一定的化学意义,也有计算效率优势,可广泛应用于分子比较、虚拟筛选任务。ecfp是一种扩展连接性指纹,通过hash编码分子图的邻接信息,抽取每一层的特征生成固定长度的指纹,包含分子构型信息,计算高效,用于分子结构的向量表示,是化学和深度学习中常用的一种分子指纹。分子量、分子拓扑极性表面积、水油分配系数等分子性质能直接反应分子的物理化学性质,分子指纹和分子性质都可以表示分子信息,二者结合作为模型的输入,丰富的信息能提供对分子结构和理化性质的全面描述,避免分子指纹不能敏感表达某些性质。利用分子筛选模型从待筛选分子库或虚拟分子中发现药物,衔接虚拟分子开发和药物评价,帮助解决药物筛选中的多种限制。
技术实现要素:
5.本发明提供了一种基于三分支结构深度学习模型的分子筛选方法。
6.同时提供了一种深度神经网络分子筛选模型。
7.一种基于三分支结构深度学习模型的分子筛选方法,包括:将分子经过数据预处理后输入经多轮训练具有三分支结构的分子筛选模型,得到分子的筛选结果。
8.基于三分支结构的分子筛选模型包含三个分支,分别处理不同的输入信息,即所选择的两种指纹和分子属性,每个分支由多个全连接层串联组成,使用relu作为激活函数,
三个分支的输出特征通过concatenate函数汇聚在一起,进入后续的全连接层,最后输出层使用sigmoid激活函数,做二分类预测,得到分子能够实现预期目标的概率,实现分子的筛选。
9.smiles是一种简单有效地用文本编码分子结构的方法,可用于分子指纹生成和分子比较,适合在计算机处理分子信息的任务中使用。
10.基于三分支结构的分子筛选模型的训练过程有以下步骤,具体包括:
11.s1:合并收集到的正样本与负样本,转化为smiles,形成用于模型训练的数据集。对数据集分子进行数据预处理,将分子smiles编码转化为两种不同分子指纹和对应的分子性质,作为模型输入数据;
12.s2:将模型输入数据集随机按照9:1的比例随机划分为训练集和验证集用于模型训练和验证;
13.s3:将输入数据送入所构建的具有三分支结构的分子筛选模型,模型共有六层,第一层为输入层,输入分子指纹和分子性质,中间层为密集层,汇聚三个分支得到的特征,最后一层为输出层,利用sigmoid函数输出分子通过筛选的概率。模型采用adam优化器在算法训练,调整模型参数得到预测精度高的筛选模型;
14.s4:具有三分支结构的分子筛选模型经过多轮筛选,保存训练效果最好的模型。
15.对于用于分子筛选模型训练和数据集分子和待筛选分子,数据预处理的过程相同,首先得到分子的smiles编码,使用化学信息学与机器学习工具包rdkit,根据分子的smiles编码转换为对应的两种不同的分子指纹,并计算得到分子理化性质。
16.将经过数据预处理的待筛选分子输入经多轮训练的具有三分支结构的分子筛选模型进行分子筛选具有以下步骤,具体包括:
17.s1:对待筛选分子进行数据预处理,将待筛选分子的smiles编码转化为两种不同的分子指纹和对应的分子性质;
18.s2:选取经数据预处理后的待筛选分子输入具有三分支结构的分子筛选模型,获得待筛选分子通过模型筛选的概率;
19.s3:若分子筛选模型输出待筛选分子通过筛选的概率大于0.5,则视为分子通过筛选,若待筛选分子通过模型筛选的概率小于0.5,则分子不通过筛选。
20.在优选的实施例中,选择了分子对应分子量、分子的拓扑极性表面积、水油分配系数、氢键供体数量、氢键受体数量、分子的可旋转键数量、原子立体中心数量性质,七个性质组成了分子的特征向量输入模型。
21.在优选的实施例中,用于分子筛选模型训练的数据集中的正样本来自于文献挖掘工作,对于正样本和负样本都收集分子对应的smiles编码。若分子在pubchem数据库中有记录,则记录分子在pubchem数据库中对应的分子量、分子的拓扑极性表面积、水油分配系数、氢键供体数量、氢键受体数量、分子的可旋转键数量、原子立体中心数量性质信息。若分子在pubchem数据中没有相关记录,则使用开源化学信息学与机器学习工具包rdkit计算分子分子量、分子的拓扑极性表面积、水油分配系数、氢键供体数量、氢键受体数量、分子的可旋转键数量、原子立体中心数量。
22.在优选的实施例中,使用基于三分支结构深度学习模型的分子筛选方法筛选了用于合成可电离脂质的头部片段。选取从文献中挖掘得到的可电离脂质头部片段分子,分别
记录可电离脂质头部片段分子在pubchem数据库中的分子量、分子的拓扑极性表面积、水油分配系数、氢键供体数量、氢键受体数量、分子的可旋转键数量、原子立体中心数量性质信息和通过化学信息学与机器学习工具包rdkit计算得到的结果。使用统计分析软件r对两组数据进行方差分析,发现两组结果之间没有显著差异,即对于所有用于分子筛选模型的训练集和待筛选分子,可以使用化学信息学与机器学习工具包rdkit进行数据预处理。
23.同时,通过化学信息学与机器学习工具包rdkit可以计算得到分子对应的不同分子指纹。
24.在优选的实施例中,使用基于深度学习的具有三分支结构模型的分子筛选方法筛选了用于合成可电离脂质的头部片段,选择的分子指纹是ecfp分子指纹和maccs分子指纹。ecfp分子指纹基于分子图,包含分子构型信息,maccs分子指纹基于分子键,具有一定化学意义,两种不同类型的分子指纹相结合,可以提供对分子结构的全面描述信息。
25.在优选的实施例中,基于分子片段的理化性质和作用目的选择用于分子筛选的特征组合。为筛选新的用于可电离脂质合成的分子,选择了分子量、分子的拓扑极性表面积、水油分配系数、氢键供体数量、氢键受体数量、分子的可旋转键数量、原子立体中心数量性质。拓扑极性表面积可以衡量头部片段与生理环境相互作用的潜力,可电离脂质进入生物体内后,代谢过程与清除速率也与其相关。水油分配系数能衡量分子在水环境与脂质环境间是否达到适度分配,以实现在体内的定向与运输,与膜蛋白等生理环境的相互作用潜力相关。氢键供体数和受体数决定了该分子形成氢键的能力,这影响其与水等极性环境的相互作用力,进而决定其溶解度与生理活性。在设计过程中需要考虑可旋转键数量,控制分子的构象自由度。原子立体中心数量性质决定了该分子的构象异构体种类与数量。过多的构象异构体不仅会降低产物的产率与纯度,也会增加其在体内的代谢过程的复杂性。
附图说明
26.图1为本发明基于三分支结构深度学习模型的分子筛选方法基本流程;
27.图2为使用具有三分支结构的分子筛选模型进行可电离脂质头部片段筛选的结果。
具体实施方式
28.下面结合附图和具体实施方式对本发明做详细描述。
29.如图1所示,本发明一实施例的基于深度学习的具有三分支结构模型的分子筛选方法,包括:
30.实施例1
31.数据收集及数据预处理,具体包括以下步骤:
32.从文献中挖掘可电离脂质的头部片段结构,共计得到102个可电离脂质,作为用于可电离脂质片段筛选模型的训练数据集的正样本。
33.将所收集到的正样本与不能合成可电离脂质的负样本一起,形成用于模型训练的数据集。
34.对于用于模型训练的数据集,选取在pubchem数据库中有记录的分子,记录分子对应分子量、分子的拓扑极性表面积、水油分配系数、氢键供体数量、氢键受体数量、分子的可
旋转键数量、原子立体中心数量性质,并使用化学信息学与机器学习工具包rdkit计算七个性质的对应值。
35.在实施例中,对于用于合成可电离脂质的头部片段,分子的分子量影响形态和稳定性,影响脂质在体内的代谢过程和代谢产物。拓扑极性表面积可以衡量头部片段与生理环境相互作用的潜力,可电离脂质进入生物体内后,代谢过程与清除速率也与其相关。水油分配系数能衡量分子在水环境与脂质环境间是否达到适度分配,以实现在体内的定向与运输,与膜蛋白等生理环境的相互作用潜力相关。氢键供体数和受体数决定了该分子形成氢键的能力,这影响其与水等极性环境的相互作用力,进而决定其溶解度与生理活性。在设计过程中需要考虑可旋转键数量,控制分子的构象自由度。原子立体中心数量性质决定了该分子的构象异构体种类与数量。过多的构象异构体不仅会降低产物的产率与纯度,也会增加其在体内的代谢过程的复杂性。
36.使用统计分析软件r对来源于pubchem数据库和使用rdkit包计算得到的分子性质进行方差分析,分子的分子量、分子的拓扑极性表面积、水油分配系数、氢键供体数量、氢键受体数量、分子的可旋转键数量、原子立体中心数量七个分子性质对应分别对应的两组数据没有显著差异。
37.对于用于模型训练的数据集中的所有分子,基于rdkit包计算分子的分子量、分子的拓扑极性表面积、水油分配系数、氢键供体数量、氢键受体数量、分子的可旋转键数量、原子立体中心数量。
38.基于rdkit包分别得到数据集分子的ecfp分子指纹和maccs分子指纹。
39.按照9:1的比例将数据集随机划分为训练集和验证集。
40.实施例2
41.具有三分支结构的分子筛选模型,具体包括:
42.在具有三分支结构的分子筛选模型中ecfp分子指纹分支用于学习ecfp指纹与活性的关系,maccs分子指纹分支用于学习maccs指纹与活性的关系,分子性质分支用于学习分子性质与活性的关系,通过融合层将上述三个分支的输出特征融合在一起,进行联合学习。模型使用了全连接网络结构和relu激活函数,三个分支分别独立学习指纹、性质与目标筛选之间的对应关系,可以提高模型的表达能力。
43.模型的输入包括ecfp分子指纹、maccs分子指纹和分子性质,输出的是一个0到1之间的分子通过筛选的概率。
44.ecfp分子指纹、maccs分子指纹和分子性质各自经过对应的处理网络,所提取的分子特征在经过在concatenate层前被汇总,最终输出分子可以通过筛选的概率。
45.在模型训练过程中不断调整模型参数。通过根据具体的分子指纹和属性维度调整输入层节点数,可以调整输入层大小。通过调整中间层大小,增加或减少中间全连接层的节点数控制模型复杂度。调整学习率,使用更小的学习率测试模型收敛稳定性。测试relu、sigmoid等不同激活函数对模型的影响。调整实验交叉熵、均方误差等不同损失函数。使用adam、rmsprop等不同优化算法调整优化器的选择。
46.保存经多轮训练表现最佳的模型,用于预测分子通过筛选的概率,筛选目标分子。
47.实施例3
48.将待筛选分子数据送入保存的具有三分支结构的分子筛选模型,具体包括:
49.基于rdkit将待筛选的虚拟分子转换为smiles分子编码。
50.基于rdkit计算ecfp分子指纹,maccs分子指纹,虚拟分子的分子量、分子的拓扑极性表面积、水油分配系数、氢键供体数量、氢键受体数量、分子的可旋转键数量、原子立体中心数量性质。
5.将分子性质和分子指纹通过已保存的模型,得到筛选结果,如图2所示。