1.本技术涉及双酚a领域,尤其涉及一种潜在神经元细胞毒性化学物质筛选方法、装置及存储介质。
背景技术:
2.神经毒性是由内源性或外源性因素引起的神经系统损伤,这种损害可能发生在生命的任何阶段,并可能导致不同的不良影响,这取决于受影响个体的年龄。发育中的神经系统对某些类型的损伤很敏感,而一些早期损伤的后果可能直到神经系统成熟或成年后才会被察觉。神经毒性作用可为短期急性或长期慢性,特别是化学品引起的神经毒性在化学品安全风险评估中受到了极大的关注。先前的研究表明,基于体内和体外试验,污染物、农药、药物和工业化学品,包括双酚类似物、多氯联苯、有机磷酸酯和氯丙嗪都是神经毒性物质。这些物质可导致神经元丧失或损害中枢和周围神经系统的特定功能。因此,筛选化合物的潜在神经毒性对于评估其潜在的健康危害至关重要。
3.在目前的神经毒性评价中,动物实验被认为是金标准。经济合作与发展组织提出了四项标准测试指南(tg 418、tg 419、tg 424和tg 426)用于评估化学品的神经毒性。然而,由于这些体内动物试验的高成本和复杂性,它们不适合测试许多化合物的神经毒性。因此,需要基于3r原则的替代高通量方法来评估化学物质的神经毒性潜力。斑马鱼(danio rerio)是一种非哺乳动物模型,已被证明是研究发育性神经毒性的有效替代测试,例如,kiper等人最近开发了基于斑马鱼的模型,通过识别斑马鱼胚胎的行为和解剖变化来研究化学诱导的发育性神经毒性,采用大鼠嗜铬细胞瘤细胞系进行体外实验,评价其神经毒性先前的一项研究通过分析细胞的神经毒性确定了筛选潜在神经毒性的关键指标。然而,由于人类和非人类细胞在结构和性质上的差异,这些结果是否可翻译为人类神经病变机制尚不清楚。因此,常采用人神经母细胞瘤细胞系sh-sy5y体外评估神经毒性风险,这对于研究神经退行性疾病相关的神经元细胞毒性和生物能量改变是有用的。
4.尽管非哺乳动物和细胞神经毒性分析降低了神经毒性评估的成本,但它们对于神经毒性的高通量筛选是不切实际的。与实验方法相比,计算方法,包括分子对接、分子动力学模拟和定量构效关系(qsar)模型,已被提出用于优先考虑化学测试,正在努力的扩大传统毒理学的范围,增强对大数据集化学诱导毒性效应的理解,并加速计算毒理学作为一个跨学科领域的发展。因此,使用计算机预测进行化学品安全评估,作为实验确定毒理学终点的替代方法,可以识别具有神经毒性问题的化学品,并提供对毒性机制的见解。
5.在这些预测化学性质的计算方法中,基于机器学习(ml)的qsar模型是一种新兴的人工智能技术,该模型从具有活性标签的已知数据集中学习关键模式,并将规则转移到没有标签的新的大型数据集中预测其活性或毒性,这通常是昂贵且耗时的,使用体内和体外分析来确定。gadaleta等人提出了一种筛选神经毒性预测的方法,通过将各种分子起始事件作为qsar模型开发中的描述符,他们采用各种ml算法来预测药物诱导的神经毒性,并根
据结构特征区分神经毒性和非神经毒性药物。kan等人最近使用了一个不平衡的数据集(131种细胞毒性和1002种非细胞毒性化学物质),并开发了一个基于随机森林(rf)的预测模型,以识别使用sh-sy5y细胞系的化学物质的神经元细胞毒性。
6.然而,上述神经毒性预测模型存在四个显著的局限性:(1)与其他毒理学终点预测相比,以往研究中可获得的实验数据相对较少,阻碍了基于ml的神经毒性预测qsar模型的发展;(2)以往的研究大多只采用传统的机器学习算法来创建单个模型,而使用共识模型等高级策略(包括混合或堆叠模型)可以提高这些模型的准确性;(3)所建立的基于ml的qsar模型预测结果往往缺乏实验验证;(4)qsar建模和实验毒理学初学者会发现一个简化的预测程序或多任务提交的在线web服务器更方便筛选工业化学品的神经毒性。
技术实现要素:
7.为了解决上述技术问题或者至少部分地解决上述技术问题,本技术提供了一种潜在神经元细胞毒性化学物质筛选方法、装置及存储介质。
8.第一方面,本技术提供了一种潜在神经元细胞毒性化学物质筛选方法,所述方法包括步骤:
9.获取神经元细胞毒性数据;
10.对所述神经元细胞毒性数据进行清洗处理;
11.对所述神经元细胞毒性数据进行划分;
12.获取分类器;
13.根据所述分类器构建加权集成模型;
14.使用所述加权集成模型筛选所述神经元细胞毒性数据。
15.优选地,所述获取神经元细胞毒性数据包括步骤:
16.获取chembl公共数据库;
17.获取pubchem公共数据库;
18.分别从所述chembl公共数据库和所述pubchem公共数据库中收集基于sh-sy5y细胞系的化学诱导神经元细胞毒性的已知实验数据。
19.优选地,所述对所述神经元细胞毒性数据进行清洗处理包括步骤:
20.获取神经元细胞毒性数据;
21.去除盐对应的神经元细胞分子结构;
22.去除无机化合物对应的神经元细胞分子结构;
23.去除混合物对应的神经元细胞分子结构。
24.优选地,所述对所述神经元细胞毒性数据进行划分包括步骤:
25.获取训练集、验证集和测试集的划分比例;
26.按照所述比例将所述神经元细胞毒性数据分别划分为训练集、验证集和测试集。
27.优选地,所述获取分类器包括步骤:
28.获取ml算法;
29.获取分子表示;
30.将所述ml算法和所述分子表示相结合;
31.获取结合后得到的分类器。
32.优选地,所述根据所述分类器构建加权集成模型包括步骤:
33.获取分子表示;
34.获取所述分子表示的最优ml算法;
35.定义所述最优ml算法为基础分类器;
36.根据所述基础分类器构建加权集成模型。
37.优选地,所述使用所述加权集成模型筛选所述神经元细胞毒性数据包括步骤:
38.获取所述神经元细胞毒性数据的验证集和测试集;
39.获取基础分类器的预测概率的权重值;
40.采用粒子算法对所述权重值进行调整。
41.第二方面,本技术提供了一种潜在神经元细胞毒性化学物质筛选装置,包括:
42.数据获取模块,用于获取神经元细胞毒性数据;
43.清洗处理模块,用于对所述神经元细胞毒性数据进行清洗处理;
44.数据划分模块,用于对所述神经元细胞毒性数据进行划分;
45.分类器获取模块,用于获取分类器;
46.模型构建模块,用于根据所述分类器构建加权集成模型;
47.数据筛选模块,用于使用所述加权集成模型筛选所述神经元细胞毒性数据。
48.第三方面,提供了一种电子设备,所述电子设备包括:
49.至少一个处理器;以及,
50.与所述至少一个处理器通信连接的存储器;其中,
51.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述任一所述潜在神经元细胞毒性化学物质筛选方法。
52.第四方面,提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述任一所述潜在神经元细胞毒性化学物质筛选方法。
53.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:
54.本技术提供的一种潜在神经元细胞毒性化学物质筛选方法、装置及存储介质开发了一个带公开可用web服务器的加权集成模型neutox,可用于预测化合物的潜在神经元细胞毒性。
附图说明
55.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
56.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
57.图1是本发明实施例提供的一种潜在神经元细胞毒性化学物质筛选方法的流程示意图;
58.图2是本发明实施例提供的一种潜在神经元细胞毒性化学物质筛选装置的结构示
意图;
59.图3是本发明提供的一种电子设备的结构示意图;
60.图4是本发明提供的一种非暂态计算机可读存储介质的结构示意图;
61.图5是本发明实施例提供的一种潜在神经元细胞毒性化学物质筛选方法的化学空间分布示意图;
62.图6是本发明实施例提供的一种潜在神经元细胞毒性化学物质筛选方法的细胞活性示意图。
具体实施方式
63.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
64.图1为本技术实施例提供的一种潜在神经元细胞毒性化学物质筛选方法的流程示意图。
65.本技术提供了一种潜在神经元细胞毒性化学物质筛选方法,所述方法包括步骤:
66.s1:获取神经元细胞毒性数据;
67.在本技术实施例中,所述获取神经元细胞毒性数据包括步骤:
68.获取chembl公共数据库;
69.获取pubchem公共数据库;
70.分别从所述chembl公共数据库和所述pubchem公共数据库中收集基于sh-sy5y细胞系的化学诱导神经元细胞毒性的已知实验数据。
71.具体地,本技术从pubchem生物测定数据库(aid 544)和chembl数据库(目标id 614910)中获得了用于模型开发的神经元细胞毒性数据。
72.s2:对所述神经元细胞毒性数据进行清洗处理;
73.在本技术实施例中,所述对所述神经元细胞毒性数据进行清洗处理包括步骤:
74.获取神经元细胞毒性数据;
75.去除盐对应的神经元细胞分子结构;
76.去除无机化合物对应的神经元细胞分子结构;
77.去除混合物对应的神经元细胞分子结构。
78.具体地,通过去除盐、无机化合物和混合物来清洗两个数据集中的分子结构,最后,可以获得了2024种独特的化学物质,并将其转换为相应的简化分子输入行输入规范(smiles)字符串。
79.s3:对所述神经元细胞毒性数据进行划分;
80.在本技术实施例中,所述对所述神经元细胞毒性数据进行划分包括步骤:
81.获取训练集、验证集和测试集的划分比例;
82.按照所述比例将所述神经元细胞毒性数据分别划分为训练集、验证集和测试集。
83.具体地,将处理后的数据随机分为训练集、验证集和测试集,比例为8:1:1。为了获得分类器的最佳参数,本技术对训练集进行了五次交叉验证。此外,本技术通过将7种ml算
法与4种分子表示相结合,获得了28个分类器。本技术将每个分子表示的最优ml算法为基础分类器,以构建本研究提出的加权集成模型neutox。在验证集的基础上,采用粒子群算法对每个基分类器预测概率的权重值进行调整。最后,本技术使用测试集对加权集成模型的性能进行了评估。为了平衡分类,本技术将活性阈值设置为ic50值100μm,得到902个活性化合物和1122个非活性化合物(表s1)。本技术使用最近文献中基于sh-sy5y的化合物细胞毒性评估作为外部验证集来评估模型的普遍性。表s2总结了最终的数据集,包括规范的smiles和活动标签。
84.s4:获取分类器;
85.在本技术实施例中,所述获取分类器包括步骤:
86.获取ml算法;
87.获取分子表示;
88.将所述ml算法和所述分子表示相结合;
89.获取结合后得到的分类器。
90.具体地,本技术使用7种ml算法建立了神经元细胞毒性的预测模型:rf、支持向量机(svm)、极端梯度增强(xgb)、额外树(et)、类别增强(cb)、光梯度增强(lgb)和多层感知器(mlp),这些算法使用scikit-learn包实现。本技术使用五种不同的随机种子(随机种子=0,1,2,3,4)在整个数据集中进行数据分割。本技术将四种不同的分子表示(ecfp、rdkit、mol2vec和padel)与ml算法(mlp、xgb、lgb、et、rf、svm和cb)结合在一起,基于训练集构建了24个单独的模型。在五倍交叉验证评估期间,本技术使用网格搜索方法调整了重要的超参数,如树的数量、深度和学习率。四种最优算法的超参数说明如表s3所示。本技术选择接收者工作特征曲线(auc-roc)值下面积最大的模型作为超参数调谐后的最优模型。为了评估模型的性能,本技术计算了几个统计标准,包括准确性(acc)、平衡准确性(ba)、f1分数(f1)、马修斯相关系数(mcc)和精度-召回率曲线下面积。
91.s5:根据所述分类器构建加权集成模型;
92.在本技术实施例中,所述根据所述分类器构建加权集成模型包括步骤:
93.获取分子表示;
94.获取所述分子表示的最优ml算法;
95.定义所述最优ml算法为基础分类器;
96.根据所述基础分类器构建加权集成模型。
97.具体地,在之前的研究中,kennedy和eberhart引入了基于种群的优化算法pso,该算法基于昆虫、鸟类等的聚类行为。粒子群算法具有收敛速度快、参数少、算法简单、易于实现等优点。粒子群中的每个粒子都有其独特的位置,并根据其速度,进行下一次迭代的距离和运动方向。群搜索的最优位置称为(pd,gbest),决定速度,粒子自身搜索的最优位置称为(pid,pbest)。粒子的速度更新公式如下:
98.vid=w
×
vid c1r1(pid,pbest-xi) c2r2(pd,gbest-xi)
99.xid=xid vid
100.公式中,vid和xid表示粒子i迭代中的速度矢量和位置矢量;r1和r2表示0到1之间的随机数;c1和c2表示加速度常数;w表示惯性因子。
101.本技术选择了四种分子表征对应的最优算法作为基分类器来构建加权集合模型。
本技术将四个基本分类器的概率值与权重相乘,得到了集成模型的概率值:
102.pensemble,i=w1p1i w2p2i w3p3i w4p4i
103.其中,pensemble,i表示加权集成模型的概率值;w1,w2,w3、w4表示四个基分类器的权重系数。p1i,p2i,p3i和p4i表示四个基本分类器预测的近似值。权重系数的和等于1,并在验证集上使用pso进行优化。
104.s6:使用所述加权集成模型筛选所述神经元细胞毒性数据。
105.在本技术实施例中,所述使用所述加权集成模型筛选所述神经元细胞毒性数据包括步骤:
106.获取所述神经元细胞毒性数据的验证集和测试集;
107.获取基础分类器的预测概率的权重值;
108.采用粒子算法对所述权重值进行调整。
109.具体地,将处理后的数据随机分为训练集、验证集和测试集,比例为8:1:1。为了获得分类器的最佳参数,本技术对训练集进行了五次交叉验证。此外,本技术通过将7种ml算法与4种分子表示相结合,获得了28个分类器。本技术将每个分子表示的最优ml算法为基础分类器,以构建本研究提出的加权集成模型neutox。在验证集的基础上,采用粒子群算法对每个基分类器预测概率的权重值进行调整。最后,本技术使用测试集对加权集成模型的性能进行了评估。
110.如图2,本技术提供了一种潜在神经元细胞毒性化学物质筛选装置,包括:
111.数据获取模块10,用于获取神经元细胞毒性数据;
112.清洗处理模块20,用于对所述神经元细胞毒性数据进行清洗处理;
113.数据划分模块30,用于对所述神经元细胞毒性数据进行划分;
114.分类器获取模块40,用于获取分类器;
115.模型构建模块50,用于根据所述分类器构建加权集成模型;
116.数据筛选模块60,用于使用所述加权集成模型筛选所述神经元细胞毒性数据。
117.本技术提供的一种潜在神经元细胞毒性化学物质筛选装置可以执行上述步骤提供的一种潜在神经元细胞毒性化学物质筛选方法。
118.应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
119.下面参考图3,其示出了适于用来实现本公开实施例的电子设备100的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
120.如图3所示,电子设备100可以包括处理装置(例如中央处理器、图形处理器等)101,其可以根据存储在只读存储器(rom)102中的程序或者从存储装置108加载到随机访问存储器(ram)103中的程序而执行各种适当的动作和处理。在ram 103中,还存储有电子设备
100操作所需的各种程序和数据。处理装置101、rom 102以及ram 103通过总线104彼此相连。输入/输出(i/o)接口105也连接至总线104。
121.通常,以下装置可以连接至i/o接口105:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置106;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置107;包括例如磁带、硬盘等的存储装置108;以及通信装置109。通信装置109可以允许电子设备100与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备100,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
122.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置109从网络上被下载和安装,或者从存储装置108被安装,或者从rom 102被安装。在该计算机程序被处理装置101执行时,执行本公开实施例的方法中限定的上述功能。
123.下面参考图4,其示出了适于用来实现本公开实施例的计算机可读存储介质的结构示意图,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现如上述中任一所述的潜在神经元细胞毒性化学物质筛选方法。
124.本技术提供的一种潜在神经元细胞毒性化学物质筛选方法、装置及存储介质开发了一个带公开可用web服务器的加权集成模型neutox,可用于预测化合物的潜在神经元细胞毒性。
125.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
126.以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。