一种面向化学结构式识别的数据集构建方法和装置转让专利

申请号 : CN202310995606.2

文献号 : CN116721713B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 田振华王晗陶恒

申请人 : 北京望石智慧科技有限公司

摘要 :

本发明涉及结构式识别技术领域,公开了一种面向化学结构式识别的数据集构建方法和装置,方法包括:获取化学结构式的文本表示形式预处理后构建仿真训练数据集,基于其得到基准识别模型;获取公开文献中化学结构式图像,对其预设处理后送入基准识别模型进行预测及后处理;将后处理预测结果与预设化合物数据库数据进行相似度计算,并与预设匹配阈值比较后确定目标训练数据,将其输入基准识别模型进行训练,得到对应迭代模型及预测结果;对预测结果重复进行后处理及相似度匹配过滤,得到更新的目标训练数据用于迭代模型的迭代优化,直至满足预设要求时得到最终的化学结构式识别数据集。本发明能够提供大规模化学结构式识别数据集来提升模型识别效果。

权利要求 :

1.一种面向化学结构式识别的数据集构建方法,其特征在于,所述方法包括:

从预设化合物数据库中获取化学结构式的SMILES数据,对其进行预处理后用于构建仿真训练数据集,包括:利用预设工具对SMILES数据进行处理得到其对应的化学结构式图像数据和MOL文件数据,其中,化学结构式图像数据包括化学结构式图片和位置,MOL文件数据包括化学结构式点边的类型和坐标位置;基于SMILES数据、化学结构式图像数据和MOL文件数据构建仿真训练数据集,仿真训练数据集的形式为化学结构式图片和位置、SMILES和点边的类型和坐标位置的预设组合形式;

基于仿真训练数据集训练化学结构式的预设识别模型,得到基准识别模型;

获取公开文献中的化学结构式图像数据,对所述图像数据进行预设处理后送入基准识别模型进行预测,输出化学结构式预测结果并对其进行后处理;

将后处理的化学结构式预测结果与预设化合物数据库中的化学结构式数据进行相似度匹配计算,将匹配计算结果与预设匹配阈值进行比较,并根据比较结果确定对应满足要求的目标训练数据,包括:基于模型的预测置信度将经过后处理得到的预测结果进行排序,选取TopK的数据作为可信数据;对可信数据中预测得到的SMILES数据与从预设化合物数据库中获取化学结构式SMILES数据基于分子指纹进行相似度匹配计算,得到匹配计算结果;

将匹配计算结果与预设匹配阈值进行比较,当匹配计算结果大于等于预设匹配阈值时,对预测得到的点边坐标位置进行贴合程度的筛选,并过滤点边坐标位置不贴合的预测结果,将过滤后的预测结果作为目标训练数据;当匹配计算结果小于预设匹配阈值时,该预测结果作为困难数据,对其引入主动学习进行分析处理后,将其补充作为目标训练数据,目标训练数据的形式为文献索引、化学结构式图片和位置、SMILES和点边的类型和坐标位置的预设组合形式;

利用所述目标训练数据输入所述基准识别模型进行训练,得到对应迭代模型并输出相应的迭代模型预测结果;

将迭代模型预测结果进行后处理及与预设化合物数据库中的化学结构式数据相似度匹配过滤后,得到更新的目标训练数据并将其输入迭代模型进行迭代优化训练,直至满足预设要求时停止训练,得到最终的目标训练数据,作为化学结构式识别的数据集。

2.根据权利要求1所述的面向化学结构式识别的数据集构建方法,其特征在于,所述获取公开文献中的化学结构式图像数据,对所述图像数据进行预设处理后送入基准识别模型进行预测的过程,包括:获取公开文献中的化学结构式图像数据并将其进行拆分,得到多个单页图像;

将多个单页图像输入结构式检测模型进行化学结构式的检测,得到对应的化学结构式的位置信息,记录文献索引和对应的化学结构式图片和位置,所述文献索引为每个单页图像的页码标记信息;

基于化学结构式的位置信息对其对应单页图像进行图像截取,得到截取的结构式图像,并将其送入基准识别模型进行预测。

3.根据权利要求1所述的面向化学结构式识别的数据集构建方法,其特征在于,所述后处理是对预测结果进行化学结构式的规范化处理的过程,包括:获取基准识别模型预测识别后得到的预测结构式图像;

基于预设工具对预测结构式图像进行处理,得到对应规范化的化学结构式的SMILES数据和规范化的包括化学结构式点边的类型和坐标位置的MOL文件数据。

4.根据权利要求1所述的面向化学结构式识别的数据集构建方法,其特征在于,所述预设要求,包括:迭代模型的预测输出指标满足预设的指标要求、迭代模型的预测输出指标变化趋势满足预设趋势要求或迭代模型的目标训练数据大小满足预设数值要求。

5.根据权利要求1所述的面向化学结构式识别的数据集构建方法,其特征在于,还包括:基于主动学习构建真实标注的数据集,用于进一步微调基线模型或迭代模型,过程包括:从公开文献库中获取化学结构式文献数据后,对其进行化学结构式的人工标注,得到包含化学结构式图片和位置、SMILES和点边的类型和坐标位置预设组合形式的数据集;

将所述数据集输入基线模型或迭代模型,并根据预设要求对基线模型或迭代模型进行训练。

6.一种面向化学结构式识别的数据集构建装置,其特征在于,所述装置包括:

仿真数据构建模块,用于从预设化合物数据库中获取化学结构式的SMILES数据,对其进行预处理后用于构建仿真训练数据集,包括:利用预设工具对SMILES数据进行处理得到其对应的化学结构式图像数据和MOL文件数据,其中,化学结构式图像数据包括化学结构式图片和位置,MOL文件数据包括化学结构式点边的类型和坐标位置;基于SMILES数据、化学结构式图像数据和MOL文件数据构建仿真训练数据集,仿真训练数据集的形式为化学结构式图片和位置、SMILES和点边的类型和坐标位置的预设组合形式;

基准识别模型构建模块,用于基于仿真训练数据集训练化学结构式的预设识别模型,得到基准识别模型;

基准识别模型预测模块,用于获取公开文献中的化学结构式图像数据,对所述图像数据进行预设处理后送入基准识别模型进行预测,输出化学结构式预测结果并对其进行后处理;

迭代模型数据构建模块,用于将后处理的化学结构式预测结果与预设化合物数据库中的化学结构式数据进行相似度匹配计算,将匹配计算结果与预设匹配阈值进行比较,并根据比较结果确定对应满足要求的目标训练数据,包括:基于模型的预测置信度将经过后处理得到的预测结果进行排序,选取TopK的数据作为可信数据;对可信数据中预测得到的SMILES数据与从预设化合物数据库中获取化学结构式SMILES数据基于分子指纹进行相似度匹配计算,得到匹配计算结果;将匹配计算结果与预设匹配阈值进行比较,当匹配计算结果大于等于预设匹配阈值时,对预测得到的点边坐标位置进行贴合程度的筛选,并过滤点边坐标位置不贴合的预测结果,将过滤后的预测结果作为目标训练数据;当匹配计算结果小于预设匹配阈值时,该预测结果作为困难数据,对其引入主动学习进行分析处理后,将其补充作为目标训练数据,目标训练数据的形式为文献索引、化学结构式图片和位置、SMILES和点边的类型和坐标位置的预设组合形式;

迭代模型预测模块,用于利用所述目标训练数据输入所述基准识别模型进行训练,得到对应迭代模型并输出相应的迭代模型预测结果;

迭代模型优化模块,用于将迭代模型预测结果进行后处理及与预设化合物数据库中的化学结构式数据相似度匹配过滤后,得到更新的目标训练数据并将其输入迭代模型进行迭代优化训练,直至满足预设要求时停止训练,得到最终的目标训练数据,作为化学结构式识别的数据集。

7.一种计算机设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1至5中任一所述的面向化学结构式识别的数据集构建方法。

8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1至5中任一所述的面向化学结构式识别的数据集构建方法。

说明书 :

一种面向化学结构式识别的数据集构建方法和装置

技术领域

[0001] 本发明涉及结构式识别技术领域,具体涉及一种面向化学结构式识别的数据集构建方法和装置。

背景技术

[0002] 药物的研发数据多达数千至数万页,而且这些海量的原始数据是以各种各样的形式散落在不同的地方,如文献、专利、网页、图片和纸质印刷物等。如何在非结构化或信息不完整的海量研发原始数据中快速获取真正有参考价值的“有效数据”,并构建大规模完善且高质量的数据集是药物研发人员所面临的巨大挑战。
[0003] 在期刊和专利等出版物中,有机化合物通常以化学分子结构式的图片形式来表示。基于文献数据人工抽取并标注真实图像分子数据,需要相关人员具备较强的专业,存在标注效率低、耗时长、经济成本高,难以产出深度学习依赖的大规模训练数据的问题。因此,自动从此类图像文件中识别成化学结构,可以使化学家快速地获取有参考价值的“化学数据”。这类“化学数据”可以是用于表示药物的基于文本的表示形式,比如SMILES(Simplified Molecular Input Line Entry System)、InChIKey(International Chemical Identifier)以及SELFIES(SELF‑referencIng Embedded Strings)等。也可以是包含了有关分子的原子、键、连接性和坐标信息的MOL文本文件。ChEMBL、PubChem等大型的、开放访问的药物发现数据库可供检索的化合物分别有190w+以及11100w+。大部分公开数据库都未能构建完整的匹配信息。例如PubChem数据库,只存储了文献索引以及该文献中出现的所有结构式“化学数据”的列表,用户无法根据该数据库中的信息定位到某个结构式在对应文献中的位置以及结构式的原始图像。
[0004] 当前,化学分子结构式识别的数据集的来源,可以分为利用RDKit等工具自动构造生产等仿真数据,以及从文献数据人工标注真实图像分子数据两类。RDKit工具箱可以自动生成各种样式的标注良好的化学图像,同时对生成的结构式图像支持多种增强操作,如旋转、减小键的宽度、增加噪声等。通过RDKit等工具自动构造数据的优点是可以大规模自动构建、成本低、速度快,其显著不足是缺乏严格的标准评估数据集,其仿真合成的数据和真实文献中的分子图像分布差异大,导致训练的化学分子结构识别模型应用于真实文献处理时效果差,且识别效果在不同的数据集上参差不齐,不足以满足实际数据生产的需求。
[0005] 从真实文献中抽取数据的光学化学分子结构式识别(Optical Chemical Structure Recognition, OCSR)算法,OCSR算法旨在将化学分子结构图像解码为机器可读的分子格式,比如SMILES。然而,如何准确识别真实文献中的分子结构仍然是一个存在挑战问题。自1990年以来,已经建立了多个开源或者闭源基于规则的OCSR识别方法和系统。这些系统基于基本类似的规则实现OCSR识别功能,包括图像矢量化、图像细化、线条增强、基于文本的光学字符识别和图形重建等,对与训练数据对依赖程度较低。其中,化学文献数据抽取CLiDE是Keymodule公司开发的一个商业OCSR工具箱,已集成到ChemAxon软件中。Filippov和Nicklaus发布了第一个名为光学结构识别应用程序(OSRA)的开源系统。Imago和MOLVec作为两款开源系统,同样为研究人员提供了分子结构识别的功能。基于规则的方法其特点是速度快、对数据依赖程度低,但是方法的鲁棒性差,对包含大量噪声或图像质量不高的真实文献分子效果表现一般。
[0006] 得益于深度学习方法和硬件的发展,图像识别技术有了巨大的进步。DECIMER基于Transfrmer和深度学习,将各种化学结构式图像转换为SELFIES字符串,大幅提升了识别效果;拜耳的研究人员开发了另一种基于翻译的方法Img2MOL,可用于识别手绘结构式;ChemGrapher使用基于原子、键和电荷的分割神经网络来预测化学结构式图像中每个像素的所属类型,然后构建包含位置信息的结构式图。在这项工作之后,ABC‑Net应用了分而治之的分割策略来提高识别性能。最新的工作包括SwinOCSR方法,它使用大规模仿真数据,训练基于Swin Transformer的深度学习模型,在仿真数据上取得了很好的端到端效果,但是在真实数据上的准确率只有24%,同时不支持还原原图的点边位置和分子图片。MIT提出的MOLScribe方法,同样基于Swin Transformer,引入了对点边类型和坐标位置的学习,能够还原原图的点边位置和分子图片。MOLScribe主要使用了基于SMILES转成的MOL文件生成的仿真数据,以及USPTO专利的图片和MOL文件对数据,数据年份最新为2009年,不包含最新的专利数,其它世专、欧专等专利来源数据,以及期刊数据,同时不支持马库斯式(Markush)的识别、特别是R基团的识别。
[0007] 当前,基于大规模仿真数据训练的化学结构式识别OCSR模型,在真实期刊/专利等文献上的识别效果欠佳。通过引入小规模的真实标注数据,能够一定程度提升模型识别效果,但是受限于人力和标注成本,无法构建大规模真实文献分子结构式识别训练数据集来提升其识别效果,从而无法达到理想效果。

发明内容

[0008] 有鉴于此,本发明提供了一种面向化学结构式识别的数据集构建方法和装置,可高效、稳定、持续地自动化标注化学结构式数据,为OCSR模型提供大规模高质量的真实文献化学结构式识别训练数据集,并根据得到的数据迭代优化OCSR模型,提升化学结构式的识别效果,以解决上述背景技术中提到的问题。
[0009] 第一方面,本发明实施例提供一种面向化学结构式识别的数据集构建方法,方法包括:
[0010] 从预设化合物数据库中获取化学结构式的文本表示形式,对其进行预处理后用于构建仿真训练数据集;
[0011] 基于仿真训练数据集训练化学结构式的预设识别模型,得到基准识别模型;
[0012] 获取公开文献中的化学结构式图像数据,对图像数据进行预设处理后送入基准识别模型进行预测,输出化学结构式预测结果并对其进行后处理;
[0013] 将后处理的化学结构式预测结果与预设化合物数据库中的化学结构式数据进行相似度匹配计算,将匹配计算结果与预设匹配阈值进行比较,并根据比较结果确定对应满足要求的目标训练数据;
[0014] 利用目标训练数据输入基准识别模型进行训练,得到对应迭代模型并输出相应的迭代模型预测结果;
[0015] 将迭代模型预测结果进行后处理及与预设化合物数据库中的化学结构式数据相似度匹配过滤后,得到更新的目标训练数据并将其输入迭代模型进行迭代优化训练,直至满足预设要求时停止训练,得到最终的目标训练数据,作为化学结构式识别的数据集。
[0016] 本发明的面向化学结构式识别的数据集构建方法,能够高效、稳定、持续地自动化标注化学结构式数据,为化学结构式识别OCSR模型提供大规模高质量的真实文献化学结构式识别训练数据集,并根据得到的数据迭代优化OCSR模型,提升化学结构式的识别效果。
[0017] 在一种可选的实施方式中,化学结构式的文本表示形式为SMILES数据,对其进行预处理后用于构建仿真训练数据集的过程,包括:
[0018] 利用预设工具对SMILES数据进行处理得到其对应的化学结构式图像数据和MOL文件数据,其中,化学结构式图像数据包括化学结构式图片和位置,MOL文件数据包括化学结构式点边的类型和坐标位置;
[0019] 基于SMILES数据、化学结构式图像数据和MOL文件数据构建仿真训练数据集,仿真训练数据集的形式为化学结构式图片和位置、SMILES和点边的类型和坐标位置的预设组合形式。
[0020] 本发明通过构建包含化学结构式图片和位置、SMILES和点边的类型和坐标位置预设组合形式的仿真训练数据集,能够得到具有完整匹配信息的数据集。通过利用第三方可信数据源以及预设工具获得的标准“化学数据”,能够输出化学结构式真实的点边的类型和位置坐标,为支持还原化学结构式图片和其内部结构信息的识别模型提供了训练数据,一定程度上解决了识别模型输出置信度不够准确的问题。此外,由于该数据集包含点边的坐标信息,识别模型得到的预测结果通过预设工具输出后与原图基本一致,解决了纯SMILES数据通过工具转换后与原图不一致的问题,方便了专家和标注人员将其与原图进行比对和审核修改。
[0021] 在一种可选的实施方式中,获取公开文献中的化学结构式图像数据,对图像数据进行预设处理后送入基准识别模型进行预测的过程,包括:
[0022] 获取公开文献中的化学结构式图像数据并将其进行拆分,得到多个单页图像;
[0023] 将多个单页图像输入结构式检测模型进行化学结构式的检测,得到对应的化学结构式的位置信息,记录文献索引和对应的化学结构式图片和位置,文献索引为每个单页图像的页码标记信息;
[0024] 基于化学结构式的位置信息对其对应单页图像进行图像截取,得到截取的结构式图像,并将其送入基准识别模型进行预测。
[0025] 本发明通过结构式检测模型,能够实现对化学结构式图像数据中化学式的快速提取,为后续化学结构式的识别模型提供了大规模的真实预测数据。
[0026] 在一种可选的实施方式中,后处理是对预测结果进行化学结构式的规范化处理的过程,包括:
[0027] 获取基准识别模型预测识别后得到的预测结构式图像;
[0028] 基于预设工具对预测结构式图像进行处理,得到对应规范化的化学结构式的SMILES数据和规范化的包括化学结构式点边的类型和坐标位置的MOL文件数据。
[0029] 本发明通过对预测结果进行化学结构式的规范化处理,相当于对数据进行了归一化处理,用于减少数据的分布差异,降低模型对数据依赖程度,为后续模型迭代优化提供高质量的数据集,用以增强OCSR模型的鲁棒性和识别率。
[0030] 在一种可选的实施方式中,将后处理的化学结构式预测结果与预设化合物数据库中的化学结构式数据进行相似度匹配计算,将匹配计算结果与预设匹配阈值进行比较,并根据比较结果确定对应满足要求的目标训练数据的过程,包括:
[0031] 基于模型的预测置信度将经过后处理得到的预测结果进行排序,选取TopK的数据作为可信数据;
[0032] 对可信数据中预测得到的SMILES数据与从预设化合物数据库中获取化学结构式SMILES数据基于分子指纹进行相似度匹配计算,得到匹配计算结果;
[0033] 将匹配计算结果与预设匹配阈值进行比较,当匹配计算结果大于等于预设匹配阈值时,对预测得到的点边坐标位置进行贴合程度的筛选,并过滤点边坐标位置不贴合的预测结果,将过滤后的预测结果作为目标训练数据;
[0034] 当匹配计算结果小于预设匹配阈值时,该预测结果作为困难数据,对其引入主动学习进行分析处理后,将其补充作为目标训练数据,目标训练数据的形式为文献索引、化学结构式图片和位置、SMILES和点边的类型和坐标位置的预设组合形式。
[0035] 本发明基于模型预测置信度、分子指纹相似度以及点边坐标位置贴合程度设计的数据筛选过滤规则来获得OCSR模型的目标训练数据,能够保障目标训练数据的质量,一定程度上提升了OCSR模型识别效果。此外,本发明的目标数据集实现了从(文献索引,SMILES)形式到(文献索引,化学结构式图片和位置,SMILES,点边的类型和坐标位置)形式的转换,通过该完备标注的数据集形式,能够获得OCSR模型输入的真实分子图片在原始文献中的位置坐标信息、对应SMILES以及其点边的类型和坐标位置信息,数据集匹配信息更加完备;同时该数据集结合OCSR模型还支持还原原图点边类型和坐标位置,使得OCSR模型的识别结果在实际使用场景中,能够更方便专家和标注人员将其与原图进行比对和审核修改,大幅提升了OCSR模型在真实文献上的识别效果。
[0036] 在一种可选的实施方式中,预设要求,包括:迭代模型的预测输出指标满足预设的指标要求、迭代模型的预测输出指标变化趋势满足预设趋势要求或迭代模型的目标训练数据大小满足预设数值要求。
[0037] 本发明预设要求设计了多重方式来终止模型迭代训练的过程,具有灵活便捷的优势,能够快速获得大规模高质量的数据集以及优化的OCSR模型。
[0038] 在一种可选的实施方式中,面向化学结构式识别的数据集构建方法还包括:基于主动学习构建真实标注的数据集,用于进一步微调基线模型或迭代模型,过程包括:
[0039] 从公开文献库中获取化学结构式文献数据后,对其进行化学结构式的人工标注,得到包含化学结构式图片和位置、SMILES和点边的类型和坐标位置预设组合形式的数据集;
[0040] 将数据集输入基线模型或迭代模型,并根据预设要求对基线模型或迭代模型进行训练。
[0041] 本发明通过引入小规模真实的人工标注数据,能够在一定程度提升模型识别效果。
[0042] 第二方面,本发明实施例提供一种面向化学结构式识别的数据集构建装置,装置包括:
[0043] 仿真数据构建模块,用于从预设化合物数据库中获取化学结构式的文本表示形式,对其进行预处理后用于构建仿真训练数据集;
[0044] 基准识别模型构建模块,用于基于仿真训练数据集训练化学结构式的预设识别模型,得到基准识别模型;
[0045] 基准识别模型预测模块,用于获取公开文献中的化学结构式图像数据,对图像数据进行预设处理后送入基准识别模型进行预测,输出化学结构式预测结果并对其进行后处理;
[0046] 迭代模型数据构建模块,用于将后处理的化学结构式预测结果与预设化合物数据库中的化学结构式数据进行相似度匹配计算,将匹配计算结果与预设匹配阈值进行比较,并根据比较结果确定对应满足要求的目标训练数据;
[0047] 迭代模型预测模块,用于利用目标训练数据输入基准识别模型进行训练,得到对应迭代模型并输出相应的迭代模型预测结果;
[0048] 迭代模型优化模块,用于将迭代模型预测结果进行后处理及与预设化合物数据库中的化学结构式数据相似度匹配过滤后,得到更新的目标训练数据并将其输入迭代模型进行迭代优化训练,直至满足预设要求时停止训练,得到最终的目标训练数据,作为化学结构式识别的数据集。
[0049] 本发明的面向化学结构式识别的数据集构建装置,能够提升OCSR模型在真实文献图像上化学结构式的识别效果,可高效、稳定、持续地自动化标注化学结构式数据,为OCSR模型提供大规模高质量的真实文献化学结构式识别训练数据集,并根据得到的数据迭代优化OCSR模型以提升识别精度。
[0050] 第三方面,本发明实施例提供一种计算机设备,包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行本发明实施例第一方面的面向化学结构式识别的数据集构建方法。
[0051] 第四方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行本发明实施例第一方面的面向化学结构式识别的数据集构建方法。

附图说明

[0052] 为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0053] 图1是根据本发明实施例的面向化学结构式识别的数据集构建方法的流程示意图;
[0054] 图2是本发明实施例的仿真训练数据集示意图;
[0055] 图3是本发明实施例的结构式检测模型的输出结果示意图;
[0056] 图4是本发明实施例基准识别模型预测识别得到的预测结构式图像示意图;
[0057] 图5是本发明实施例的多种点边坐标位置贴合预测结果的示意图;
[0058] 图6是本发明实施例的又一面向化学结构式识别的数据集构建方法的流程示意图;
[0059] 图7是根据本发明实施例的面向化学结构式识别的数据集构建装置的模块组成图;
[0060] 图8是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

[0061] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0062] 当前,基于大规模仿真数据训练的化学结构式识别OCSR模型,在真实期刊/专利等文献上的识别效果欠佳,常通过引入人工标注数据来改善模型识别精度。虽然在一定程度提升了模型识别效果,但受限于人力和标注成本,无法构建大规模真实文献分子结构式识别训练数据集来快速提升OCSR模型识别效果。本发明提供一种面向化学结构式识别的数据集构建方法和装置,能够高效、稳定、持续地自动化标注化学结构式数据,为OCSR模型提供大规模高质量的真实文献化学结构式识别训练数据集,并根据得到的数据迭代优化OCSR模型,提升化学结构式的识别效果。
[0063] 本发明实施例提供一种面向化学结构式识别的数据集构建方法,如图1所示,方法包括:
[0064] 步骤S101,从预设化合物数据库中获取化学结构式的文本表示形式,对其进行预处理后用于构建仿真训练数据集。
[0065] 在本实施例中,预设化合物数据库,包括:PubChem、DrugBank、ChEMBL、DrugSpaceX、ChemDB以及BindingDB等化合物数据库,通过访问化合物数据库并下载化合物数据库文件从而得到化学结构式SMILES数据。需要说明的是,本实施例预设化合物数据库仅作举例说明,不以此为限制,依据实际应用需求及化合物数据库本身属性确定。例如,DrugBank数据库是阿尔伯塔大学提供的一个生物信息学和化学信息学数据库,包含13791种药物条目,其中包括2653种经批准的小分子药物、1417种经批准的生物技术(蛋白质/肽)药物、131种营养品和6451种实验药物。ChEMBL是一个大型的、开放访问的药物发现数据库,包含了临床实验药物和批准药物的治疗靶标和适应症,包含了1,961,462个不同的化合物和13,382个靶标。DrugSpaceX为开展虚拟筛选和药物分子设计提供了高质量的资源,包含超过1亿种新分子结构,且在类药性、可合成性和三维化学多样性空间覆盖率方面均具有突出的特点。
[0066] 本实施例中,化学结构式的文本表示形式包括:SMILES、InChIKey、SELFIES或SMARTS,仅作为举例说明。
[0067] 步骤S102,基于仿真训练数据集训练化学结构式的预设识别模型,得到基准识别模型。
[0068] 需要说明的是,本实施例中设识别模型不做具体限制,依据实际应用需求确定。例如,设识别模型为Transfrmer模型或者Swin Transformer模型,仅作为举例说明。
[0069] 步骤S103,获取公开文献中的化学结构式图像数据,对图像数据进行预设处理后送入基准识别模型进行预测,输出化学结构式预测结果并对其进行后处理。
[0070] 本实施例中,公开文献均为现有公开文献或专利的数据库,在此不做具体限制,仅需依据实际需求访问相应文献或专利数据库并从中获取包含化学结构式SMILES数据的大量图像数据。例如,公开数据库USPTO,是由美国专利商标局USPTO建设的美国专利全文数据库,是互联网上重要的信息资源平台。该库收录了1790年7月31日以来的美国专利,仅作为举例说明。
[0071] 步骤S104,将后处理的化学结构式预测结果与预设化合物数据库中的化学结构式数据进行相似度匹配计算,将匹配计算结果与预设匹配阈值进行比较,并根据比较结果确定对应满足要求的目标训练数据。
[0072] 需要说明的是,本实施例中采用本领域内常用的分子指纹进行相似度计算,具体的分子指纹类型以及评价指标不做限制,依据实际应用确定。
[0073] 步骤S105,利用目标训练数据输入基准识别模型进行训练,得到对应迭代模型并输出相应的迭代模型预测结果。
[0074] 步骤S106,将迭代模型预测结果进行后处理及与预设化合物数据库中的化学结构式数据相似度匹配过滤后,得到更新的目标训练数据并将其输入迭代模型进行迭代优化训练,直至满足预设要求时停止训练,得到最终的目标训练数据,作为化学结构式识别的数据集。
[0075] 需要说明的是,化学结构式的结构非常复杂,通过使用常见官能团和取代基团随机替换SMILES格式的化合物结构中的原子,就能生成带有不同官能团、非常规原子及特殊键型的新的SMILES格式的化合物结构。在本申请中,化学结构式包括常规分子式结构以及Markush结构。Markush结构是由一个新颖的母体基团(Markush母核)和可变取代基(Markush R基团)组成,由于可变取代基的复杂性使得Markush结构的检索和匹配成为化学信息学领域的一个难题,Markush结构广泛应用于化学专利和其他化学教科书中。
[0076] 本实施例能够高效、稳定、持续地自动化标注真实文献图像数据的化学结构式,为化学结构式识别OCSR模型提供大规模高质量的真实文献化学结构式识别训练数据集,并根据得到的数据迭代优化OCSR模型,提升化学结构式的识别效果。
[0077] 具体地,上述步骤S101中化学结构式的文本表示形式为SMILES数据,对其进行预处理后用于构建仿真训练数据集的过程,包括:
[0078] 步骤S1011,利用预设工具对SMILES数据进行处理得到其对应的化学结构式图像数据和MOL文件数据,其中,化学结构式图像数据包括化学结构式图片和位置,MOL文件数据包括化学结构式点边的类型和坐标位置。
[0079] 需要说明的是,本实施例预设工具包括:RDKit、CDK以及MayaChemTools等软件工具,仅作为举例说明,不以此为限制,依据实际应用需求适应性调整。
[0080] 步骤S1012,基于SMILES数据、化学结构式图像数据和MOL文件数据构建仿真训练数据集,仿真训练数据集的形式为化学结构式图片和位置、SMILES和点边的类型和坐标位置的预设组合形式。
[0081] 本实施例中,化学结构式图片和位置、SMILES和点边的类型和坐标位置的预设组合形式为(化学结构式图片和位置,SMILES,点边的类型和坐标位置)。需要说明的是,基于快速获取数据集中的化学结构式图片和位置的实际需求,本实施例的仿真训练数据集的形式还包括(化学结构式图片和位置,SMILES),参阅图2所示,仅作为举例说明。
[0082] 本实施例通过构建(化学结构式图片和位置,SMILES,点边的类型和坐标位置)的仿真训练数据集的形式,能够得到具有完整匹配信息的数据集;通过利用第三方可信数据源以及预设工具获得的标准“化学数据”,能够输出化学结构式真实的点边的类型和位置坐标,为支持还原化学结构式图片和其内部结构信息的识别模型提供了训练数据,一定程度上解决了识别模型输出置信度不够准确的问题。此外,由于该数据集包含点边的坐标信息,识别模型得到的预测结果通过预设工具输出后与原图基本一致,解决了纯SMILES数据通过工具转换后与原图不一致的问题,方便了专家和标注人员将其与原图进行比对和审核修改。
[0083] 具体地,上述步骤S103中获取公开文献中的化学结构式图像数据,对图像数据进行预设处理后送入基准识别模型进行预测的过程,包括:
[0084] 步骤S1031,获取公开文献中的化学结构式图像数据并将其进行拆分,得到多个单页图像。
[0085] 需要说明的是,获取的真实文献数据一般为PDF文档,对其进行拆分即可得到单页的PDF图像并对其页码进行标记。
[0086] 步骤S1032,将多个单页图像输入结构式检测模型进行化学结构式的检测,得到对应的化学结构式的位置信息,记录文献索引和对应的化学结构式图片和位置,文献索引为每个单页图像的页码标记信息。
[0087] 图3为本实施例结构式检测模型的输出结果示意图。由图可知,单页图像经过结构式检测模型,输出结果为带检测框和置信度的化学结构式图像,其中struct为检测框的标识,其对应的具体数值为置信度,例如0.91。需要说明的是,结构式检测模型不做具体限制,本领域常用的目标检测模型均可,例如SSD模型或YOLO系列模型。
[0088] 本实施例中,检测模型对输入数据的规模依赖程度低,同时其输入的图像检测数据的标注不依赖于专家,只需要对图像进行拉框标注,可以通过人工标注+仿真构造的方式构建检测模型的训练数据,通过训练得到检测效果理想的检测模型。具体地,结构式检测模型的确定过程,包括:
[0089] 步骤a1,获取公开文献中的图像数据并将其进行拆分,得到多个单页图像;
[0090] 步骤a2,对多个单页图像的化学结构式进行拉框标注,构建结构式检测模型的训练集,并记录对应图像的页码信息以及该页码对应图像中标注化学结构式的位置信息;
[0091] 步骤a3,将训练集输入预设结构式检测模型进行训练,并依据模型预设评价指标获得最优的结构式检测模型。
[0092] 本实施例的结构式检测模型,能够实现对化学结构式图像数据中化学式的快速提取,为后续化学结构式的识别模型提供了大规模的真实预测数据。
[0093] 步骤S1033,基于化学结构式的位置信息对其对应单页图像进行图像截取,得到截取的结构式图像,并将其送入基准识别模型进行预测。
[0094] 需要说明的是,本实施例中根据结构式检测模型输出的化学结构式图像的结构式位置信息,截取结构式图像送入识别模型,获取预测得到的识别结果包含化学结构式的点边类型和坐标位置信息。
[0095] 本实施例中,通过结构式检测模型,能够实现对化学结构式图像数据中化学式的快速提取,为后续化学结构式的识别模型提供了大规模的真实预测数据。
[0096] 需要说明的是,本实施例中后处理是对预测结果进行化学结构式的规范化处理的过程,包括:
[0097] 步骤a1,获取基准识别模型预测识别后得到的预测结构式图像。
[0098] 具体地,图4为本实施例基准识别模型预测识别得到的预测结构式图像。
[0099] 步骤a2,基于预设工具对预测结构式图像进行处理,得到对应规范化的化学结构式的SMILES数据和规范化的包括化学结构式点边的类型和坐标位置的MOL文件数据。
[0100] 具体地,利用RDKit工具获取该结构式图像的SMILES表达形式以及规范化表示原子、键等化学信息的MOL文件。需要特别注意的是,由于期刊中包含大量Markush结构,化学结构式识别过程需要中根据结构式检测模型的预测结果分别组合母核与R基,以获得完整结构式的SMILES以及其他相关信息。
[0101] 本实施例中,通过对预测结果进行化学结构式的规范化处理,相当于对数据进行了归一化处理,用于减少数据的分布差异,降低模型对数据依赖程度,为后续模型迭代优化提供高质量的数据集,用以增强OCSR模型的鲁棒性和识别率。
[0102] 具体地,上述步骤S104包括:
[0103] 步骤S1041,基于模型的预测置信度将经过后处理得到的预测结果进行排序,选取TopK的数据作为可信数据。
[0104] 本实施例的预测置信度为识别模型的预测输出概率,通过对其从大到小进行排序,获得前K个概率,将前K个置信度高的预测结果作为可信数据,其中可信数据的形式为(文献索引,化学结构式图片和位置,SMILES,点边的类型和坐标位置)。
[0105] 步骤S1042,对可信数据中预测得到的SMILES数据与从预设化合物数据库中获取化学结构式SMILES数据基于分子指纹进行相似度匹配计算,得到匹配计算结果。
[0106] 本实施例中,基于ECFP分子指纹算法来计算SMILES数据的相似性,具体包括:使用RDKit软件生成ECFP分子指纹,其中,设置直径为2,生成比特位1024的ECFP2分子指纹。将上述预测结果和公共数据库SMILES数据均通过RDKit软件生成分子指纹得到分子特征向量,通过比较分子特征向量的相似性来确定分子的相似性。
[0107] 需要说明的是,相似性比较中,比较分子是很难的,比较比特串却很容易,分子之间的比较必须以可量化的方式进行。分子指纹上的每个比特位对应于一种分子片段,相似的分子之间必然有许多公共的片段,那么具有相似指纹的分子具有很大的概率在2D结构上也是相似的。通过距离或相似度来评估两个向量之间的相似性。相似度评级的具体指标依据实际应用需求确定。例如,分子指纹相似性的行业标准是Tanimoto系数(谷本系数),仅作为举例说明。
[0108] 步骤S1043,将匹配计算结果与预设匹配阈值进行比较,当匹配计算结果大于等于预设匹配阈值时,对预测得到的点边坐标位置进行贴合程度的筛选,并过滤点边坐标位置不贴合的预测结果,将过滤后的预测结果作为目标训练数据。
[0109] 本实施例中,分子指纹的预设匹配阈值为1,仅作为举例说明,不以此为限制。
[0110] 需要说明的是,多种点边坐标位置贴合预测结果如图5所示。由图可知,预测结果存在SMILES数据相似性匹配满足分子指纹相似度为1,但是预测得到的点边坐标位置存在不贴合的情况,该类预测结果不适合作为模型训练数据,即目标训练数据,因而需要对预测得到的点边坐标位置进行贴合程度的筛选。在本实施例中,基于人工快速校验或定位碳节点图像算法来并过滤点边坐标位置不贴合的预测结果。
[0111] 步骤S1044,当匹配计算结果小于预设匹配阈值时,该预测结果作为困难数据,对其引入主动学习进行分析处理后,将其补充作为目标训练数据,目标训练数据的形式为文献索引、化学结构式图片和位置、SMILES和点边的类型和坐标位置的预设组合形式。
[0112] 本实施例中,文献索引、化学结构式图片和位置、SMILES和点边的类型和坐标位置的预设组合形式为(文献索引,化学结构式图片和位置,SMILES,点边的类型和坐标位置),仅作为举例说明。
[0113] 本实施例基于模型预测置信度、分子指纹相似度以及点边坐标位置贴合程度设计的数据筛选过滤规则来获得OCSR模型的目标训练数据,能够保障目标训练数据的质量,一定程度上提升了OCSR模型识别效果。此外,数据集实现了从(文献索引,SMILES)形式到(文献索引,化学结构式图片和位置,SMILES,点边的类型和坐标位置)形式的转换,通过该形式的数据集能获得OCSR模型输入的真实分子图片在原始文献中的位置坐标信息、对应SMILES以及其点边的类型和坐标位置信息,数据集匹配信息更加完备;同时该数据集结合OCSR模型还支持还原原图的点边类型和坐标位置,使得OCSR模型的识别结果在实际使用场景中,能够更方便专家和标注人员将其与原图进行比对和审核修改,大幅提升了OCSR模型在真实文献上的识别效果。
[0114] 本实施例中,预设要求,包括:迭代模型的预测输出指标满足预设的指标要求、迭代模型的预测输出指标变化趋势满足预设趋势要求或迭代模型的目标训练数据大小满足预设数值要求。
[0115] 具体地,迭代模型的预测输出指标在评估集上的指标达到预期要求,例如F1分数为0.95;或者迭代模型的预测输出指标变化趋势逐渐稳定收敛,提升幅度小于给定阈值,例如F1分数的变化值持续小于0.1%;或需要扩增的目标数据集的规模小于给定比例,例如3%。上述数值均作为举例说明,不以此为限制,依据实际应用需求适应性调整。预设要求设计多重方式来终止模型迭代训练的过程,具有灵活便捷的优势,能够快速获得大规模高质量的数据集以及优化的OCSR识别模型。
[0116] 本实施例的面向化学结构式识别的数据集构建方法还包括:基于主动学习构建真实标注的数据集,用于进一步微调基线模型或迭代模型,过程包括:
[0117] 步骤a1,从公开文献库中获取化学结构式文献数据后,对其进行化学结构式的人工标注,得到包含化学结构式图片和位置、SMILES和点边的类型和坐标位置预设组合形式的数据集。本实施例中得到数据集的形式为(化学结构式图片和位置,SMILES,点边的类型和坐标位置)。
[0118] 步骤a2,将数据集输入基线模型或迭代模型,并根据预设要求对基线模型或迭代模型进行训练。
[0119] 需要说明的是,为了保证和提升基线识别模型或迭代模型在真实数据上的效果,可以在一定人力时间和经济成本条件下,抽样部分真实文献进行人工标注,得到文献进行标注后的(化学结构式图片和位置,SMILES)或者(化学结构式图片和位置,SMILES,点边的类型和坐标位置)的小规模训练集合;然后载入训练基线识别模型或迭代模型,利用小规模真实数据进一步微调模型提升效果,得到效果更好的新版基线识别模型或迭代模型。
[0120] 具体地,图6是本施例的又一面向化学结构式识别的数据集构建方法的流程示意图。由图可知,基于主动学习构建真实标注的数据集,用于进一步微调基线模型或迭代模型在图中的步骤三或步骤五中。需要说明的是,本实施例的化学结构式的表示形式除了包含的常规分子式结构(分子)以及Markush结构(母核/R基团)外,SMILES和点边信息,还包括SMARTS。需要说明的是,SMARTS表达式是Daylight公司对SMILES表达式的一个扩展,是一种描述分子模式和性质的语言。所有的SMILES表达式都可以在SMARTS中正常使用,同时在SMARTS体系中加入了逻辑算符和更多的分子描述符,这就使得其在子结构搜索、构建反应模板等方面非常强大。
[0121] 本实施例通过引入小规模的人工真实标注数据,能够一定程度提升模型识别效果。
[0122] 在本实施例中还提供了一种面向化学结构式识别的数据集构建装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的术语“模块”,其可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0123] 本发明提供一种面向化学结构式识别的数据集构建装置,如图7所示,系统包括:
[0124] 仿真数据构建模块701,用于从预设化合物数据库中获取化学结构式的文本表示形式,对其进行预处理后用于构建仿真训练数据集。
[0125] 基准识别模型构建模块702,用于基于仿真训练数据集训练化学结构式的预设识别模型,得到基准识别模型。
[0126] 基准识别模型预测模块703,用于获取公开文献中的化学结构式图像数据,对图像数据进行预设处理后送入基准识别模型进行预测,输出化学结构式预测结果并对其进行后处理。
[0127] 迭代模型数据构建模块704,用于将后处理的化学结构式预测结果与预设化合物数据库中的化学结构式数据进行相似度匹配计算,将匹配计算结果与预设匹配阈值进行比较,并根据比较结果确定对应满足要求的目标训练数据。
[0128] 迭代模型预测模块705,用于利用目标训练数据输入基准识别模型进行训练,得到对应迭代模型并输出相应的迭代模型预测结果。
[0129] 迭代模型优化模块706,用于将迭代模型预测结果进行后处理及与预设化合物数据库中的化学结构式数据相似度匹配过滤后,得到更新的目标训练数据并将其输入迭代模型进行迭代优化训练,直至满足预设要求时停止训练,得到最终的目标训练数据,作为化学结构式识别的数据集。
[0130] 上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。本发明实施例提供的面向化学结构式识别的数据集构建装置,能够高效、稳定、持续地自动化标注化学结构式数据,为OCSR算法模型提供大规模高质量的真实文献化学结构式识别训练数据集,并根据得到的数据迭代优化OCSR算法模型,提升化学结构式的识别效果。
[0131] 本发明实施例还提供一种计算机设备,请参阅图8,图8是本发明可选实施例提供的上述控制器的结构示意图,如图8所示,该控制器包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器10为例。
[0132] 处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
[0133] 其中,存储器20存储有可由至少一个处理器10执行的指令,以使至少一个处理器10执行实现上述实施例示出的方法。
[0134] 存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0135] 存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
[0136] 该控制器还包括通信接口30,用于该主控芯片与其他设备或通信网络通信。
[0137] 本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器主控芯片或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
[0138] 虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。