高中数学题目中命名实体的构建方法、识别方法和系统转让专利

申请号 : CN202311544077.0

文献号 : CN117252202B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 高玉伟杨升全陈东强

申请人 : 江西风向标智能科技有限公司

摘要 :

本发明提供了一种高中数学题目中命名实体的构建方法、识别方法和系统,构建方法包括:根据高中数学通用的基础特征建立特征空间,特征空间中包含章节范畴特征、实体属性特征和主从属性特征;利用章节范畴特征、实体属性特征和主从属性特征进行逻辑组合成多个命名实体,多个命名实体构成高中数学命名实体空间,命名实体用于对高中数学的实体进行分类和描述;通过正则化和深度学习算法模型训练高中数学命名实体空间,并获得反馈结果;利用反馈结果对高中数学命名实体空间进行修正和更新。本发明的命名实体既能够准确表达数学实体的特征,又使实体具有了通过算法识别的逻辑基础。

权利要求 :

1.高中数学命名实体空间的构建方法,其特征在于,包括:根据高中数学通用的基础特征建立特征空间,所述特征空间中包含章节范畴特征、实体属性特征和主从属性特征,其中,所述实体属性特征的值至少包括实体类、关系类和运算类,所述主从属性特征的值至少包括主体类、从体类和独立体类;

利用所述章节范畴特征、所述实体属性特征和所述主从属性特征进行逻辑组合成多个命名实体,所述多个命名实体构成高中数学命名实体空间,其中,所述命名实体用于对所述高中数学的实体进行分类和描述;

通过正则化和深度学习算法模型训练所述高中数学命名实体空间,并获得反馈结果;

利用所述反馈结果对所述高中数学命名实体空间进行修正和更新;

根据所述特征空间构建正则规则,并根据所述正则规则确定所述命名实体的正则特征;

基于所述正则规则,利用IDCNN算法模型对待训练的高中数学题目包含的实体进行识别,获得疑似命名实体;

结合所述待训练的高中数学题目的句法分析和依存分析,对所述疑似命名实体进行评估,获得所述疑似命名实体的评估值;

根据所述评估值判断是否可以将所述疑似命名实体归为所述命名实体;

当判断出所述疑似命名实体可归为所述命名实体时,将所述疑似命名实体作为所述反馈结果;

获取所述反馈结果中的所述疑似命名实体;

利用所述疑似命名实体修正或更新所述高中数学命名实体空间。

2.高中数学题目中命名实体的识别方法,其特征在于,包括:获取待识别的高中数学题目;

根据权利要求1所述的高中数学命名实体空间,识别出所述待识别的高中数学题目中所有的命名实体;

根据识别出的所述命名实体,将所述待识别的高中数学题目进行分类。

3.高中数学题目中命名实体的识别系统,其特征在于,包括:获取模块,用于获取待识别的高中数学题目;

识别模块,用于根据权利要求1所述的高中数学命名实体空间,识别出所述待识别的高中数学题目中所有的命名实体;

分类模块,用于根据识别出的所述命名实体,将所述待识别的高中数学题目进行分类。

说明书 :

高中数学题目中命名实体的构建方法、识别方法和系统

技术领域

[0001] 本发明涉及一种电子技术领域,尤其涉及一种高中数学题目中命名实体的构建方法、识别方法和系统。

背景技术

[0002] 自然语言处理(NLP,Natural Language Processing) 是研究人与计算机交互的语言问题的一门学科。命名实体识别在NLP中是一个极其重要的基础工作,在一些精准度要
求较高的NLP任务中,命名实体识别的准确度决定了NLP识别任务的最终成败。现有技术中
主流的命名实体识别方式包括两大类:(1)NLP命名实体识别的通用模型。通用模型针对一
些通用文本可以准确高效识别文本中的一些命名实体,诸如人名、地名、机构名等。(2)领域知识命名实体识别专家系统。某些领域知识可以通过人工的专家系统或者手动构建领域命
名实体词库来提供部分命名实体的识别支持。
[0003] 当前的命名实体识别技术可依赖下面几种方式:(1)基于规则的方法,比如定义正则表达式来识别电话、邮箱、身份证号码等。(2)基于投票的方法,事先统计文本关键词的实体类型,记录每个关键词的实体类型的概率,在后续识别过程中根据实体类型的概率大小
确定命名实体的类型。(3)基于命名实体特征工程的实体分类模型,通过命名实体的实体特
征,构建特征工程分类模型,训练分类模型来识别文本中的命名实体。
[0004] 然而,现有的命名实体识别技术只是针对通用的文本进行命名实体的识别,对于某些领域知识(比如高中数学)缺乏识别的能力。此外,对于某些领域(如高中数学)缺乏命
名实体的特征库,如果只通过专家建设的话,成本极高,效率极低。因此,现有技术中对于学
科类知识点标注项目(比如数学知识点标注),缺乏统一的标准化命名实体库,限制了学科
知识点标注的技术发展。

发明内容

[0005] 本发明旨在解决上述问题之一。
[0006] 本发明的主要目的在于提供一种高中数学题目中命名实体的构建方法。
[0007] 本发明的另一目的在于提供一种高中数学题目中命名实体的识别方法。
[0008] 本发明的又一目的在于提供一种高中数学题目中命名实体的识别系统。
[0009] 为达到上述目的,本发明的技术方案具体是这样实现的:
[0010] 本发明一方面提供了一种高中数学题目中命名实体的构建方法,包括:根据高中数学通用的基础特征建立特征空间,所述特征空间中包含章节范畴特征、实体属性特征和
主从属性特征,其中,所述实体属性特征的值至少包括实体类、关系类和运算类,所述主从
属性特征的值至少包括主体类、从体类和独立体类;利用所述章节范畴特征、所述实体属性
特征和所述主从属性特征进行逻辑组合成多个命名实体,所述多个命名实体构成高中数学
命名实体空间,其中,所述命名实体用于对所述高中数学的实体进行分类和描述;通过正则
化和深度学习算法模型训练所述高中数学命名实体空间,并获得反馈结果;利用所述反馈
结果对所述高中数学命名实体空间进行修正和更新。
[0011] 本发明另一方面提供了一种高中数学题目中命名实体的识别方法,包括:获取待识别的高中数学题目;根据前述的高中数学命名实体空间,识别出所述待识别的高中数学
题目中所有的命名实体;根据识别出的所述命名实体,将所述待识别的高中数学题目进行
分类。
[0012] 本发明又一方面还提供了一种高中数学题目中命名实体的识别系统,包括:获取模块,用于获取待识别的高中数学题目;识别模块,用于根据前述的高中数学命名实体空
间,识别出所述待识别的高中数学题目中所有的命名实体;分类模块,用于根据识别出的所
述命名实体,将所述待识别的高中数学题目进行分类。
[0013] 由上述本发明提供的技术方案可以看出,本发明提供了一种高中数学题目中命名实体的构建方法、识别方法和系统,通过该构建方法构建了一个高中数学命名实体空间,将
数学的命名实体抽象成一些基础实体特征原则的多维度的组合,既能够准确表达数学实体
的特征,又使实体具有了通过算法识别的逻辑基础,具有很强的解释性,并且可以在后期的
实践过程中根据结果反馈对其进行持续优化。本发明提供的命名实体,既能体现出所涉及
的数学实体属性,又具备能够通过少量核心属性进行快速组合的特点,从而可以借助算法
模型快速准确地识别题目中的有效命名实体,进而为题目的语义理解和知识点标注提供基
础。通过本发明提供的识别方法和系统,在前述的构建方法建立的高中数学命名实体空间
基础上对命名实体进行识别,可以实现对高中数学题目中实体的精准识别。 高中数学命名
实体识别是知识点标注的前提,本发明高效精准地识别命名实体为知识点标注提供了坚实
的基础。此外,本发明有效地结合了专家系统和算法模型的优势,在确保精准度的前提下,
提高了高中数学命名实体识别的效率。

附图说明

[0014] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本
领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
附图。
[0015] 图1为本发明实施例1提供的高中数学题目中命名实体的构建方法的流程图;
[0016] 图2为本发明实施例1提供的高中数学题目中命名实体的识别方法的流程图;
[0017] 图3为本发明实施例1提供的高中数学题目中命名实体的识别系统的结构示意图;
[0018] 图4为本发明实施例1提供的高中数学题目中命名实体的构建方法的一个具体流程图。

具体实施方式

[0019] 下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本
发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例,都属于本发明的保护范围。
[0020] 在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对
本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或数量或位置。
[0021] 在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本
发明中的具体含义。
[0022] 下面将结合附图对本发明实施例作进一步地详细描述。
[0023] 实施例1
[0024] 本实施例提供一种高中数学题目中命名实体的构建方法,如图1所示,包括:
[0025] 步骤S101,根据高中数学通用的基础特征建立特征空间,特征空间中包含章节范畴特征、实体属性特征和主从属性特征,其中,实体属性特征的值至少包括实体类、关系类
和运算类,主从属性特征的值至少包括主体类、从体类和独立体类;具体来说,高中数学命
名实体的识别也是不能脱离专家系统的支持的,因此首先需要基于专家系统构建一个特征
空间来容纳高中数学领域通用的基础特征的规范,然后建立一批基础的命名实体识别的识
别原则,比如将高中数学的命名实体从所属章节范畴、实体的属性(实体类、关系类、运算类
等)、主从属性(主体类、从体类或者独立体类等)。当然,本实施例仅列出了具有代表性的三个基础特征,在实际使用过程中,特征空间还可以包含除本实施例列出的三种基础特征之
外的其他特征维度,从而建立更高维度的特征空间。针对章节范畴、实体属性、主从属性的
取值,本实施例仅选取了一些具有代表性的特征值,实际上章节范畴、实体属性、主从属性
的取值应该能够涵盖高中数学的所有基础特征,远不止本实施例中所选取的特征值。
[0026] 步骤S102,利用章节范畴特征、实体属性特征和主从属性特征进行逻辑组合成多个命名实体,多个命名实体构成高中数学命名实体空间,其中,命名实体用于对高中数学的
实体进行分类和描述;具体来说,将高中数学的命名实体描述为基础特征规范的模式化组
合,在高维度特征空间内进行定位。基于高中数学命名实体的基础特征原则,可以将具体的
数学实体进行分类处理,将每一种类别转化为基础特征原则的逻辑组合(章节范畴‑实体‑
主从体组合等),每个组合可以表达一类高中数学的实体。通过将数学的命名实体抽象成一
些基础实体特征的多维度组合,既能够准确表达数学实体的特征,又使实体具有了通过算
法识别的逻辑基础,具有很强的解释性。
[0027] 步骤S103,通过正则化和深度学习算法模型训练高中数学命名实体空间,并获得反馈结果;具体来说,可以通过构建算法模型学习提炼高中数学命名实体的组合特征, 通
过正则化和深度学习算法模型学习专家系统构建的高中数学命名实体的逻辑组合,提炼出
逻辑组合的算法层级特征,并不断提供包含有命名实体的高中数学题目作为样本数据进行
识别和负反馈学习,并获取反馈结果。
[0028] 在一个可选的实施方式中,通过正则化和深度学习算法模型训练高中数学命名实体空间,并获得反馈结果包括:根据特征空间构建正则规则,并根据正则规则确定命名实体
的正则特征;基于正则规则,利用IDCNN算法模型对待训练的高中数学题目包含的实体进行
识别,获得疑似命名实体;结合待训练的高中数学题目的句法分析和依存分析,对疑似命名
实体进行评估,获得疑似命名实体的评估值;根据评估值判断是否可以将疑似命名实体归
为命名实体;当判断出疑似命名实体可归为命名实体时,将疑似命名实体作为反馈结果。
[0029] 在具体的实现过程中,正则化和深度学习算法模型训练的具体技术方案和步骤如下:
[0030] (1)确定命名实体正则特征:数学中的命名实体一般是一些元概念以及元概念的衍生体,因此具有一定的规律。章节范畴特征的定义为:可以判断该题目涉及到某章节的词
的特征,比如“集合”、“元素”等;实体属性特征的定义为:可以根据分词的词性以及所在句子中的句法地位,判断该分词属于实体词(数学概念元素等,如集合、子集),还是关系词(实体关系,如包含、属于等);主从属性特征的定义为:可以在实体词中进一步区分属于主干地
位还是从属地位,如“集合的个数”中主干地位的是“集合”,从属地位的是“个数”,实体的逻辑组合为“集合‑‑>个数”。此外,在实体的文本识别的正则特征过程中,相关的实体往往以“集”结尾,“集合”、“子集”、“真子集”、“非空真子集”、“空集”、“非空子集”等。因此,在实际的应用中,首先收集数学科目中的基础元概念,并分类整理,获得较为完备的元概念分词
集,在此基础上构建正则规则,作为数学语料库进行数学命名实体的筛选标准。
[0031] (2)利用IDCNN(Iterated Dilated Convolutional Neural Networks,膨胀卷积神经网络)算法模型训练标注好的命名实体语料。针对待训练的数学题目的问题进行初步
的命名实体识别,获得疑似命名实体分词。
[0032] (3)针对(2)中初步筛选得到的疑似命名实体分词,结合题目文本的句法分析和依存分析,并根据词性对分词进行命名实体的评估,给出评估值,根据评估值对疑似命名实体
进行处理,如果评估值显示该疑似命名实体可以归为命名实体,则该疑似命名实体可以被
添加或者更新进命名实体空间中。
[0033] (4)将处理得到的命名实体分词及其评估值提供给学科专家库进行标注反馈。
[0034] 将反馈数据再提供到步骤(2),可以进一步训练模型,从而循环(2)、(3)、(4)步骤,得到持续更新的反馈。
[0035] 在一个可选的实施方式中,在通过正则化和深度学习算法模型进行训练时,通过训练可以学习到高中数学命名实体空间的命名实体的逻辑组合,提取逻辑组合的算法层级
特征。具体来说,通过算法模型从题干文本中获取实体的逻辑组合如:“集合‑‑‑>个数”、“不等式‑‑‑>解集”、“一元二次方程‑‑‑>解”、“一元二次函数‑‑‑>定义域”等数学实体的逻辑组合。逻辑组合中可以识别出所属的章节范畴、主干实体、从属实体等数学实体信息和逻辑关
系,即提取出了逻辑组合的算法层级特征。算法层级特征包含了题目中数学实体的详细实
体属性和实体关系,是进行数学实体识别和确认的关键指标信息。
[0036] 步骤S104,利用反馈结果对高中数学命名实体空间进行修正和更新。具体来说,通过专家的反馈意见对算法模型进行迭代优化。在模型自主训练和学习的基础上,利用正则
规则对用于训练的高中数学题目进行训练和学习,当算法模型对待训练的高中数学题目的
实体进行识别后获得疑似命名实体,通过专家系统对识别结果进行评判并将评判结果反馈
给算法模型,算法模型通过专家反馈意见进行优优化迭代,即利用反馈结果对命名实体进
行修正和更新,最终获得精准度达标的高中数学命名实体识别算法模型。在一个可选的实
施方式中,利用反馈结果对高中数学命名实体空间进行修正和更新包括:获取反馈结果中
的疑似命名实体;利用疑似命名实体修正或更新高中数学命名实体空间。
[0037] 本实施例提供的高中数学题目中命名实体的构建方法,将数学的命名实体抽象成一些基础实体特征原则的多维度的组合,既能够准确表达数学实体的特征,又使实体具有
了通过算法识别的逻辑基础,具有很强的解释性,并且可以在后期的实践过程中根据结果
反馈对其进行持续优化。本实施例提供的命名实体,既能体现出所涉及的数学实体属性,又
具备能够通过少量核心属性进行快速组合的特点,从而可以借助算法模型快速准确地识别
题目中的有效命名实体,进而为题目的语义理解和知识点标注提供基础。
[0038] 本实施例还提供一种高中数学题目中命名实体的识别方法,基于前述的构建方法构建出来的高中数学命名实体空间,可以对高中数学题目中出现的实体进行识别。如图2所
示,本实施例提供的高中数学题目中命名实体的识别方法包括:
[0039] 步骤S201,获取待识别的高中数学题目;具体来说,可以提供包含原始公式和题干的高中数学题目,也可以提供包含经过转换的公式文本和题干的高中数学题目,还可以在
识别之前先进行指代消解等操作,具体视实际需要而定。
[0040] 步骤S202,根据前述的高中数学命名实体空间,识别出待识别的高中数学题目中所有的命名实体;具体来说,基于前述的构建方法,已经为高中数学建立起了一个高中数学
命名实体空间,该高中数学命名实体空间经过专家系统的反馈,已经训练成了一个精准度
达标的命名实体空间,可以对绝大部分的高中数学的实体进行识别,且可以提高识别的效
率。
[0041] 步骤S203,根据识别出的命名实体,将待识别的高中数学题目进行分类。具体来说,当识别出命名实体后,根据命名实体中包含的基础特征,可以对该高中数学题目进行分
类或后续的知识点标注等操作。
[0042] 本实施例提供的高中数学题目中命名实体的识别方法,在前述的构建方法建立的高中数学命名实体空间的基础上对命名实体进行识别,可以实现对高中数学题目中实体的
精准识别。 高中数学命名实体识别是知识点标注的前提,本实施例高效精准地识别命名实
体为知识点标注提供了坚实的基础。此外,本实施例有效地结合了专家系统和算法模型的
优势,在确保精准度的前提下,提高了高中数学命名实体识别的效率。
[0043] 本实施例还提供高中数学题目中命名实体的识别系统,如图3所示,包括:
[0044] 获取模块301,用于获取待识别的高中数学题目;具体来说,可以提供包含原始公式和题干的高中数学题目,也可以提供包含经过转换的公式文本和题干的高中数学题目,
还可以在识别之前先进行指代消解等操作,具体视实际需要而定。
[0045] 识别模块302,用于根据前述的高中数学命名实体空间,识别出待识别的高中数学题目中所有的命名实体;具体来说,基于前述的构建方法,已经为高中数学建立起了一个数
学命名实体空间,该数学命名实体空间经过专家系统的反馈,已经训练成了一个精准度达
标的命名实体空间,可以对绝大部分的高中数学的实体进行识别,且可以提高识别的效率。
[0046] 分类模块303,用于根据识别出的命名实体,将待识别的高中数学题目进行分类。具体来说,当识别出命名实体后,根据命名实体中包含的基础特征,可以对该高中数学题目
进行分类或后续的知识点标注等操作。
[0047] 本实施例提供的高中数学题目中命名实体的识别系统,在前述的构建方法建立的高中数学命名实体空间的基础上对命名实体进行识别,可以实现对高中数学题目中实体的
精准识别。 高中数学命名实体识别是知识点标注的前提,本实施例高效精准地识别命名实
体为知识点标注提供了坚实的基础。此外,本实施例有效地结合了专家系统和算法模型的
优势,在确保精准度的前提下,提高了高中数学命名实体识别的效率。
[0048] 图4提供了一个本发明应用实例的具体流程图,用于展示一个高中数学题目的命名实体识别的具体应用。
[0049] 此外,本发明还提供一个高中数学题目的命名实体的示例,具体如下所述。
[0050] 数学题目的题干如下:已知函数f(x)=x^2‑2*x+2。求f(x)在区间[(1/2),3]上的最大值和最小值。
[0051] 针对语句“已知函数f(x)=x^2‑2*x+2”识别出的命名实体如下:
[0052] 所属章节范畴:函数;
[0053] 实体属性:主体类(函数体);从体类(一元二次,f函数表达);
[0054] 命名实体类型:函数体(单主体)、一元二次函数(组合主体)、f函数表达(表达形式主体);
[0055] 针对语句“求f(x)在区间[(1/2),3]上的最大值和最小值”,可以先对f(x)进行指代消解,转化为f(x)=x^2‑2*x+2,然后进行实体识别。识别出的命名实体如下:
[0056] 所属章节范畴:函数;
[0057] 实体属性:主体类(一元二次函数、f函数表达);从体类(最值(最大值、最小值));
[0058] 命名实体类型:一元二次函数(组合主体),f函数表达(表达形式主体)、最值(从体);
[0059] 命名实体有效组合(具有数学意义的实体模式):一元二次函数(组合主体),f函数表达(表达形式主体)、一元二次函数‑‑>最值(主体+从体)。
[0060] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部
分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺
序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明
的实施例所属技术领域的技术人员所理解。
[0061] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件
或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下
列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路
的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场
可编程门阵列(FPGA)等。
[0062] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介
质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0063] 此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模
块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如
果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机
可读取存储介质中。
[0064] 上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0065] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不
一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何
的一个或多个实施例或示例中以合适的方式结合。
[0066] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨
的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围
由所附权利要求及其等同限定。