高中数学题目中命名实体的构建方法、识别方法和系统转让专利
申请号 : CN202311544077.0
文献号 : CN117252202B
文献日 : 2024-03-19
发明人 : 高玉伟 , 杨升全 , 陈东强
申请人 : 江西风向标智能科技有限公司
摘要 :
权利要求 :
1.高中数学命名实体空间的构建方法,其特征在于,包括:根据高中数学通用的基础特征建立特征空间,所述特征空间中包含章节范畴特征、实体属性特征和主从属性特征,其中,所述实体属性特征的值至少包括实体类、关系类和运算类,所述主从属性特征的值至少包括主体类、从体类和独立体类;
利用所述章节范畴特征、所述实体属性特征和所述主从属性特征进行逻辑组合成多个命名实体,所述多个命名实体构成高中数学命名实体空间,其中,所述命名实体用于对所述高中数学的实体进行分类和描述;
通过正则化和深度学习算法模型训练所述高中数学命名实体空间,并获得反馈结果;
利用所述反馈结果对所述高中数学命名实体空间进行修正和更新;
根据所述特征空间构建正则规则,并根据所述正则规则确定所述命名实体的正则特征;
基于所述正则规则,利用IDCNN算法模型对待训练的高中数学题目包含的实体进行识别,获得疑似命名实体;
结合所述待训练的高中数学题目的句法分析和依存分析,对所述疑似命名实体进行评估,获得所述疑似命名实体的评估值;
根据所述评估值判断是否可以将所述疑似命名实体归为所述命名实体;
当判断出所述疑似命名实体可归为所述命名实体时,将所述疑似命名实体作为所述反馈结果;
获取所述反馈结果中的所述疑似命名实体;
利用所述疑似命名实体修正或更新所述高中数学命名实体空间。
2.高中数学题目中命名实体的识别方法,其特征在于,包括:获取待识别的高中数学题目;
根据权利要求1所述的高中数学命名实体空间,识别出所述待识别的高中数学题目中所有的命名实体;
根据识别出的所述命名实体,将所述待识别的高中数学题目进行分类。
3.高中数学题目中命名实体的识别系统,其特征在于,包括:获取模块,用于获取待识别的高中数学题目;
识别模块,用于根据权利要求1所述的高中数学命名实体空间,识别出所述待识别的高中数学题目中所有的命名实体;
分类模块,用于根据识别出的所述命名实体,将所述待识别的高中数学题目进行分类。
说明书 :
高中数学题目中命名实体的构建方法、识别方法和系统
技术领域
背景技术
求较高的NLP任务中,命名实体识别的准确度决定了NLP识别任务的最终成败。现有技术中
主流的命名实体识别方式包括两大类:(1)NLP命名实体识别的通用模型。通用模型针对一
些通用文本可以准确高效识别文本中的一些命名实体,诸如人名、地名、机构名等。(2)领域知识命名实体识别专家系统。某些领域知识可以通过人工的专家系统或者手动构建领域命
名实体词库来提供部分命名实体的识别支持。
确定命名实体的类型。(3)基于命名实体特征工程的实体分类模型,通过命名实体的实体特
征,构建特征工程分类模型,训练分类模型来识别文本中的命名实体。
名实体的特征库,如果只通过专家建设的话,成本极高,效率极低。因此,现有技术中对于学
科类知识点标注项目(比如数学知识点标注),缺乏统一的标准化命名实体库,限制了学科
知识点标注的技术发展。
发明内容
主从属性特征,其中,所述实体属性特征的值至少包括实体类、关系类和运算类,所述主从
属性特征的值至少包括主体类、从体类和独立体类;利用所述章节范畴特征、所述实体属性
特征和所述主从属性特征进行逻辑组合成多个命名实体,所述多个命名实体构成高中数学
命名实体空间,其中,所述命名实体用于对所述高中数学的实体进行分类和描述;通过正则
化和深度学习算法模型训练所述高中数学命名实体空间,并获得反馈结果;利用所述反馈
结果对所述高中数学命名实体空间进行修正和更新。
题目中所有的命名实体;根据识别出的所述命名实体,将所述待识别的高中数学题目进行
分类。
间,识别出所述待识别的高中数学题目中所有的命名实体;分类模块,用于根据识别出的所
述命名实体,将所述待识别的高中数学题目进行分类。
数学的命名实体抽象成一些基础实体特征原则的多维度的组合,既能够准确表达数学实体
的特征,又使实体具有了通过算法识别的逻辑基础,具有很强的解释性,并且可以在后期的
实践过程中根据结果反馈对其进行持续优化。本发明提供的命名实体,既能体现出所涉及
的数学实体属性,又具备能够通过少量核心属性进行快速组合的特点,从而可以借助算法
模型快速准确地识别题目中的有效命名实体,进而为题目的语义理解和知识点标注提供基
础。通过本发明提供的识别方法和系统,在前述的构建方法建立的高中数学命名实体空间
基础上对命名实体进行识别,可以实现对高中数学题目中实体的精准识别。 高中数学命名
实体识别是知识点标注的前提,本发明高效精准地识别命名实体为知识点标注提供了坚实
的基础。此外,本发明有效地结合了专家系统和算法模型的优势,在确保精准度的前提下,
提高了高中数学命名实体识别的效率。
附图说明
领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
附图。
具体实施方式
发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例,都属于本发明的保护范围。
本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或数量或位置。
发明中的具体含义。
和运算类,主从属性特征的值至少包括主体类、从体类和独立体类;具体来说,高中数学命
名实体的识别也是不能脱离专家系统的支持的,因此首先需要基于专家系统构建一个特征
空间来容纳高中数学领域通用的基础特征的规范,然后建立一批基础的命名实体识别的识
别原则,比如将高中数学的命名实体从所属章节范畴、实体的属性(实体类、关系类、运算类
等)、主从属性(主体类、从体类或者独立体类等)。当然,本实施例仅列出了具有代表性的三个基础特征,在实际使用过程中,特征空间还可以包含除本实施例列出的三种基础特征之
外的其他特征维度,从而建立更高维度的特征空间。针对章节范畴、实体属性、主从属性的
取值,本实施例仅选取了一些具有代表性的特征值,实际上章节范畴、实体属性、主从属性
的取值应该能够涵盖高中数学的所有基础特征,远不止本实施例中所选取的特征值。
实体进行分类和描述;具体来说,将高中数学的命名实体描述为基础特征规范的模式化组
合,在高维度特征空间内进行定位。基于高中数学命名实体的基础特征原则,可以将具体的
数学实体进行分类处理,将每一种类别转化为基础特征原则的逻辑组合(章节范畴‑实体‑
主从体组合等),每个组合可以表达一类高中数学的实体。通过将数学的命名实体抽象成一
些基础实体特征的多维度组合,既能够准确表达数学实体的特征,又使实体具有了通过算
法识别的逻辑基础,具有很强的解释性。
过正则化和深度学习算法模型学习专家系统构建的高中数学命名实体的逻辑组合,提炼出
逻辑组合的算法层级特征,并不断提供包含有命名实体的高中数学题目作为样本数据进行
识别和负反馈学习,并获取反馈结果。
的正则特征;基于正则规则,利用IDCNN算法模型对待训练的高中数学题目包含的实体进行
识别,获得疑似命名实体;结合待训练的高中数学题目的句法分析和依存分析,对疑似命名
实体进行评估,获得疑似命名实体的评估值;根据评估值判断是否可以将疑似命名实体归
为命名实体;当判断出疑似命名实体可归为命名实体时,将疑似命名实体作为反馈结果。
的特征,比如“集合”、“元素”等;实体属性特征的定义为:可以根据分词的词性以及所在句子中的句法地位,判断该分词属于实体词(数学概念元素等,如集合、子集),还是关系词(实体关系,如包含、属于等);主从属性特征的定义为:可以在实体词中进一步区分属于主干地
位还是从属地位,如“集合的个数”中主干地位的是“集合”,从属地位的是“个数”,实体的逻辑组合为“集合‑‑>个数”。此外,在实体的文本识别的正则特征过程中,相关的实体往往以“集”结尾,“集合”、“子集”、“真子集”、“非空真子集”、“空集”、“非空子集”等。因此,在实际的应用中,首先收集数学科目中的基础元概念,并分类整理,获得较为完备的元概念分词
集,在此基础上构建正则规则,作为数学语料库进行数学命名实体的筛选标准。
的命名实体识别,获得疑似命名实体分词。
进行处理,如果评估值显示该疑似命名实体可以归为命名实体,则该疑似命名实体可以被
添加或者更新进命名实体空间中。
特征。具体来说,通过算法模型从题干文本中获取实体的逻辑组合如:“集合‑‑‑>个数”、“不等式‑‑‑>解集”、“一元二次方程‑‑‑>解”、“一元二次函数‑‑‑>定义域”等数学实体的逻辑组合。逻辑组合中可以识别出所属的章节范畴、主干实体、从属实体等数学实体信息和逻辑关
系,即提取出了逻辑组合的算法层级特征。算法层级特征包含了题目中数学实体的详细实
体属性和实体关系,是进行数学实体识别和确认的关键指标信息。
规则对用于训练的高中数学题目进行训练和学习,当算法模型对待训练的高中数学题目的
实体进行识别后获得疑似命名实体,通过专家系统对识别结果进行评判并将评判结果反馈
给算法模型,算法模型通过专家反馈意见进行优优化迭代,即利用反馈结果对命名实体进
行修正和更新,最终获得精准度达标的高中数学命名实体识别算法模型。在一个可选的实
施方式中,利用反馈结果对高中数学命名实体空间进行修正和更新包括:获取反馈结果中
的疑似命名实体;利用疑似命名实体修正或更新高中数学命名实体空间。
了通过算法识别的逻辑基础,具有很强的解释性,并且可以在后期的实践过程中根据结果
反馈对其进行持续优化。本实施例提供的命名实体,既能体现出所涉及的数学实体属性,又
具备能够通过少量核心属性进行快速组合的特点,从而可以借助算法模型快速准确地识别
题目中的有效命名实体,进而为题目的语义理解和知识点标注提供基础。
示,本实施例提供的高中数学题目中命名实体的识别方法包括:
识别之前先进行指代消解等操作,具体视实际需要而定。
命名实体空间,该高中数学命名实体空间经过专家系统的反馈,已经训练成了一个精准度
达标的命名实体空间,可以对绝大部分的高中数学的实体进行识别,且可以提高识别的效
率。
类或后续的知识点标注等操作。
精准识别。 高中数学命名实体识别是知识点标注的前提,本实施例高效精准地识别命名实
体为知识点标注提供了坚实的基础。此外,本实施例有效地结合了专家系统和算法模型的
优势,在确保精准度的前提下,提高了高中数学命名实体识别的效率。
还可以在识别之前先进行指代消解等操作,具体视实际需要而定。
学命名实体空间,该数学命名实体空间经过专家系统的反馈,已经训练成了一个精准度达
标的命名实体空间,可以对绝大部分的高中数学的实体进行识别,且可以提高识别的效率。
进行分类或后续的知识点标注等操作。
精准识别。 高中数学命名实体识别是知识点标注的前提,本实施例高效精准地识别命名实
体为知识点标注提供了坚实的基础。此外,本实施例有效地结合了专家系统和算法模型的
优势,在确保精准度的前提下,提高了高中数学命名实体识别的效率。
分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺
序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明
的实施例所属技术领域的技术人员所理解。
或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下
列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路
的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场
可编程门阵列(FPGA)等。
质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如
果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机
可读取存储介质中。
一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何
的一个或多个实施例或示例中以合适的方式结合。
的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围
由所附权利要求及其等同限定。