一种新增试题的知识点标注方法及系统转让专利

申请号 : CN201910681103.1

文献号 : CN110377802B

文献日 : 2021-07-02

本发明公开了一种新增试题的知识点标注方法及系统。新增试题的知识点标注方法包括：获取新增试题，遍寻样本库寻找与新增试题相似的相似题得到相似题组；根据相似题组对新增试题进行知识点标注：当最相似试题对应的相似度在第一级别范围内时，将位于第一级别范围内的相似度对应的相似题判定为第一待利用试题，将其对应的知识点赋予新增试题；当最相似试题对应的相似度在第二级别范围内时，将相似题组中的试题判定为第二待利用试题，将其对应的所有知识点中出现次数最多的知识点赋予新增试题，判断剩余知识点中与出现次数最多的知识点最可能同时出现的p个知识点，将p个知识点也赋予新增试题。本发明能够提升知识点标注的效率，节约时间和费用。

1.一种新增试题的知识点标注方法，其特征在于，包括：获取新增试题，遍寻样本库寻找与所述新增试题相似的相似题，得到相似题组，所述样本库中的试题均为待判断试题，一道所述待判断试题对应n个知识点，n为正整数，且n≥1，具体包括：

确定所述新增试题的重要关键字符记为第一字符串，确定所述待判断试题的重要关键字符记为第二字符串，所述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符；

计算所述第一字符串和所述第二字符串之间的加权编辑距离，所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数；

根据所述加权编辑距离计算所述新增试题与所述待判断试题之间的相似度r；

当相似度r大于等于第一阈值时，相似度r所对应的所述待判断试题为所述相似题；

遍寻所述样本库得到所述相似题组，所述相似题组包括m道所述相似题，m为正整数，且m≥1；

根据所述相似题组对所述新增试题进行知识点标注，具体包括：当所述相似题组中最相似试题对应的相似度r在第一级别范围内时，将位于第一级别范围内的相似度r对应的所述相似题判定为第一待利用试题，将所述第一待利用试题对应的知识点赋予所述新增试题；

当所述相似题组中最相似试题对应的相似度r在第二级别范围内时，将所述相似题组中的试题判定为第二待利用试题，将在所述第二待利用试题对应的所有知识点中出现次数最多的知识点赋予所述新增试题，然后根据两个知识点同时出现的置信度，判断所述第二待利用试题对应的剩余知识点中与所述出现次数最多的知识点最可能同时出现的p个知识点，将所述p个知识点也赋予所述新增试题，p为正整数，且p≥1；其中，最相似试题为所述相似题组中相似度r最大的试题，所述第一级别范围的相似度大于第二级别范围的相似度。

2.根据权利要求1所述的新增试题的知识点标注方法，其特征在于，相似度r的计算公式为：r＝(sum‑dist)/sum，其中，sum为所述第一字符串和所述第二字符串的长度总和，dist为所述加权编辑距离。

3.根据权利要求1所述的新增试题的知识点标注方法，其特征在于，所述两个知识点同时出现的置信度的计算方法为：统计所述样本库中，两个知识点在同一道题中同时出现的次数q；

根据所述次数q计算所述置信度D，其中，D＝R*q，R正相关系数。

4.根据权利要求1所述的新增试题的知识点标注方法，其特征在于，获取新增试题，遍寻样本库寻找与所述新增试题相似的相似题，得到相似题组，进一步包括：

将样本库中试题按题型进行分类为子样本库，一个所述子样本库中仅包括一种题型的试题；

获取新增试题，根据所述新增试题的题型，遍寻相应的所述子样本库寻找与所述新增试题相似的相似题，得到相似题组。

5.根据权利要求1所述的新增试题的知识点标注方法，其特征在于，根据所述相似题组对所述新增试题进行知识点标注，还包括：当所述相似题组中最相似试题对应的相似度r在第二级别范围内，且所述相似题组中的所述相似题均各自对应一个知识点时，将所述相似题组对应的所有知识点均赋予所述新增试题。

6.根据权利要求1所述的新增试题的知识点标注方法，其特征在于，根据所述相似题组对所述新增试题进行知识点标注，还包括：当所述相似题组中最相似试题对应的相似度r在第一级别范围内时，根据相似度r由大到小对所述相似题进行排序，将最多前5道相似度r位于第一级别范围内的所述相似题判定为所述第一待利用试题；

当所述相似题组中最相似试题对应的相似度r在第二级别范围内时，根据相似度r由大到小对所述相似题进行排序，将最多前5道所述相似题判定为所述第二待利用试题。

7.根据权利要求1所述的新增试题的知识点标注方法，其特征在于，确定所述新增试题的重要关键字符记为第一字符串，确定待判断试题的重要关键字符记为第二字符串的步骤包括：

采用词频‑逆文档频度模型构建重要关键字字符库；

根据所述重要关键字字符库确定所述第一字符串和所述第二字符串。

8.根据权利要求1所述的新增试题的知识点标注方法，其特征在于，所述样本库中试题的来源至少包括：例题、课后习题、模拟题、期中考试试题、期末考试试题、升学考试真题。

9.根据权利要求1所述的新增试题的知识点标注方法，其特征在于，根据所述相似题组对所述新增试题进行知识点标注，进一步包括：将知识点赋予所述新增试题时，相同的知识点仅赋予一次。

10.一种新增试题的知识点标注系统，其特征在于，包括：相似题寻找模块、知识点标注模块；其中，

所述相似题寻找模块，用于获取新增试题，并遍寻样本库寻找与所述新增试题相似的相似题，得到相似题组，所述样本库中的试题均为待判断试题，一道所述待判断试题对应n个知识点，n为正整数，且n≥1，包括：重要关键字符确定模块、加权编辑距离计算模块、相似度计算模块、相似题组生成模块；

所述重要关键字符确定模块，与所述加权编辑距离计算模块相连接，用于确定所述新增试题的重要关键字符记为第一字符串，确定所述待判断试题的重要关键字符记为第二字符串，并将所述第一字符串和所述第二字符串发送给所述加权编辑距离计算模块，所述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符；

所述加权编辑距离计算模块，与所述相似度计算模块相连接，用于计算所述第一字符串和所述第二字符串之间的加权编辑距离，并将所述加权编辑距离发送给所述相似度计算模块，所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数；

所述相似度计算模块，与所述相似题组生成模块相连接，用于根据所述加权编辑距离计算所述新增试题与所述待判断试题之间的相似度r，并将相似度r的计算结果发送给所述相似题组生成模块；

所述相似题组生成模块，用于接收相似度r的计算结果并判断，当相似度r大于等于第一阈值时，相似度r所对应的所述待判断试题为所述相似题，遍寻所述样本库得到所述相似题组，所述相似题组包括m道所述相似题，m为正整数，且m≥1，并将所述相似题组的生成结果发送给所述知识点确定模块；

所述知识点标注模块，用于根据所述相似题组对所述新增试题进行知识点标注；包括判断子模块、标注子模块；

所述判断子模块，与所述标注子模块相连接，用于当判断所述相似题组中最相似试题对应的相似度r在第一级别范围内时，将位于第一级别范围内的相似度r对应的所述相似题判定为第一待利用试题，并将所述第一待利用试题的判定结果发送给所述标注子模块；

所述标注子模块，根据所述第一待利用试题的判定结果，将所述第一待利用试题对应的知识点赋予所述新增试题；

所述判断子模块，还用于当判断所述相似题组中最相似试题对应的相似度r在第二级别范围内时，将所述相似题组中的试题判定为第二待利用试题，并将所述第二待利用试题的判断结果发送给所述标注子模块，所述标注子模块，还用于根据所述第二待利用试题的判断结果将在所述第二待利用试题对应的所有知识点中出现次数最多的知识点赋予所述新增试题，并根据两个知识点同时出现的置信度，判断所述第二待利用试题对应的剩余知识点中与所述出现次数最多的知识点最可能同时出现的p个知识点，将所述p个知识点也赋予所述新增试题，p为正整数，且p≥

1；其中，

最相似试题为所述相似题组中相似度r最大的试题，所述第一级别范围的相似度大于第二级别范围的相似度。

一种新增试题的知识点标注方法及系统

技术领域

[0001] 本发明涉及教育技术领域，更具体地，涉及一种新增试题的知识点标注方法及系统。

背景技术

[0002] 现有技术中，当在试题题库中增加新试题时，通常采用人工标注的方式对新增试题标注知识点。这种人工标注知识点的方式，通常需要有丰富教学研究经验的教师，对各科
试题进行人工判断，来进行具体知识点的标注，从而达到较高的准确度。然而，采用人工标
注的方式效率低且费用成本高昂。

[0003] 因此，提供一种新增试题的知识点标注方法及系统，提升知识点标注的效率，节约时间和费用，并且同时保证较高的准确性，是本领域亟待解决的技术问题。

发明内容

[0004] 有鉴于此，本发明提供了一种新增试题的知识点标注方法及系统，解决了上述技术问题。

[0005] 第一方面，本发明提供一种新增试题的知识点标注方法，包括：

[0006] 获取新增试题，遍寻样本库寻找与所述新增试题相似的相似题，得到相似题组，所述样本库中的试题均为待判断试题，一道所述待判断试题对应n个知识点，n为正整数，且n
≥1，具体包括：

[0007] 确定所述新增试题的重要关键字符记为第一字符串，确定所述待判断试题的重要关键字符记为第二字符串，所述重要关键字符为新增、替换或者修改后会改变试题含义或
者类型的字符；

[0008] 计算所述第一字符串和所述第二字符串之间的加权编辑距离，所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数；

[0009] 根据所述加权编辑距离计算所述新增试题与所述待判断试题之间的相似度r；

[0010] 当相似度r大于等于第一阈值时，相似度r所对应的所述待判断试题为所述相似题；

[0011] 遍寻所述样本库得到所述相似题组，所述相似题组包括m道所述相似题，m为正整数，且m≥1；

[0012] 根据所述相似题组对所述新增试题进行知识点标注，具体包括：

[0013] 当所述相似题组中最相似试题对应的相似度r在第一级别范围内时，将位于第一级别范围内的相似度r对应的所述相似题判定为第一待利用试题，将所述第一待利用试题
对应的知识点赋予所述新增试题；

[0014] 当所述相似题组中最相似试题对应的相似度r在第二级别范围内时，将所述相似题组中的试题判定为第二待利用试题，将在所述第二待利用试题对应的所有知识点中出现
次数最多的知识点赋予所述新增试题，然后根据两个知识点同时出现的置信度，判断所述
第二待利用试题对应的剩余知识点中与所述出现次数最多的知识点最可能同时出现的p个
知识点，将所述p个知识点也赋予所述新增试题，p为正整数，且p≥1；其中，

[0015] 最相似试题为所述相似题组中相似度r最大的试题，所述第一级别范围的相似度大于第二级别范围的相似度。

[0016] 可选的，相似度r的计算公式为：r＝(sum‑dist)/sum，其中，sum为所述第一字符串和所述第二字符串的长度总和，dist为所述加权编辑距离。

[0017] 可选的，所述两个知识点同时出现的置信度的计算方法为：

[0018] 统计所述样本库中，两个知识点在同一道题中同时出现的次数q；

[0019] 根据所述次数q计算所述置信度D，其中，D＝R*q，R正相关系数。

[0020] 可选的，获取新增试题，遍寻样本库寻找与所述新增试题相似的相似题，得到相似题组，进一步包括：

[0021] 将样本库中试题按题型进行分类为子样本库，一个所述子样本库中仅包括一种题型的试题；

[0022] 获取新增试题，根据所述新增试题的题型，遍寻相应的所述子样本库寻找与所述新增试题相似的相似题，得到相似题组。

[0023] 可选的，根据所述相似题组对所述新增试题进行知识点标注，还包括：当所述相似题组中最相似试题对应的相似度r在第二级别范围内，且所述相似题组中的所述相似题均
各自对应一个知识点时，将所述相似题组对应的所有知识点均赋予所述新增试题。

[0024] 可选的，根据所述相似题组对所述新增试题进行知识点标注，还包括：

[0025] 当所述相似题组中最相似试题对应的相似度r在第一级别范围内时，根据相似度r由大到小对所述相似题进行排序，将最多前5道相似度r位于第一级别范围内的所述相似题
判定为所述第一待利用试题；

[0026] 当所述相似题组中最相似试题对应的相似度r在第二级别范围内时，根据相似度r由大到小对所述相似题进行排序，将最多前5道所述相似题判定为所述第二待利用试题。

[0027] 可选的，确定所述新增试题的重要关键字符记为第一字符串，确定待判断试题的重要关键字符记为第二字符串的步骤包括：

[0028] 采用词频‑逆文档频度模型构建重要关键字字符库；

[0029] 根据所述重要关键字字符库确定所述第一字符串和所述第二字符串。

[0030] 可选的，所述样本库中试题的来源至少包括：例题、课后习题、模拟题、期中考试试题、期末考试试题、升学考试真题。

[0031] 可选的，根据所述相似题组对所述新增试题进行知识点标注，进一步包括：将知识点赋予所述新增试题时，相同的知识点仅赋予一次。

[0032] 第二方面，本发明还提供一种新增试题的知识点标注系统，包括：相似题寻找模块、知识点标注模块；其中，

[0033] 所述相似题寻找模块，用于获取新增试题，并遍寻样本库寻找与所述新增试题相似的相似题，得到相似题组，所述样本库中的试题均为待判断试题，一道所述待判断试题对
应n个知识点，n为正整数，且n≥1，包括：重要关键字符确定模块、加权编辑距离计算模块、
相似度计算模块、相似题组生成模块；

[0034] 所述重要关键字符确定模块，与所述加权编辑距离计算模块相连接，用于确定所述新增试题的重要关键字符记为第一字符串，确定所述待判断试题的重要关键字符记为第
二字符串，并将所述第一字符串和所述第二字符串发送给所述加权编辑距离计算模块，所
述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符；

[0035] 所述加权编辑距离计算模块，与所述相似度计算模块相连接，用于计算所述第一字符串和所述第二字符串之间的加权编辑距离，并将所述加权编辑距离发送给所述相似度
计算模块，所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的
加权操作次数；

[0036] 所述相似度计算模块，与所述相似题组生成模块相连接，用于根据所述加权编辑距离计算所述新增试题与所述待判断试题之间的相似度r，并将相似度r的计算结果发送给
所述相似题组生成模块；

[0037] 所述相似题组生成模块，用于接收相似度r的计算结果并判断，当相似度r大于等于第一阈值时，相似度r所对应的所述待判断试题为所述相似题，遍寻所述样本库得到所述
相似题组，所述相似题组包括m道所述相似题，m为正整数，且m≥1，并将所述相似题组的生
成结果发送给所述知识点确定模块；

[0038] 所述知识点标注模块，用于根据所述相似题组对所述新增试题进行知识点标注；包括判断子模块、标注子模块；

[0039] 所述判断子模块，与所述标注子模块相连接，用于当判断所述相似题组中最相似试题对应的相似度r在第一级别范围内时，将位于第一级别范围内的相似度r对应的所述相
似题判定为第一待利用试题，并将所述第一待利用试题的判定结果发送给所述标注子模
块；

[0040] 所述标注子模块，根据所述第一待利用试题的判定结果，将所述第一待利用试题对应的知识点赋予所述新增试题；

[0041] 所述判断子模块，还用于当判断所述相似题组中最相似试题对应的相似度r在第二级别范围内时，将所述相似题组中的试题判定为第二待利用试题，并将所述第二待利用
试题的判断结果发送给所述标注子模块，

[0042] 所述标注子模块，还用于根据所述第二待利用试题的判断结果将在所述第二待利用试题对应的所有知识点中出现次数最多的知识点赋予所述新增试题，并根据两个知识点
同时出现的置信度，判断所述第二待利用试题对应的剩余知识点中与所述出现次数最多的
知识点最可能同时出现的p个知识点，将所述p个知识点也赋予所述新增试题，p为正整数，
且p≥1；其中，

[0043] 最相似试题为所述相似题组中相似度r最大的试题，所述第一级别范围的相似度大于第二级别范围的相似度。

[0044] 与现有技术相比，本发明提供的新增试题的知识点标注方法及系统，至少实现了如下的有益效果：

[0045] (1)本发明基于计算新增试题与样本库中试题之间的相似度，根据相似题对应的知识点对新增试题的知识点进行标注，知识点标注过程不需要人工参与，能够提升知识点
标注的效率，节约时间和费用。

[0046] (2)基于重要关键字作为权重，计算新增试题与样本库中试题之间的重要关键字之间的加权编辑距离，从而确定新增试题与样本库中试题之间的相似度，来选择与新增试
题相似的试题，相似度越高考察相同知识点的可能性越高，本发明采用重要关键字作为权
重，相似度计算的准确度更高，从而能够提高知识点标注的准确性。

[0047] (3)在判定第一待利用试题或者第二待利用试题时最多判定5道相应的试题，能够进一步提升知识点标注的准确性，简化运算过程，提高知识点标注效率。

[0048] (4)样本库按题型进行分类，获取新增试题后，根据试题类型来寻找相似题，后续相似度计算更加准确，且不需要遍寻所有的题型简化了相似度计算的过程，能够有利于提
升知识点标注的效率。

[0049] 当然，实施本发明的任一产品必不特定需要同时达到以上所述的所有技术效果。

[0050] 通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

[0051] 被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

[0052] 图1为本发明实施例提供的新增试题的知识点标注方法流程图；

[0053] 图2为本发明实施例提供的新增试题的知识点标注方法中相似题组生成流程图；

[0054] 图3为本发明实施例提供的新增试题的知识点标注系统框图。

具体实施方式

[0055] 现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本
发明的范围。

[0056] 以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

[0057] 对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

[0058] 在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

[0059] 应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

[0060] 本发明提出一种基于大数据和人工智能的方法来进行知识点自动标注的方法和系统，能够有效提升知识点标注的效率，节约时间和费用，并且同时保证较高的准确性。

[0061] 图1为本发明实施例提供的新增试题的知识点标注方法流程图，图2为本发明实施例提供的新增试题的知识点标注方法中相似题组生成流程图。

[0062] 如图1所示，本发明提供一种新增试题的知识点标注方法，包括：

[0063] 步骤S101：获取新增试题，遍寻样本库寻找与新增试题相似的相似题，得到相似题组，样本库中的试题均为待判断试题，一道待判断试题对应n个知识点，n为正整数，且n≥1。

[0064] 可选的，本发明的样本库中试题的来源至少包括：例题、课后习题、模拟题、期中考试试题、期末考试试题、升学考试真题。其中，升学考试可以为小学升初中，初中升高中、高
考。比如例题和课后习题，通常只有一个知识点(即该小节的名称)，题目也比较基础，直接
与课本中的文字内容相关，题目题干与课本文字内容的关键字重合程度比较高；模拟题和
期中、期末考试的题目，这些题目需要对单个学期所学的多个章节融会贯通，才能做对，所
以通常包含单个学期的多个知识点；高考题和中考题，这些题目需要对多个学期所学的多
个章节融会贯通，才能做对，所以通常包含多个学期的多个知识点，。

[0065] 样本库首先，可以使用各个省(每个省的教学大纲和课本会有一些不同)的标准课本的例题和课后练习题和核心教学辅导书的附录习题来构建。由于每一章的每一小节，都
有章节的名称，因此使用每一个小节的章节名称来标注每一小节附录的例题和练习题的知
识点。其次，样本库收集了过去前几年(比如前10年或者前20年)各省历届高考、中考、小升
初等重要升学考试真题。这些真题已经有了大量的教学研究，有较为权威的知识点标注，也
包含准确的解析和答案，而且也有基于被试学生答题记录的试题难度和区分度数据。另外，
样本库还可以包括多个合作方的核心题库的高质量试题。在过去多年的长期积累过程中，
这些试题已经被有丰富教研经验的专家通过人工方式标注了知识点，而且在很多模拟考试
和多校联考中被很多学生考试过，有较多的答题数据，而且能够统计出难度值和区分度值。

[0066] 本发明构建的样本库具有以下特点：1、样本库中的试题比较权威或者具有很高的认可度；2、知识点的标注准确；3、试题的知识点分布较为全面，不会发生某些知识点的试题
特别少的情况。本发明可以按学科分类分别构建数学、物理、化学、生物、英语、语文、政治、
历史、和地理等学科的样本库。

[0067] 如图2所示，步骤S101具体包括：

[0068] 步骤S1011：确定新增试题的重要关键字符记为第一字符串，确定待判断试题的重要关键字符记为第二字符串，重要关键字符为新增、替换或者修改后会改变试题含义或者
类型的字符；

[0069] 以下述数学试题为例：已知向量→a＝(cos3x/4，sin3x/4)，→b＝(cos(x/4+π/3)，‑→ →
sin(x/4+π/3))；令f(x)＝( a+ b)^2，(1)求f(x)解析式及单调递增区间；(2)若x∈[‑π/6，5
π/6]，求函数f(x)的最大值和最小值；(3)若f(x)＝5/2，求sin(x‑π/6)的值。

[0070] 上述试题中，“向量”以及向量符号“→”对于题目的知识点标注意义重大，如果新增、替换和删除这样的重要关键字，会显著修改题目的含义和类别。因此，本发明中将此类
重要关键字，在加权编辑距离中赋予更大的权重。

[0071] 可选的，本发明中采用词频‑逆文档频度模型构建重要关键字字符库；以同一科目的大量的试题为数据基础(比如为100万道题)，采用词频‑逆文档频度模型在大量的试题中
挑选出重要关键字，形成基本涵盖科目中所有知识点的重要关键字字符库；然后根据重要
关键字字符库确定新增试题中的第一字符串和待判断试题中的第二字符串。第一字符串和
第二字符串作为加权编辑距离的权重。以大量试题为基础，根据模型来挑选出重要关键字，
能够保证重要关键字选取的准确性，进而保证后续相似度计算的准确性。

[0072] 步骤S1012：计算第一字符串和第二字符串之间的加权编辑距离，加权编辑距离为第一字符串和第二字符串之间相互转化的最少的加权操作次数；

[0073] 可选的，加权编辑距离的操作包括：插入、删除、替换；其中，在计算加权操作次数时：删除记为一次操作，插入记为一次操作，替换记为两次操作。本发明采用的加权编辑距
离的权重为试题中的重要关键字，由于重要关键字的会影响试题含义或者类型，所以在计
算加权操作次数时，将替换记为两次操作，以增加替换重要关键字在操作次数中的影响，提
升后续相似度计算的准确性。

[0074] 步骤S1013：根据加权编辑距离计算新增试题与待判断试题之间的相似度r。可选的，相似度r的计算公式为：

[0075] r＝(sum‑dist)/sum，其中，sum为第一字符串和第二字符串的长度总和，dist为加权编辑距离；

[0076] 步骤S1014：当相似度r大于等于第一阈值时，相似度r所对应的待判断试题为相似题；可选的，第一阈值可以根据实际需求进行选择，第一阈值可以在0到1之间选取任意值。
例如可以为0.3、0.4或者0.5。比如当第一阈值为0.3时，则判断相似度r大于等于0.3对应的
待判断试题均为相似题。

[0077] 步骤S1015：遍寻样本库得到相似题组，相似题组包括m道相似题，m为正整数，且m≥1；在某些情况下，遍寻样本库仅得到一道相似题；在某些情况下，遍寻样本库也可以得到
多道相似题。

[0078] 步骤S102：根据相似题组对新增试题进行知识点标注，步骤S102具体包括：

[0079] 步骤S1021：当相似题组中最相似试题对应的相似度r在第一级别范围内时，将位于第一级别范围内的相似度r对应的相似题判定为第一待利用试题，将第一待利用试题对
应的知识点赋予新增试题；

[0080] 在一种实施方式中，第一级别范围为大于等于0.9，且小于等于1。经步骤S101中的计算后，相似题组中最相似试题对应的相似度r为0.98，则最相似试题对应的相似度r在第
一级别范围内，说明相似题组中包括与新增试题非常相似的试题，本发明通过重要关键字
的加权编辑距离，来计算得到的相似度，能够准确的反映新增试题与待判定试题之间的相
似度，相似度越高，则新增试题与待判定试题之间考察的知识点越接近或者即为考察相同
的知识点。通过将第一待利用试题对应的知识点赋予新增试题，能够实现对新增试题知识
点的准确标注。

[0081] 可选的，每道第一待利用试题可以对应一个知识点或者对应多个知识点。当相似题组中包括多道第一待利用试题时，将知识点赋予所述新增试题时，相同的知识点仅赋予
一次。

[0082] 步骤S1022：当相似题组中最相似试题对应的相似度r在第二级别范围内时，将相似题组中的试题判定为第二待利用试题，将在第二待利用试题对应的所有知识点中出现次
数最多的知识点赋予新增试题，然后根据两个知识点同时出现的置信度，判断第二待利用
试题对应的剩余知识点中与出现次数最多的知识点最可能同时出现的p个知识点，将p个知
识点也赋予新增试题，p为正整数，且p≥1。

[0083] 第二级别范围为大于等于第一阈值，且小于第一级别范围的最小值。在一种实施例中，当第一阈值为0.3，第一级别范围为大于等于0.9，且小于等于1时，第二级别范围为大
于等于0.3，且小于0.9。

[0084] 在一种实施例中，经步骤S101中的计算后，相似题组中最相似试题对应的相似度r为0.8，则最相似试题对应的相似度r在第二级别范围内，将相似题组中的试题判定为第二
待利用试题，将在第二待利用试题对应的所有知识点中出现次数最多的知识点赋予新增试
题。其中，出现次数最多的知识点可以为一个知识点，也可以为两个或者多个知识点。比如
第二待利用试题对应的所有知识点为：圆的切线方程、圆与圆的位置关系及其判定、直线与
圆的位置关系、两点间的距离公式、点与直线的距离公式。经判断知识点“圆的切线方程”出
现的次数最多，则将知识点“圆的切线方程”赋予新增试题。然后判断剩余的其他知识点，
即：圆与圆的位置关系及其判定、直线与圆的位置关系、两点间的距离公式、点与直线的距
离公式，与“圆的切线方程”这一被选知识点之间的置信度，判断与“圆的切线方程”这一知
识点可能同时出现的知识点，经判断后“圆与圆的位置关系及其判定”为最可能同时出现的
知识点，则将“圆与圆的位置关系及其判定”也赋予新增试题。

[0085] 本发明中最相似试题为相似题组中相似度r最大的试题，第一级别范围的相似度大于第二级别范围的相似度。

[0086] 新增试题的相似题越多，则往往涉及较为重要的知识点。而且，这些新增试题，往往是涉及多个知识点。通常，涉及的知识点越多，试题就会越重要，也就越容易被推荐。因此
新增试题，如果重要，通常也更容易找到相似题，也就越容易通过本发明提供的自动标注的
方法赋予相关的知识点。

[0087] 可选的，在步骤S1022中利用的两个知识点同时出现的置信度的计算方法为：统计样本库中，两个知识点在同一道题中同时出现的次数q；根据次数q计算置信度D，其中，D＝
R*q，R正相关系数。采用本发明提供的方法时，R取值可以根据需求自己定义。通过样本库中
的大量数据的统计，两个知识点在同一道题中同时出现的次数越多，则两个知识点之间的
关联性越大，则两个知识点同时出现的置信度越高。

[0088] 可选的，步骤S102根据相似题组对新增试题进行知识点标注，还包括：当相似题组中最相似试题对应的相似度r在第二级别范围内，且相似题组中的相似题均各自对应一个
知识点时，将相似题组对应的所有知识点均赋予新增试题。相似题组中对应的知识点可能
重复，将知识点赋予所述新增试题时，相同的知识点仅赋予一次。

[0089] 在一种实施例中，步骤S102根据相似题组对新增试题进行知识点标注，还包括：

[0090] 当相似题组中最相似试题对应的相似度r在第一级别范围内时，根据相似度r由大到小对相似题进行排序，将最多前5道相似度r位于第一级别范围内的相似题判定为第一待
利用试题。也即当根据相似度r进行排序后，相似度r在第一级别范围内的试题少于5道，则
将所有的相似度r在第一级别范围对应的相似题均判定为第一待利用试题；当根据相似度r
进行排序后，相似度r在第一级别范围内的试题多于5道，则选取前5道相似题判定为第一待
利用试题。

[0091] 当相似题组中最相似试题对应的相似度r在第二级别范围内时，根据相似度r由大到小对相似题进行排序，将最多前5道相似题判定为第二待利用试题。也即当根据相似度r
进行排序后，相似度r在第二级别范围内的试题少于5道，则将所有的相似题均判定为第二
待利用试题；当根据相似度r进行排序后，相似度r在第二级别范围内的试题多于5道，则选
取前5道相似题判定为第二待利用试题。在后续计算知识点中出现次数时，也仅在最多5道
试题中计算，将出现次数最多的知识点赋予新增试题；在后续计算与出现次数最多的知识
点最可能同时出现的p个知识点时，也仅在此最多5道试题对应的知识点中进行判断。

[0092] 该实施方式中，在判定第一待利用试题或者第二待利用试题时最多判定5道相应的试题，能够进一步提升知识点标注的准确性，简化运算过程，提高知识点标注效率。

[0093] 在一种实施例中，步骤S101获取新增试题，遍寻样本库寻找与新增试题相似的相似题，得到相似题组，进一步包括：

[0094] 将样本库中试题按题型进行分类为子样本库，一个子样本库中仅包括一种题型的试题；

[0095] 获取新增试题，根据新增试题的题型，遍寻相应的子样本库寻找与新增试题相似的相似题，得到相似题组。

[0096] 该实施方式中，样本库按题型进行分类，获取新增试题后，根据试题类型来寻找相似题，后续相似度计算更加准确，且不需要遍寻所有的题型简化了相似度计算的过程，能够
有利于提升知识点标注的效率。

[0097] 基于同一发明构思，本发明还提供一种新增试题的知识点标注系统，其特征在于，图3为本发明实施例提供的新增试题的知识点标注系统框图，如图3所示，包括：相似题寻找
模块10、知识点标注模块20；其中，

[0098] 相似题寻找模块10，用于获取新增试题，并遍寻样本库寻找与新增试题相似的相似题，得到相似题组，样本库中的试题均为待判断试题，一道待判断试题对应n个知识点，n
为正整数，且n≥1，包括：重要关键字符确定模块101、加权编辑距离计算模块102、相似度计
算模块103、相似题组生成模块104；

[0099] 在一种实施方式中，将样本库中试题按题型进行分类为子样本库，一个子样本库中仅包括一种题型的试题；相似题寻找模块10，还用于获取新增试题，根据新增试题的题
型，遍寻相应的子样本库寻找与新增试题相似的相似题，得到相似题组。该实施方式中，样
本库按题型进行分类，获取新增试题后，根据试题类型来寻找相似题，后续相似度计算更加
准确，且不需要遍寻所有的题型简化了相似度计算的过程，能够有利于提升知识点标注的
效率。

[0100] 重要关键字符确定模块101，与加权编辑距离计算模块102相连接，用于确定新增试题的重要关键字符记为第一字符串，确定待判断试题的重要关键字符记为第二字符串，
并将第一字符串和第二字符串发送给加权编辑距离计算模块102，重要关键字符为新增、替
换或者修改后会改变试题含义或者类型的字符；

[0101] 可选的，本发明中采用词频‑逆文档频度模型构建重要关键字字符库；以同一科目的大量的试题为数据基础(比如为100万道题)，采用词频‑逆文档频度模型在大量的试题中
挑选出重要关键字，形成基本涵盖科目中所有知识点的重要关键字字符库；然后根据重要
关键字字符库确定新增试题中的第一字符串和待判断试题中的第二字符串。第一字符串和
第二字符串作为加权编辑距离的权重。以大量试题为基础，根据模型来挑选出重要关键字，
能够保证重要关键字选取的准确性，进而保证后续相似度计算的准确性。

[0102] 加权编辑距离计算模块102，与相似度计算模块103相连接，用于计算第一字符串和第二字符串之间的加权编辑距离，并将加权编辑距离发送给相似度计算模块，加权编辑
距离为第一字符串和第二字符串之间相互转化的最少的加权操作次数；

[0103] 可选的，加权编辑距离的操作包括：插入、删除、替换；其中，在计算加权操作次数时：删除记为一次操作，插入记为一次操作，替换记为两次操作。本发明采用的加权编辑距
离的权重为试题中的重要关键字，由于重要关键字的会影响试题含义或者类型，所以在计
算加权操作次数时，将替换记为两次操作，以增加替换重要关键字在操作次数中的影响，提
升后续相似度计算的准确性。

[0104] 相似度计算模块103，与相似题组生成模块104相连接，用于根据加权编辑距离计算新增试题与待判断试题之间的相似度r，并将相似度r的计算结果发送给相似题组生成模
块104；可选的，相似度r的计算公式为：

[0105] r＝(sum‑dist)/sum，其中，sum为第一字符串和第二字符串的长度总和，dist为加权编辑距离；

[0106] 相似题组生成模块104，用于接收相似度r的计算结果并判断，当相似度r大于等于第一阈值时，相似度r所对应的待判断试题为相似题，遍寻样本库得到相似题组，相似题组
包括m道相似题，m为正整数，且m≥1，并将相似题组的生成结果发送给知识点确定模块20；
可选的，第一阈值可以根据实际需求进行选择，第一阈值可以在0到1之间选取任意值。例如
可以为0.3、0.4或者0.5。比如当第一阈值为0.3时，则判断相似度r大于等于0.3对应的待判
断试题均为相似题。

[0107] 知识点标注模块20，用于根据相似题组对新增试题进行知识点标注；包括判断子模块201、标注子模块202；

[0108] 判断子模块201，与标注子模块202相连接，用于当判断相似题组中最相似试题对应的相似度r在第一级别范围内时，将位于第一级别范围内的相似度r对应的相似题判定为
第一待利用试题，并将第一待利用试题的判定结果发送给标注子模块202；可选的，当相似
题组中最相似试题对应的相似度r在第一级别范围内时，根据相似度r由大到小对相似题进
行排序，将最多前5道相似度r位于第一级别范围内的相似题判定为第一待利用试题。也即
当根据相似度r进行排序后，相似度r在第一级别范围内的试题少于5道，则将所有的相似度
r在第一级别范围对应的相似题均判定为第一待利用试题；当根据相似度r进行排序后，相
似度r在第一级别范围内的试题多于5道，则选取前5道相似题判定为第一待利用试题。

[0109] 标注子模块202，根据第一待利用试题的判定结果，将第一待利用试题对应的知识点赋予新增试题；可选的，每道第一待利用试题可以对应一个知识点或者对应多个知识点。
当相似题组中包括多道第一待利用试题时，将知识点赋予所述新增试题时，相同的知识点
仅赋予一次。

[0110] 判断子模块201，还用于当判断相似题组中最相似试题对应的相似度r在第二级别范围内时，将相似题组中的所有试题均判定为第二待利用试题，并将第二待利用试题的判
断结果发送给标注子模块202；可选的，根据相似度r由大到小对相似题进行排序，将最多前
5道相似题判定为第二待利用试题。也即当根据相似度r进行排序后，相似度r在第二级别范
围内的试题少于5道，则将所有的相似题均判定为第二待利用试题；当根据相似度r进行排
序后，相似度r在第二级别范围内的试题多于5道，则选取前5道相似题判定为第二待利用试
题。在后续计算知识点中出现次数时，也仅在最多5道试题中计算，将出现次数最多的知识
点赋予新增试题；在后续计算最相似的p个知识点时，也仅在此最多5道试题对应的知识点
中进行判断。

[0111] 标注子模块202，还用于根据第二待利用试题的判断结果将在第二待利用试题对应的所有知识点中出现次数最多的知识点赋予新增试题，并根据两个知识点同时出现的置
信度，判断第二待利用试题对应的剩余知识点中与出现次数最多的知识点最可能同时出现
的p个知识点，将p个知识点也赋予新增试题，p为正整数，且p≥1；其中，

[0112] 可选的，两个知识点同时出现的置信度的计算方法为：统计样本库中，两个知识点在同一道题中同时出现的次数q；根据次数q计算置信度D，其中，D＝R*q，R正相关系数，R取
值可以根据需求自己定义。通过样本库中的大量数据的统计，两个知识点在同一道题中同
时出现的次数越多，则两个知识点之间的关联性越大，则两个知识点同时出现的置信度越
高。

[0113] 最相似试题为相似题组中相似度r最大的试题，第一级别范围的相似度大于第二级别范围的相似度。

[0114] 可选的，判断子模块201，还用于判断相似题组中最相似试题对应的相似度r在第二级别范围内，且相似题组中的相似题均各自对应一个知识点时，将相似题组中的相似题
判定为第三待利用试题，并将第三待利用试题的判断结果发送给标注子模块202；标注子模
块202还用于根据第三待利用试题的判断结果，将第三待利用试题对应的知识点赋予新增
试题，也即将相似题组对应的所有知识点均赋予新增试题。相似题组中对应的知识点可能
重复，将知识点赋予新增试题时，相同的知识点仅赋予一次。

[0115] 通过上述实施例可知，本发明提供的新增试题的知识点标注方法及系统，至少实现了如下的有益效果：

[0116] (1)本发明基于计算新增试题与样本库中试题之间的相似度，根据相似题对应的知识点对新增试题的知识点进行标注，知识点标注过程不需要人工参与，能够提升知识点
标注的效率，节约时间和费用。

[0117] (2)基于重要关键字作为权重，计算新增试题与样本库中试题之间的重要关键字之间的加权编辑距离，从而确定新增试题与样本库中试题之间的相似度，来选择与新增试
题相似的试题，相似度越高考察相同知识点的可能性越高，本发明采用重要关键字作为权
重，相似度计算的准确度更高，从而能够提高知识点标注的准确性。

[0118] (3)在判定第一待利用试题或者第二待利用试题时最多判定5道相应的试题，能够进一步提升知识点标注的准确性，简化运算过程，提高知识点标注效率。

[0119] (4)样本库按题型进行分类，获取新增试题后，根据试题类型来寻找相似题，后续相似度计算更加准确，且不需要遍寻所有的题型简化了相似度计算的过程，能够有利于提
升知识点标注的效率。

[0120] 虽然已经通过例子对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上例子仅是为了进行说明，而不是为了限制本发明的范围。本领域的技
术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发
明的范围由所附权利要求来限定。

一种新增试题的知识点标注方法及系统转让专利

申请号 : CN201910681103.1

文献号 : CN110377802B

文献日 : 2021-07-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 谢楚鹏 , 李可佳 , 郭晨阳

申请人 : 江苏曲速教育科技有限公司

摘要 :

权利要求 :

说明书 :