一种新增试题的知识点标注方法及系统转让专利
申请号 : CN201910681103.1
文献号 : CN110377802B
文献日 : 2021-07-02
发明人 : 谢楚鹏 , 李可佳 , 郭晨阳
申请人 : 江苏曲速教育科技有限公司
摘要 :
权利要求 :
1.一种新增试题的知识点标注方法,其特征在于,包括:获取新增试题,遍寻样本库寻找与所述新增试题相似的相似题,得到相似题组,所述样本库中的试题均为待判断试题,一道所述待判断试题对应n个知识点,n为正整数,且n≥1,具体包括:
确定所述新增试题的重要关键字符记为第一字符串,确定所述待判断试题的重要关键字符记为第二字符串,所述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;
计算所述第一字符串和所述第二字符串之间的加权编辑距离,所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数;
根据所述加权编辑距离计算所述新增试题与所述待判断试题之间的相似度r;
当相似度r大于等于第一阈值时,相似度r所对应的所述待判断试题为所述相似题;
遍寻所述样本库得到所述相似题组,所述相似题组包括m道所述相似题,m为正整数,且m≥1;
根据所述相似题组对所述新增试题进行知识点标注,具体包括:当所述相似题组中最相似试题对应的相似度r在第一级别范围内时,将位于第一级别范围内的相似度r对应的所述相似题判定为第一待利用试题,将所述第一待利用试题对应的知识点赋予所述新增试题;
当所述相似题组中最相似试题对应的相似度r在第二级别范围内时,将所述相似题组中的试题判定为第二待利用试题,将在所述第二待利用试题对应的所有知识点中出现次数最多的知识点赋予所述新增试题,然后根据两个知识点同时出现的置信度,判断所述第二待利用试题对应的剩余知识点中与所述出现次数最多的知识点最可能同时出现的p个知识点,将所述p个知识点也赋予所述新增试题,p为正整数,且p≥1;其中,最相似试题为所述相似题组中相似度r最大的试题,所述第一级别范围的相似度大于第二级别范围的相似度。
2.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,相似度r的计算公式为:r=(sum‑dist)/sum,其中,sum为所述第一字符串和所述第二字符串的长度总和,dist为所述加权编辑距离。
3.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,所述两个知识点同时出现的置信度的计算方法为:统计所述样本库中,两个知识点在同一道题中同时出现的次数q;
根据所述次数q计算所述置信度D,其中,D=R*q,R正相关系数。
4.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,获取新增试题,遍寻样本库寻找与所述新增试题相似的相似题,得到相似题组,进一步包括:
将样本库中试题按题型进行分类为子样本库,一个所述子样本库中仅包括一种题型的试题;
获取新增试题,根据所述新增试题的题型,遍寻相应的所述子样本库寻找与所述新增试题相似的相似题,得到相似题组。
5.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,根据所述相似题组对所述新增试题进行知识点标注,还包括:当所述相似题组中最相似试题对应的相似度r在第二级别范围内,且所述相似题组中的所述相似题均各自对应一个知识点时,将所述相似题组对应的所有知识点均赋予所述新增试题。
6.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,根据所述相似题组对所述新增试题进行知识点标注,还包括:当所述相似题组中最相似试题对应的相似度r在第一级别范围内时,根据相似度r由大到小对所述相似题进行排序,将最多前5道相似度r位于第一级别范围内的所述相似题判定为所述第一待利用试题;
当所述相似题组中最相似试题对应的相似度r在第二级别范围内时,根据相似度r由大到小对所述相似题进行排序,将最多前5道所述相似题判定为所述第二待利用试题。
7.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,确定所述新增试题的重要关键字符记为第一字符串,确定待判断试题的重要关键字符记为第二字符串的步骤包括:
采用词频‑逆文档频度模型构建重要关键字字符库;
根据所述重要关键字字符库确定所述第一字符串和所述第二字符串。
8.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,所述样本库中试题的来源至少包括:例题、课后习题、模拟题、期中考试试题、期末考试试题、升学考试真题。
9.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,根据所述相似题组对所述新增试题进行知识点标注,进一步包括:将知识点赋予所述新增试题时,相同的知识点仅赋予一次。
10.一种新增试题的知识点标注系统,其特征在于,包括:相似题寻找模块、知识点标注模块;其中,
所述相似题寻找模块,用于获取新增试题,并遍寻样本库寻找与所述新增试题相似的相似题,得到相似题组,所述样本库中的试题均为待判断试题,一道所述待判断试题对应n个知识点,n为正整数,且n≥1,包括:重要关键字符确定模块、加权编辑距离计算模块、相似度计算模块、相似题组生成模块;
所述重要关键字符确定模块,与所述加权编辑距离计算模块相连接,用于确定所述新增试题的重要关键字符记为第一字符串,确定所述待判断试题的重要关键字符记为第二字符串,并将所述第一字符串和所述第二字符串发送给所述加权编辑距离计算模块,所述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;
所述加权编辑距离计算模块,与所述相似度计算模块相连接,用于计算所述第一字符串和所述第二字符串之间的加权编辑距离,并将所述加权编辑距离发送给所述相似度计算模块,所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数;
所述相似度计算模块,与所述相似题组生成模块相连接,用于根据所述加权编辑距离计算所述新增试题与所述待判断试题之间的相似度r,并将相似度r的计算结果发送给所述相似题组生成模块;
所述相似题组生成模块,用于接收相似度r的计算结果并判断,当相似度r大于等于第一阈值时,相似度r所对应的所述待判断试题为所述相似题,遍寻所述样本库得到所述相似题组,所述相似题组包括m道所述相似题,m为正整数,且m≥1,并将所述相似题组的生成结果发送给所述知识点确定模块;
所述知识点标注模块,用于根据所述相似题组对所述新增试题进行知识点标注;包括判断子模块、标注子模块;
所述判断子模块,与所述标注子模块相连接,用于当判断所述相似题组中最相似试题对应的相似度r在第一级别范围内时,将位于第一级别范围内的相似度r对应的所述相似题判定为第一待利用试题,并将所述第一待利用试题的判定结果发送给所述标注子模块;
所述标注子模块,根据所述第一待利用试题的判定结果,将所述第一待利用试题对应的知识点赋予所述新增试题;
所述判断子模块,还用于当判断所述相似题组中最相似试题对应的相似度r在第二级别范围内时,将所述相似题组中的试题判定为第二待利用试题,并将所述第二待利用试题的判断结果发送给所述标注子模块,所述标注子模块,还用于根据所述第二待利用试题的判断结果将在所述第二待利用试题对应的所有知识点中出现次数最多的知识点赋予所述新增试题,并根据两个知识点同时出现的置信度,判断所述第二待利用试题对应的剩余知识点中与所述出现次数最多的知识点最可能同时出现的p个知识点,将所述p个知识点也赋予所述新增试题,p为正整数,且p≥
1;其中,
最相似试题为所述相似题组中相似度r最大的试题,所述第一级别范围的相似度大于第二级别范围的相似度。
说明书 :
一种新增试题的知识点标注方法及系统
技术领域
背景技术
试题进行人工判断,来进行具体知识点的标注,从而达到较高的准确度。然而,采用人工标
注的方式效率低且费用成本高昂。
发明内容
≥1,具体包括:
者类型的字符;
对应的知识点赋予所述新增试题;
次数最多的知识点赋予所述新增试题,然后根据两个知识点同时出现的置信度,判断所述
第二待利用试题对应的剩余知识点中与所述出现次数最多的知识点最可能同时出现的p个
知识点,将所述p个知识点也赋予所述新增试题,p为正整数,且p≥1;其中,
各自对应一个知识点时,将所述相似题组对应的所有知识点均赋予所述新增试题。
判定为所述第一待利用试题;
应n个知识点,n为正整数,且n≥1,包括:重要关键字符确定模块、加权编辑距离计算模块、
相似度计算模块、相似题组生成模块;
二字符串,并将所述第一字符串和所述第二字符串发送给所述加权编辑距离计算模块,所
述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;
计算模块,所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的
加权操作次数;
所述相似题组生成模块;
相似题组,所述相似题组包括m道所述相似题,m为正整数,且m≥1,并将所述相似题组的生
成结果发送给所述知识点确定模块;
似题判定为第一待利用试题,并将所述第一待利用试题的判定结果发送给所述标注子模
块;
试题的判断结果发送给所述标注子模块,
同时出现的置信度,判断所述第二待利用试题对应的剩余知识点中与所述出现次数最多的
知识点最可能同时出现的p个知识点,将所述p个知识点也赋予所述新增试题,p为正整数,
且p≥1;其中,
标注的效率,节约时间和费用。
题相似的试题,相似度越高考察相同知识点的可能性越高,本发明采用重要关键字作为权
重,相似度计算的准确度更高,从而能够提高知识点标注的准确性。
升知识点标注的效率。
附图说明
具体实施方式
发明的范围。
考。比如例题和课后习题,通常只有一个知识点(即该小节的名称),题目也比较基础,直接
与课本中的文字内容相关,题目题干与课本文字内容的关键字重合程度比较高;模拟题和
期中、期末考试的题目,这些题目需要对单个学期所学的多个章节融会贯通,才能做对,所
以通常包含单个学期的多个知识点;高考题和中考题,这些题目需要对多个学期所学的多
个章节融会贯通,才能做对,所以通常包含多个学期的多个知识点,。
有章节的名称,因此使用每一个小节的章节名称来标注每一小节附录的例题和练习题的知
识点。其次,样本库收集了过去前几年(比如前10年或者前20年)各省历届高考、中考、小升
初等重要升学考试真题。这些真题已经有了大量的教学研究,有较为权威的知识点标注,也
包含准确的解析和答案,而且也有基于被试学生答题记录的试题难度和区分度数据。另外,
样本库还可以包括多个合作方的核心题库的高质量试题。在过去多年的长期积累过程中,
这些试题已经被有丰富教研经验的专家通过人工方式标注了知识点,而且在很多模拟考试
和多校联考中被很多学生考试过,有较多的答题数据,而且能够统计出难度值和区分度值。
特别少的情况。本发明可以按学科分类分别构建数学、物理、化学、生物、英语、语文、政治、
历史、和地理等学科的样本库。
类型的字符;
sin(x/4+π/3));令f(x)=( a+ b)^2,(1)求f(x)解析式及单调递增区间;(2)若x∈[‑π/6,5
π/6],求函数f(x)的最大值和最小值;(3)若f(x)=5/2,求sin(x‑π/6)的值。
重要关键字,在加权编辑距离中赋予更大的权重。
挑选出重要关键字,形成基本涵盖科目中所有知识点的重要关键字字符库;然后根据重要
关键字字符库确定新增试题中的第一字符串和待判断试题中的第二字符串。第一字符串和
第二字符串作为加权编辑距离的权重。以大量试题为基础,根据模型来挑选出重要关键字,
能够保证重要关键字选取的准确性,进而保证后续相似度计算的准确性。
离的权重为试题中的重要关键字,由于重要关键字的会影响试题含义或者类型,所以在计
算加权操作次数时,将替换记为两次操作,以增加替换重要关键字在操作次数中的影响,提
升后续相似度计算的准确性。
例如可以为0.3、0.4或者0.5。比如当第一阈值为0.3时,则判断相似度r大于等于0.3对应的
待判断试题均为相似题。
多道相似题。
应的知识点赋予新增试题;
一级别范围内,说明相似题组中包括与新增试题非常相似的试题,本发明通过重要关键字
的加权编辑距离,来计算得到的相似度,能够准确的反映新增试题与待判定试题之间的相
似度,相似度越高,则新增试题与待判定试题之间考察的知识点越接近或者即为考察相同
的知识点。通过将第一待利用试题对应的知识点赋予新增试题,能够实现对新增试题知识
点的准确标注。
一次。
数最多的知识点赋予新增试题,然后根据两个知识点同时出现的置信度,判断第二待利用
试题对应的剩余知识点中与出现次数最多的知识点最可能同时出现的p个知识点,将p个知
识点也赋予新增试题,p为正整数,且p≥1。
于等于0.3,且小于0.9。
待利用试题,将在第二待利用试题对应的所有知识点中出现次数最多的知识点赋予新增试
题。其中,出现次数最多的知识点可以为一个知识点,也可以为两个或者多个知识点。比如
第二待利用试题对应的所有知识点为:圆的切线方程、圆与圆的位置关系及其判定、直线与
圆的位置关系、两点间的距离公式、点与直线的距离公式。经判断知识点“圆的切线方程”出
现的次数最多,则将知识点“圆的切线方程”赋予新增试题。然后判断剩余的其他知识点,
即:圆与圆的位置关系及其判定、直线与圆的位置关系、两点间的距离公式、点与直线的距
离公式,与“圆的切线方程”这一被选知识点之间的置信度,判断与“圆的切线方程”这一知
识点可能同时出现的知识点,经判断后“圆与圆的位置关系及其判定”为最可能同时出现的
知识点,则将“圆与圆的位置关系及其判定”也赋予新增试题。
新增试题,如果重要,通常也更容易找到相似题,也就越容易通过本发明提供的自动标注的
方法赋予相关的知识点。
R*q,R正相关系数。采用本发明提供的方法时,R取值可以根据需求自己定义。通过样本库中
的大量数据的统计,两个知识点在同一道题中同时出现的次数越多,则两个知识点之间的
关联性越大,则两个知识点同时出现的置信度越高。
知识点时,将相似题组对应的所有知识点均赋予新增试题。相似题组中对应的知识点可能
重复,将知识点赋予所述新增试题时,相同的知识点仅赋予一次。
利用试题。也即当根据相似度r进行排序后,相似度r在第一级别范围内的试题少于5道,则
将所有的相似度r在第一级别范围对应的相似题均判定为第一待利用试题;当根据相似度r
进行排序后,相似度r在第一级别范围内的试题多于5道,则选取前5道相似题判定为第一待
利用试题。
进行排序后,相似度r在第二级别范围内的试题少于5道,则将所有的相似题均判定为第二
待利用试题;当根据相似度r进行排序后,相似度r在第二级别范围内的试题多于5道,则选
取前5道相似题判定为第二待利用试题。在后续计算知识点中出现次数时,也仅在最多5道
试题中计算,将出现次数最多的知识点赋予新增试题;在后续计算与出现次数最多的知识
点最可能同时出现的p个知识点时,也仅在此最多5道试题对应的知识点中进行判断。
有利于提升知识点标注的效率。
模块10、知识点标注模块20;其中,
为正整数,且n≥1,包括:重要关键字符确定模块101、加权编辑距离计算模块102、相似度计
算模块103、相似题组生成模块104;
型,遍寻相应的子样本库寻找与新增试题相似的相似题,得到相似题组。该实施方式中,样
本库按题型进行分类,获取新增试题后,根据试题类型来寻找相似题,后续相似度计算更加
准确,且不需要遍寻所有的题型简化了相似度计算的过程,能够有利于提升知识点标注的
效率。
并将第一字符串和第二字符串发送给加权编辑距离计算模块102,重要关键字符为新增、替
换或者修改后会改变试题含义或者类型的字符;
挑选出重要关键字,形成基本涵盖科目中所有知识点的重要关键字字符库;然后根据重要
关键字字符库确定新增试题中的第一字符串和待判断试题中的第二字符串。第一字符串和
第二字符串作为加权编辑距离的权重。以大量试题为基础,根据模型来挑选出重要关键字,
能够保证重要关键字选取的准确性,进而保证后续相似度计算的准确性。
距离为第一字符串和第二字符串之间相互转化的最少的加权操作次数;
离的权重为试题中的重要关键字,由于重要关键字的会影响试题含义或者类型,所以在计
算加权操作次数时,将替换记为两次操作,以增加替换重要关键字在操作次数中的影响,提
升后续相似度计算的准确性。
块104;可选的,相似度r的计算公式为:
包括m道相似题,m为正整数,且m≥1,并将相似题组的生成结果发送给知识点确定模块20;
可选的,第一阈值可以根据实际需求进行选择,第一阈值可以在0到1之间选取任意值。例如
可以为0.3、0.4或者0.5。比如当第一阈值为0.3时,则判断相似度r大于等于0.3对应的待判
断试题均为相似题。
第一待利用试题,并将第一待利用试题的判定结果发送给标注子模块202;可选的,当相似
题组中最相似试题对应的相似度r在第一级别范围内时,根据相似度r由大到小对相似题进
行排序,将最多前5道相似度r位于第一级别范围内的相似题判定为第一待利用试题。也即
当根据相似度r进行排序后,相似度r在第一级别范围内的试题少于5道,则将所有的相似度
r在第一级别范围对应的相似题均判定为第一待利用试题;当根据相似度r进行排序后,相
似度r在第一级别范围内的试题多于5道,则选取前5道相似题判定为第一待利用试题。
当相似题组中包括多道第一待利用试题时,将知识点赋予所述新增试题时,相同的知识点
仅赋予一次。
断结果发送给标注子模块202;可选的,根据相似度r由大到小对相似题进行排序,将最多前
5道相似题判定为第二待利用试题。也即当根据相似度r进行排序后,相似度r在第二级别范
围内的试题少于5道,则将所有的相似题均判定为第二待利用试题;当根据相似度r进行排
序后,相似度r在第二级别范围内的试题多于5道,则选取前5道相似题判定为第二待利用试
题。在后续计算知识点中出现次数时,也仅在最多5道试题中计算,将出现次数最多的知识
点赋予新增试题;在后续计算最相似的p个知识点时,也仅在此最多5道试题对应的知识点
中进行判断。
信度,判断第二待利用试题对应的剩余知识点中与出现次数最多的知识点最可能同时出现
的p个知识点,将p个知识点也赋予新增试题,p为正整数,且p≥1;其中,
值可以根据需求自己定义。通过样本库中的大量数据的统计,两个知识点在同一道题中同
时出现的次数越多,则两个知识点之间的关联性越大,则两个知识点同时出现的置信度越
高。
判定为第三待利用试题,并将第三待利用试题的判断结果发送给标注子模块202;标注子模
块202还用于根据第三待利用试题的判断结果,将第三待利用试题对应的知识点赋予新增
试题,也即将相似题组对应的所有知识点均赋予新增试题。相似题组中对应的知识点可能
重复,将知识点赋予新增试题时,相同的知识点仅赋予一次。
标注的效率,节约时间和费用。
题相似的试题,相似度越高考察相同知识点的可能性越高,本发明采用重要关键字作为权
重,相似度计算的准确度更高,从而能够提高知识点标注的准确性。
升知识点标注的效率。
术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发
明的范围由所附权利要求来限定。