题目类型识别方法、系统和存储介质转让专利
申请号 : CN202111416552.7
文献号 : CN113837157B
文献日 : 2022-02-15
发明人 : 刘军 , 秦勇
申请人 : 北京世纪好未来教育科技有限公司
摘要 :
权利要求 :
1.一种题目类型识别方法,其特征在于,包括:使用第一分类卷积神经网络处理题目图像,以提取所述题目图像的第一中间特征映射和生成第一分类输出,其中,所述第一分类输出定义题目所属大类的预测,所述题目属于至少两个大类中的一个大类,所述至少两个大类中的每个大类包括一个或多个小类;
使用文本识别神经网络的卷积神经网络处理所述题目图像,以提取所述题目图像的第二中间特征映射;
将所述第二中间特征映射与所述第一分类输出进行特征融合,以生成第一输出特征映射;
将所述第一中间特征映射与所述第一输出特征映射进行特征融合,以生成融合特征映射;
使用第二分类卷积神经网络处理所述融合特征映射,以生成所述题目图像的第二分类输出,其中,所述第二分类输出定义所述题目所属小类的预测;
其中,将所述第二中间特征映射与所述第一分类输出进行特征融合,以生成第一输出特征映射,包括:根据张量的广播机制,将所述第一分类输出与所述第二中间特征映射相乘,得到第一输出特征映射。
2.根据权利要求1所述的题目类型识别方法,其特征在于,将所述第一中间特征映射与所述第一输出特征映射进行特征融合,以生成融合特征映射,包括:将所述第一中间特征映射与所述第一分类输出之前的全连接层输出进行特征融合,以生成第二输出特征映射;
将所述第二输出特征映射与所述第一输出特征映射进行特征融合,以生成融合特征映射。
3.根据权利要求1所述的题目类型识别方法,其特征在于,所述第二分类卷积神经网络,包括:序列到序列神经网络和时序分类神经网络,其中,使用第二分类卷积神经网络处理所述融合特征映射,以生成所述题目图像的第二分类输出,包括:
使用所述序列到序列神经网络处理所述融合特征映射,以生成时序分类神经网络输入,其中,所述时序分类神经网络输入包括与所述时序分类神经网络的时间步对应数量的特征向量;
使用所述时序分类神经网络处理所述时序分类神经网络输入,以生成所述题目图像的第二分类输出。
4.根据权利要求3所述的题目类型识别方法,其特征在于,所述序列到序列神经网络,包括:基于注意力的编码器网络、一个或多个全连接层和基于注意力的解码器网络;所述时序分类神经网络包括LSTM网络;
其中,使用所述序列到序列神经网络处理所述融合特征映射,以生成时序分类神经网络输入,包括:使用所述编码器网络处理所述融合特征映射,以生成编码器网络输出;使用所述全连接层处理所述编码器网络输出,以生成编码器网络输入;使用所述编码器网络处理所述编码器网络输入,以生成LSTM网络输入,其中,所述LSTM网络输入为与所述LSTM网络的时间步对应数量的特征向量;
其中,使用所述时序分类神经网络处理所述时序分类神经网络输入,以生成所述题目图像的第二分类输出,包括:使用所述LSTM网络处理所述LSTM网络输入,以生成所述题目图像的第二分类输出。
5.根据权利要求2所述的题目类型识别方法,其特征在于,将所述第一中间特征映射与所述第一分类输出之前的全连接层输出进行特征融合,以生成第二输出特征映射,包括:根据张量的广播机制,将所述第一分类输出之前的全连接层输出与所述第一中间特征映射相乘,得到第二输出特征映射。
6.根据权利要求1所述的题目类型识别方法,其特征在于,将所述第一中间特征映射与所述第一输出特征映射进行特征融合,以生成融合特征映射,包括:将所述第一中间特征映射与所述第一输出特征映射串联或相加,得到融合特征映射。
7.根据权利要求1至5中任一项所述的题目类型识别方法,其特征在于,所述第一分类卷积神经网络和所述文本识别神经网络的卷积神经网络各自包括至少一个残差块和至少一个卷积层。
8.根据权利要求1至5中任一项所述的题目类型识别方法,其特征在于,所述第一分类卷积神经网络包括至少一个残差块、至少一个卷积层和多个全连接层。
9.根据权利要求1至5中任一项所述的题目类型识别方法,其特征在于,所述文本识别神经网络包括:卷积神经网络、循环神经网络和翻译层。
10.一种题目类型识别神经网络的训练方法,其特征在于,所述题目类型识别神经网络包括:第一分类卷积神经网络、文本识别神经网络的卷积神经网络,以及第二分类卷积神经网络,所述训练方法包括:
使用第一数据集合训练所述第一分类卷积神经网络,以生成所述第一分类卷积神经网络的参数,其中,所述第一数据集合中各个数据包括第一样本题目图像,所述第一样本题目图像标注有相应题目的大类,其中,题目被分为至少两个大类,所述至少两个大类中的每个大类包括一个或多个小类;
使用第二数据集合训练所述文本识别神经网络,以生成所述文本识别神经网络的卷积神经网络的参数,其中,所述第二数据集合中各个数据包括第二样本题目图像,所述第二样本题目图像标注有相应题目的文本;
使用第三数据集合训练所述题目类型识别神经网络,以生成所述第二分类卷积神经网络的参数,所述第三数据集合中各个数据包括第三样本题目图像,所述第三样本题目图像标注有相应题目的小类;
其中,在训练所述题目类型识别神经网络时,使用训练得到的所述第一分类卷积神经网络处理相应的第三样本题目图像,以提取所述第三样本题目图像的生成第一中间特征映射和生成第一分类输出,其中,所述第一分类输出定义题目所属大类的预测;使用训练得到的所述文本识别神经网络的卷积神经网络处理所述第三样本题目图像,以提取所述第三样本题目图像的第二中间特征映射;将所述第二中间特征映射与所述第一分类输出进行特征融合,以生成第一输出特征映射;将所述第一中间特征映射与所述第一输出特征映射进行特征融合,以生成融合特征映射;将所述融合特征映射作为所述第二分类卷积神经网络的输入,以由所述第二分类卷积神经网络生成所述第三样本题目图像的第二分类输出,其中,所述第二分类输出定义题目所属小类的预测;
其中,将所述第二中间特征映射与所述第一分类输出进行特征融合,以生成第一输出特征映射,包括:根据张量的广播机制,将所述第一分类输出与所述第二中间特征映射相乘,得到第一输出特征映射。
11.根据权利要求10所述的训练方法,其特征在于,将所述第一中间特征映射与所述第一输出特征映射进行特征融合,以生成融合特征映射,包括:将所述第一中间特征映射与所述第一分类输出之前的全连接层输出进行特征融合,以生成第二输出特征映射;
将所述第二输出特征映射与所述第一输出特征映射进行特征融合,以生成融合特征映射。
12.根据权利要求10所述的训练方法,其特征在于,所述第二分类卷积神经网络,包括:序列到序列神经网络和时序分类神经网络,其中,由所述第二分类卷积神经网络输出所述第三样本题目图像的第二分类输出,包括:
由所述序列到序列神经网络处理所述融合特征映射,以生成时序分类神经网络输入,其中,所述时序分类神经网络输入包括与所述时序分类神经网络的时间步对应数量的特征向量;
由所述时序分类神经网络处理所述时序分类神经网络输入,以生成所述第三样本题目图像的第二分类输出。
13.根据权利要求12所述的训练方法,其特征在于,所述序列到序列神经网络,包括:基于注意力的编码器网络、全连接层和基于注意力的解码器网络;所述时序分类神经网络包括LSTM网络;
其中,由所述序列到序列神经网络处理所述融合特征映射,以生成时序分类神经网络输入,包括:由所述编码器网络处理所述融合特征映射,以生成编码器网络输出;由所述全连接层处理所述编码器网络输出,以生成编码器网络输入;由所述编码器网络处理所述编码器网络输入,以生成LSTM网络输入,其中,所述LSTM网络输入为与所述LSTM网络的时间步对应数量的特征向量;
其中,由所述时序分类神经网络处理所述时序分类神经网络输入,以生成所述第三样本题目图像的第二分类输出,包括:由所述LSTM网络处理所述LSTM网络输入,以生成所述第三样本题目图像的第二分类输出。
14.根据权利要求11所述的训练方法,其特征在于,将所述第一中间特征映射与所述第一分类输出之前的全连接层输出进行特征融合,以生成第二输出特征映射,包括:根据张量的广播机制,将所述第一分类输出之前的全连接层输出与所述第一中间特征映射相乘,得到第二输出特征映射。
15.根据权利要求11所述的训练方法,其特征在于,将所述第一中间特征映射与所述第一输出特征映射进行特征融合,以生成融合特征映射,包括:将所述第一中间特征映射与所述第一输出特征映射串联或相加,得到融合特征映射。
16.一种计算系统,其特征在于,包括:数据处理装置;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述数据处理装置执行时使所述数据处理装置执行根据权利要求1‑15中任一项所述的方法。
17.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1‑15中任一项所述的方法。
说明书 :
题目类型识别方法、系统和存储介质
技术领域
背景技术
字、字母及汉字等)。
发明内容
一分类输出定义题目所属大类的预测,题目属于至少两个大类中的一个大类,至少两个大
类中的每个大类包括一个或多个小类;使用文本识别神经网络的卷积神经网络处理上述题
目图像,以提取题目图像的第二中间特征映射;将第二中间特征映射与第一分类输出进行
特征融合,以生成第一输出特征映射;将第一中间特征映射与第一输出特征映射进行特征
融合,以生成融合特征映射;使用第二分类卷积神经网络处理上述融合特征映射,以生成上
述题目图像的第二分类输出,其中,第二分类输出定义题目所属小类的预测。
二分类卷积神经网络,该训练方法包括:使用第一数据集合训练第一分类卷积神经网络,以
生成第一分类卷积神经网络的参数,其中,第一数据集合中各个数据包括第一样本题目图
像,第一样本题目图像标注有相应题目的大类,其中,题目被分为至少两个大类,至少两个
大类中的每个大类包括一个或多个小类;使用第二数据集合训练文本识别神经网络,以生
成文本识别神经网络的卷积神经网络的参数,其中,第二数据集合中各个数据包括第二样
本题目图像,第二样本题目图像标注有相应题目的文本;使用第三数据集合训练上述神经
网络,以生成第二分类卷积神经网络的参数,第三数据集合中各个数据包括第三样本题目
图像,第三样本题目图像标注有相应题目的小类。
生成第一分类输出,其中,第一分类输出定义题目所属大类的预测;使用训练得到的文本识
别神经网络的卷积神经网络处理第三样本题目图像,以提取第三样本题目图像的第二中间
特征映射;将第二中间特征映射与第一分类输出进行特征融合,以生成第一输出特征映射;
将第一中间特征映射与第一输出特征映射进行特征融合,以生成融合特征映射;将融合特
征映射作为第二分类卷积神经网络的输入,以由第二分类卷积神经网络生成第三样本题目
图像的第二分类输出,其中,第二分类输出定义题目所属小类的预测。
开提供的题目类型识别方法或题目类型识别神经网络的训练方法。
别神经网络的训练方法。
行特征融合,融合后的特征再与大类识别相应的特征进行融合,基于融合后的特征进行小
类分类,可以较为准确地识别出题目类型。
附图说明
具体实施方式
里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的
是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
开的范围在此方面不受限制。
“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定
义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的
装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者
相互依存关系。
这些题型非常常见,对这些题目的处理能拓展题目自动化处理的应用范围。识别题目类型
至少有助于题目自动化处理,包括但不限于题目批改、题目答案搜索等。
题目图像的第一中间特征映射和定义了题目所属大类的预测的第一分类输出,第一中间特
征映射与题目类型相关。使用文本识别神经网络的卷积神经网络处理该题目图像,以提取
第二中间特征映射,第二中间特征映射与相应题目的文本信息相关。将第一分类输出与第
二中间特征映射进行特征融合,以生成第一输出特征映射。将第一输出特征映射与第一中
间特征映射进行特征融合,以生成融合特征映射。将融合特征映射作为第二分类卷积神经
网络的输入,第二分类卷积神经网络处理该融合特征映射,以生成定义了题目所属小类的
预测的输出。
示例。
幕截图。通常,照片或屏幕截图包括一个或多个题目,在照片或屏幕截图中包括多个题目的
情况下,可定位照片或屏幕截图中包括的各个题目,可通过剪裁等方式从照片或屏幕截图
中获得各个题目相应的题目图像101。照片或屏幕截图可包括题目和与题目无关的部分,可
定位照片或屏幕截图包括的题目,可通过剪裁等方式从照片或屏幕截图中获得题目相应的
题目图像101。在一些示例中,题目图像101包括题目,例如,选择题包括题干部分和多个候
选项部分。在一些示例中,题目图像101包括题目和题目的解答,例如,选择题包括题干部
分、多个候选项和答案部分。通常,题目为打印体,题目的解答为手写符号或字体,例如,连
线题包括题干部分,题干部分通常为两列,其中一列的元素与另一列的元素具有特定关联
关系,题目解答部分可包括两个元素之间的连接线。题目图像101可包括字符(例如汉字、单
词、字母、标点符号等),还可包括图形符号(例如,三角形等几何图形,表示动物、植物、生活
用品等的图形(例如简笔画))。
的题目,示例性的,题目的类型可包括:计算题(可细分为横式、竖式和脱式等)、选择题、填
空题、判断题、应用题、画图题、连线题等。在本公开实施例中,为了有效识别题目类型,可将
前述题目类型划分为至少两个大类,至少两个大类中的每个大类包括一个或多个小类,小
类的数量大于大类的数量。示例性的,前述示例性小类可被分为第一大类(可包括计算题、
选择题、填空题、判断题、应用题)和第二大类(可包括画图题、连线题)。在本公开实施例中,
可根据题目特征对题目进行大类的划分。题目特征可包括是否包含图形信息、图形信息的
数量,以及题目结构信息等。
配置为将第一分类卷积神经网络103提取的特征映射和分类输出与文本识别神经网络104
的卷积神经网络1041提取的特征映射进行特征融合,以生成融合特征映射,该融合特征映
射基于大类识别与文本识别的融合。第二分类卷积神经网络106被配置为以该融合特征映
射为输入,基于该融合特征映射生成第二分类输出1022,得到题目所属小类的预测(例如,
概率)。
少两个大类中的一个大类。第一分类卷积神经网络103可采用各种类型的卷积神经网络,这
些卷积神经网络被配置为以图像为输入,处理该图像以生成定义了图像所属类别(至少两
个类别)的预测的输出。通常,卷积神经网络通过串联的多个卷积层处理图像,串联的多个
卷积层中每个卷积层的输出包括与其通道数量相应的特征映射,例如,128个32*32的特征
映射,其中,128为通道数,32*32为各个特征映射的尺度,特征映射可被表示为三维矩阵,三
维矩阵的一个维度与通道数对应,另外两个维度与特征映射的尺度对应。示例性的,卷积神
经网络通过一个或串联的多个全连接层处理串联的多个卷积层中末端的卷积层的输出,可
将串联的多个全连接层中末端的全连接层的输出作为分类输出。
1021中提取的特征映射与大类分类相关,可将第一分类卷积神经网络103提取的特征映射
作为融合模块105的输入,即第一中间特征映射1071。融合模块105被配置为对第一中间特
征映射1071进行特征融合。
1031b;至少一个卷积层,图2示出了卷积层1032a和1032b;多个全连接层,图2示出了全连接
层1034a和1034b。残差块为Resnet中的结构,残差块的主要特点是跨层跳跃连接,一个残差
块包括多个卷积层,其输入经过残差块之后的输出与输入进行一次逐通道逐点相加操作,
相当于输入有两个分支,一个经过残差块,一个直接绕过残差块,最后两个分支合并,可避
免当网络层数加深以后出现性能退化的问题,从而使得网络可以增加层数进行更加复杂的
特征模式提取。示例性的,第一分类卷积神经网络103的至少一个残差块、至少一个卷积层
中每个部分可输出特征映射,该特征映射是在大类识别中提取的,因此该特征映射与大类
识别相关,可将残差块1031a、1031b和卷积层1032a、1032b中一个输出作为第一中间特征映
射1071。
提取题目图像的特征映射。由于文本识别神经网络104被配置为题目图像101以生成前述题
目文本的输出,因此其卷积神经网络1041提取的特征映射与文本识别相关,可使用卷积神
经网络1041提取的特征映射作为融合模块105的输入,即第二中间特征映射1072。卷积神经
网络1041被配置为输出包括多个通道的特征映射,例如,128个32*32的特征映射,其中,128
为通道数,32*32为各个特征映射的尺度,特征映射可被表示为三维矩阵,三维矩阵的一个
维度与通道数对应,另外两个维度与特征映射的尺度对应。
理题目图像101以生成前述第二分类输出1022时,可使用文本识别神经网络104的卷积神经
网络1041提取第二中间特征映射1072。通常,文本识别神经网络104可采用处理图像以识别
图像中文本的各种神经网络,例如卷积循环神经网络(Convolutional Recurrent Neural
Network,CRNN),CRNN包括卷积神经网络、循环神经网络和翻译层,卷积神经网络被配置为
从带文字的图片中提取特征,循环神经网络被配置为用卷积神经网络提取的特征进行序列
预测,翻译层被配置为将循环神经网络得到的序列翻译为文本序列。CRNN尽管包含不同类
型的网络结构,但是仍然能够被端到端的训练,目前在各种数据集上,CRNN性能优越。示例
性的,CRNN的目标函数可选择联结时序分类(Connectionist Temporal Classification,
CTC)损失函数,循环神经网络可采用双层双向长短期记忆(Long short‑term memory,
LSTM)网络。
1043。卷积神经网络1041被配置为以题目图像101为输入,处理题目图像101以提取前述第
二中间特征映射1072(参考图2所示),例如,128个32*32的特征映射。两层双向LSTM网络
1042被配置为以卷积神经网络1041的输出为输入,其中,该输入被表示为与两层双向LSTM
网络1042的时间步相应的特征向量,例如,时间步可设置为8,128个32*32的特征映射被表
示为16个特征向量。两层双向LSTM网络1042处理该输入进行序列预测。翻译层1043被配置
为将两层双向LSTM网络1042得到的序列翻译为文本序列。
卷积层10412a和10412b。可将卷积神经网络1041的卷积层10412b的输出作为融合模块105
的输入,即前述的第二中间特征映射1072。示例性的,第二中间特征映射1072与第一中间特
征映射1071的个数和尺度可相同,例如,两者各自包括128个32*32的特征映射,但不限于
此,例如,两者可为不同尺度,可将两者缩放为相同尺度,然后进行特征融合。
特征映射1072进行特征融合,以生成融合特征映射108。
1071与第一输出特征映射1081进行特征融合,以生成融合特征108。由于第二中间特征映射
1072与文本识别相关,第一分类输出1021定义了题目所属大类的预测,两者融合得到的第
一输出特征映射1081综合了大类分类的预测和文本识别相关的信息。由于第一中间特征映
射1071与大类分类相关,第一输出特征映射1081与第一中间特征映射1071融合得到的融合
特征映射108综合了大类分类的信息、大类分类的预测及文本识别相关的信息。
1071与第一分类卷积神经网络103中第一分类输出1021之前的全连接层的全连接层输出
1073(例如,如图2所示的全连接层1034a的输出)进行特征融合,以生成第二输出特征映射
1082;将第一输出特征映射1081与第二输出特征映射1082进行特征融合,以生成融合特征
108。由于第一分类卷积神经网络103中第一分类输出1021之前的全连接层的全连接层输出
1073,综合了题目图像101的全局信息,因此将其与第一中间特征映射1071进行特征融合,
得到的第二输出特征映射1082综合了题目图像101的全局信息,有助于提高识别精度。
二中间特征映射1072相同大小的二维向量,以进行相应的特征融合。例如,第一中间特征映
射1071的每个特征映射为32*32,前述全连接层输出1073为32个元素的一维向量,可将全连
接层的全连接层输出1073处理成32*32的二维向量;第二中间特征映射1072的每个特征映
射为32*32,前述第一分类输出1021为2个元素的一维向量(例如,两个大类各自的概率),可
将第一分类输出1021处理为32*32的二维向量。融合模块105可被配置为根据张量的广播机
制进行前述处理,但不限于此。
逐通道为,将该二维向量与每个特征映射(即每个通道的二维向量)相乘,逐点为两二维向
量对应位置的元素之间相乘。但本公开实施例并不限于此,例如在特征融合中引入随机性
等也是可行的。
相乘,逐通道为,将该二维向量与每个特征映射(即每个通道的二维向量)相乘,逐点为两二
维向量对应位置的元素之间相乘。但本公开实施例并不限于此,例如在特征融合中引入随
机性等也是可行的。
第二输出特征映射1082串联或相加,得到融合特征映射108。其中,相加不改变特征映射的
通道数(个数),串联改变特征映射的通道数(个数)。
网络106的第二分类输出1022可包括与小类的数量相应的元素,例如,小类的数量为10,第
二分类输出1022的元素数量为10,可分别对应于相应小类的概率,但不限于此。第二分类卷
积神经网络106可采用各种类型的神经网络,例如CNN、RNN等。
征映射108,以生成时序分类神经网络输入,其中,时序分类神经网络输入包括与时序分类
神经网络1062的时间步对应数量的特征向量。时序分类神经网络1062被配置为处理时序分
类神经网络输入,以生成题目图像101的第二分类输出1022。
器网络10613。时序分类神经网络1062包括LSTM网络。其中,编码器网络10611被配置为处理
融合特征映射108,以生成编码器网络输出,编码器网络10611的结构可参见Transformer神
经网络。全连接层10612被配置为处理编码器网络输出,以生成编码器网络输入。解码器网
络10613被配置为处理编码器网络输入,以生成LSTM网络输入,解码器网络10613的结构可
参见Transformer神经网络。其中,LSTM网络输入为与LSTM网络的时间步对应数量的特征向
量。LSTM网络被配置为处理LSTM网络输入,以生成题目图像101的第二分类输出1022。
数量是一个超参数。在本文中,可使用6个编码器和6个解码器,但不限于此。在本文中,解码
器网络10613的解码器中多头自注意力层可不添加mask掩膜。
全连接层10612输出的特征向量,得到与LSTM网络的时间步对应数量的特征向量,例如,
LSTM网络的时间步为20,解码器网络10613的输出可为20*100的矩阵。时序分类神经网络
1062(LSTM网络)可为单向LSTM网络,其输入包括可20个时间步,每一次输入为一个100维的
向量,输出为第二分类输出1022。
征融合模块105和第二分类卷积神经网络106为整体,基于训练得到的第一分类卷积神经网
络103和文本识别神经网络104训练第二分类卷积神经网络106,得到第二分类卷积神经网
络106的参数。在一些示例中,特征融合模块105为非神经网络,在另一些示例中,特征融合
模块105可为神经网络。
识别神经网络的卷积神经网络以及第二分类卷积神经网络作为整体称为题目类型识别神
经网络。
或多个小类,小类的数量大于大类的数量。
步骤S701可同步执行。
分类输出定义题目所属大类的预测。使用训练得到的文本识别神经网络的卷积神经网络处
理第三样本题目图像,以提取第三样本题目图像的第二中间特征映射。
融合特征映射。将融合特征映射作为第二分类卷积神经网络的输入,以由第二分类卷积神
经网络生成第三样本题目图像的第二分类输出,其中,第二分类输出定义题目所属小类的
预测。
输出进行特征融合,以生成第二输出特征映射;将第二输出特征映射与第一输出特征映射
进行特征融合,以生成融合特征映射。
到第一输出特征映射。
连接层输出与第一中间特征映射相乘,得到第二输出特征映射。
映射。在一些示例中,将第一输出特征映射与第二输出特征映射进行特征融合,以生成融合
特征映射,包括:将第一输出特征映射与第二输出特征映射串联或相加,得到融合特征映
射。
工标注,按照指定方式标注其类别,得到步骤S703中的第三数据集合。将第三数据集合中的
选择题、判断题、填空题和应用题等具有较多文字(打印体文字)信息的题目图像中的文字
信息转录(转写)成字符串,得到步骤S702中的第二数据集合。根据第三数据集合,将含有较
多图形信息和结构特殊的题型,如连线题和作图题(即,题目分类两个大类,为连线题或作
图题,不是连线题和作图题)复制一份,得到步骤S701中的第一数据集合。
的数量。
第二输出特征映射更为丰富,有助于提高预测精度。
积层中每个部分可输出特征映射,该特征映射是在大类识别中提取的,因此该特征映射与
大类识别相关,可将残差块或卷积层中一个输出作为步骤S801和步骤S901中的第一中间特
征映射。例如,参考图2所示,第一个残差块的特征映射大小为题目图像的1/4,第二残差块
的特征映射为题目图像的1/8,第一个卷积块的特征映射为题目图像的1/16,第二个卷积块
的特征映射为题目图像的1/32。示例性的,残差块和卷积层的通道数可为128,在题目图像
为256*256的情况下,步骤S801或步骤S901中以第二个卷积层的输出作为第一中间特征映
射,第一中间特征映射可为128*16*16,也就是128个16*16的特征映射。步骤S801或步骤
S901中,如果以第一个卷积层的输出作为第一中间特征映射,第一中间特征映射可为128*
32*32,也就是128个32*32的特征映射。
成文本识别神经网络的卷积神经网络的参数。在处理题目图像以生成第二分类输出时,步
骤S802或步骤S902中,可使用文本识别神经网络的卷积神经网络提取第二中间特征映射。
在一些示例中,文本识别神经网络的卷积神经网络可包括至少一个残差块和至少一个卷积
层,可选地,与第一分类卷积神经网络的特征提取部分结构相同。相应的,在步骤S802或步
骤S902中,将文本识别神经网络的卷积神经网络中第二个卷积层的输出作为第二中间特征
映射,示例性的,第二中间特征映射可为128*16*16,也就是128个16*16的特征映射。
出与第二中间特征映射相乘,得到第一输出特征映射。可选地,进行逐点逐通道相乘。
加,得到融合特征映射。可选地,在步骤S804中,可以逐点逐通道方式将第一中间特征映射
与第一输出特征映射相加,得到融合特征映射。
分类输出之前的全连接层输出与第一中间特征映射相乘,得到第二输出特征映射。可选地,
进行逐点逐通道相乘。
加,得到融合特征映射。可选地,在步骤S905中,可以逐点逐通道方式将第一输出特征映射
与第二输出特征映射相加,得到融合特征映射。
征映射,以生成题目图像的第二分类输出,包括:使用序列到序列神经网络处理融合特征映
射,以生成时序分类神经网络输入,其中,时序分类神经网络输入包括与所述时序分类神经
网络的时间步对应数量的特征向量。进一步的,使用时序分类神经网络处理时序分类神经
网络输入,以生成题目图像的第二分类输出。
中,在步骤S805或步骤S906中,使用序列到序列神经网络处理融合特征映射,以生成时序分
类神经网络输入,包括:使用上述编码器网络处理融合特征映射,以生成编码器网络输出;
使用全连接层处理编码器网络输出,以生成编码器网络输入;使用编码器网络处理编码器
网络输入,以生成LSTM网络输入,其中,LSTM网络输入为与LSTM网络的时间步对应数量的特
征向量。进一步的,使用时序分类神经网络处理时序分类神经网络输入,以生成题目图像的
第二分类输出,包括:使用LSTM网络处理LSTM网络输入,以生成题目图像的第二分类输出。
得到的第二中间特征映射为128*32*32,也就是128个32*32的特征映射。相应的,步骤S804
或步骤S905得到的融合特征映射可为128*32*32,也就是128个32*32的特征映射。在步骤
S805或步骤S906中,通过基于注意力的编码器网络处理融合特征映射(128个32*32的特征
映射);通过全连接层处理编码器网络的输出,得到多个由512(全连接层的神经元的数量)
个元素组成的特征向量;通过解码器网络处理全连接层输出的多个特征向量,得到20*100
的矩阵(20为LSTM网络的时间步);通过LSTM网络处理该矩阵,输出题目所属小类的预测(例
如,概率)。
开对此不作限定。以如图10所示的实施环境示意图为例,该实施环境中可以由终端和服务
器构成,终端可以和服务器进行通信。
本电脑、智能穿戴设备等,本实施例对此不作限定。
如笔迹图像、用户笔迹字典等;处理服务器可以用于执行应用程序的相应处理,例如题目类
型识别方法的相关处理。处理服务器可以与存储服务器进行数据交互。当然,存储与处理都
可以由一个服务器完成,本公开实施例以由一个服务器实现为例。
测模型。版面分析模型是一种文本检测模型,可检测到文本区域坐标。文本行检测模型可检
测横向文本行,得到文本行的文本框。根据版面分析模型和文本行检测模型的检测结果进
行版面分析,对框进行合并,同时根据每种题型的特点,分析得到每个题是由那些框组成
的,然后根据框的坐标在原图上进行裁剪,得到题目图像。
降低搜索空间,提高搜索速度。
降低搜索空间,提高搜索速度。
如,对于选择题,判断识别到的选项是否为搜索到的选项,如果是,可确定解答正确,如果
否,可确认解答错误。
述。
程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公
开实施例的方法。
实施例的方法。
字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀
片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装
置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所
示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述
的和/或者要求的本公开的实现。
算机程序,来执行各种适当的动作和处理。在RAM 1303中,还可存储设备1300操作所需的各
种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出
(I/O)接口1305也连接至总线1304。
的任何类型的设备,输入单元1306可以接收输入的数字或字符信息,以及产生与电子设备
的用户设置和/或功能控制有关的键信号输入。输出单元1307可以是能呈现信息的任何类
型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印
机。存储单元1304可以包括但不限于磁盘、光盘。通信单元1309允许电子设备1300通过诸如
因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限
于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi
设备、WiMax设备、蜂窝通信设备和/或类似物。
人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、
以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和
处理。例如,在一些实施例中,题目类型识别方法可被实现为计算机软件程序,其被有形地
包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可
以经由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。在一些实施例
中,计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行题目
类型识别方法。
理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM
或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。
器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
(LAN)、广域网(WAN)和互联网。
算机程序来产生客户端和服务器的关系。