文本选择方法及装置转让专利

申请号 : CN202110841130.8

文献号 : CN113282738B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 岳祥丁文彪刘霄

申请人 : 北京世纪好未来教育科技有限公司

摘要 :

本公开提供一种文本选择方法及装置,属于自然语言领域。所述方法包括:将待处理的题干文本划分为多个待处理的题干子文本;基于文本确定模型,对每个待处理的题干子文本和每个待处理的题干子文本对应的问题文本进行处理,确定满足选择条件的至少一个目标子文本;其中,文本确定模型的训练方法包括:将多个第一题干文本划分为多个第一题干子文本;对于每个第一题干子文本,根据每个第一题干子文本和对应的第一问题文本、正确选项文本,确定每个第一题干子文本的目标选择概率;将多个第一题干子文本和对应的第一问题文本、目标选择概率作为第一训练样本,对初始文本确定模型进行训练,得到训练后的文本确定模型。采用本公开,可以进行文本选择。

权利要求 :

1.一种文本选择方法,其特征在于,所述方法包括:当获取到待处理的题干文本和所述待处理的题干文本对应的问题文本时,将所述待处理的题干文本划分为多个待处理的题干子文本;

基于训练后的文本确定模型,对每个待处理的题干子文本和所述每个待处理的题干子文本对应的问题文本进行处理,确定满足选择条件的至少一个目标子文本;

其中,所述文本确定模型的训练方法包括:获取多个第一题干文本和每个第一题干文本对应的第一问题文本、正确选项文本;

将所述多个第一题干文本划分为多个第一题干子文本;

对于每个第一题干子文本,根据所述每个第一题干子文本和对应的第一问题文本、正确选项文本,确定所述每个第一题干子文本的目标选择概率;

获取初始文本确定模型;

将所述多个第一题干子文本和对应的第一问题文本、目标选择概率作为第一训练样本,基于所述第一训练样本对所述初始文本确定模型进行训练,得到训练后的文本确定模型;

所述根据所述每个第一题干子文本和对应的第一问题文本、正确选项文本,确定所述每个第一题干子文本的目标选择概率,包括:确定所述每个第一题干子文本与对应的第一问题文本的第一相似度;

确定所述每个第一题干子文本与对应的正确选项文本的第二相似度;

基于所述第一相似度和所述第二相似度,确定所述每个第一题干子文本的目标选择概率。

2.根据权利要求1所述的文本选择方法,其特征在于,所述第一相似度包括第一子相似度和第二子相似度,其中,所述第一子相似度是指所述每个第一题干子文本与对应的第一问题文本的语句相似度,所述第二子相似度是指所述每个第一题干子文本与对应的第一问题文本的词语相似度。

3.根据权利要求2所述的文本选择方法,其特征在于,确定所述每个第一题干子文本与对应的第一问题文本的第一子相似度的方法包括:基于训练后的文本分类模型,对所述每个第一题干子文本与对应的第一问题文本进行处理,得到所述每个第一题干子文本与对应的第一问题文本的第一子相似度。

4.根据权利要求3所述的文本选择方法,其特征在于,所述文本分类模型的训练方法包括:

获取第二训练样本,所述第二训练样本包括多个第二问题文本和每个第二问题文本对应的正例样本、负例样本,所述正例样本包括所述每个第二问题文本对应的第二题干子文本,所述负例样本包括除所述第二题干子文本之外的第三题干子文本;

获取初始文本分类模型;

基于所述第二训练样本对所述初始文本分类模型进行训练,得到训练后的文本分类模型。

5.根据权利要求2所述的文本选择方法,其特征在于,确定所述每个第一题干子文本与对应的第一问题文本的第二子相似度的方法包括:对所述每个第一题干子文本与对应的第一问题文本进行分词,得到所述每个第一题干子文本的多个第一词语和所述每个第一题干子文本对应的第一问题文本的多个第二词语;

确定所述第一词语与所述第二词语相同的第一数量;

基于所述第一数量占所述第一词语的总数量的比重,确定所述第二子相似度。

6.根据权利要求1所述的文本选择方法,其特征在于,所述确定所述每个第一题干子文本与对应的正确选项文本的第二相似度的方法包括:对所述每个第一题干子文本与对应的正确选项文本进行分词,得到所述每个第一题干子文本的多个第一词语和所述每个第一题干子文本对应的正确选项文本的多个第三词语;

确定所述第一词语与所述第三词语相同的第二数量;

基于所述第二数量占所述第一词语的总数量的比重,确定所述每个第一题干子文本与对应的正确选项文本的第二相似度。

7.根据权利要求1所述的文本选择方法,其特征在于,所述基于所述第一相似度和所述第二相似度,确定所述每个第一题干子文本的目标选择概率,包括:确定目标参数组合,所述目标参数组合包括所述第一相似度的第一权重和所述第二相似度的第二权重;

基于所述目标参数组合、所述第一相似度和所述第二相似度,确定所述每个第一题干子文本的目标选择概率。

8.根据权利要求7所述的文本选择方法,其特征在于,所述确定目标参数组合,包括:获取多个参数组合,所述参数组合包括所述第一相似度的第一随机权重和所述第二相似度的第二随机权重;

基于每个参数组合、所述第一相似度和所述第二相似度,确定所述每个参数组合对应的所述每个第一题干子文本的选择概率;

对于所述每个参数组合,基于所述每个第一题干子文本的选择概率,确定每个第一题干文本中满足所述选择条件的至少一个第一题干子文本,将所述至少一个第一题干子文本作为所述每个第一题干文本的第一中心文本;

基于所述每个第一题干文本的第一中心文本和对应的第一问题文本、多个选项文本,预测所述每个第一题干文本的正确选项,确定所述每个参数组合对应的正确率;

将正确率满足条件的参数组合,确定为目标参数组合。

9.根据权利要求8所述的文本选择方法,其特征在于,所述目标参数组合还包括迭代次数、第一相邻题干子文本的第三权重和第二相邻题干子文本的第四权重,所述第一相邻题干子文本是指所述每个第一题干子文本在所述第一题干文本中的前一个第一题干子文本,所述第二相邻题干子文本是指所述每个第一题干子文本在所述第一题干文本中的后一个第一题干子文本;

所述参数组合还包括迭代次数、所述第一相邻题干子文本的第三随机权重和所述第二相邻题干子文本的第四随机权重;

所述基于每个参数组合、所述第一相似度和所述第二相似度,确定所述每个参数组合对应的所述每个第一题干子文本的选择概率,包括:基于每个参数组合中的迭代次数、所述第一相似度的第一随机权重、所述第二相似度的第二随机权重、所述第一相邻题干子文本的第三随机权重和所述第二相邻题干子文本的第四随机权重,以及所述第一相似度和所述第二相似度,确定所述每个第一题干子文本的选择概率。

10.根据权利要求9所述的文本选择方法,其特征在于,所述基于每个参数组合中的迭代次数、所述第一相似度的第一随机权重、所述第二相似度的第二随机权重、所述第一相邻题干子文本的第三权重和所述第二相邻题干子文本的第四权重,以及所述第一相似度和所述第二相似度,确定所述每个第一题干子文本的选择概率,包括:基于所述第一随机权重、所述第二随机权重、所述第一相似度和所述第二相似度,确定所述每个第一题干子文本的初始选择概率;

基于所述每个第一题干子文本的初始选择概率、所述迭代次数、所述第三随机权重和所述第四随机权重,确定经过所述迭代次数后所述每个第一题干子文本的选择概率;

其中,在每次迭代过程中,基于所述第三随机权重和所述第四随机权重,以及所述每个第一题干子文本、所述第一相邻题干子文本和所述第二相邻题干子文本的当前的选择概率,确定所述每个第一题干子文本的迭代后的选择概率。

11.根据权利要求1所述的文本选择方法,其特征在于,所述满足选择条件是指选择概率大于等于第一阈值,和/或,文本总长度小于等于第二阈值。

12.根据权利要求1所述的文本选择方法,其特征在于,所述方法还包括:将所述至少一个目标子文本确定为所述待处理的题干文本的第二中心文本;

基于所述待处理的题干文本的第二中心文本和对应的问题文本、多个选项文本,预测所述待处理的题干文本的正确选项。

13.根据权利要求12所述的文本选择方法,其特征在于,所述基于所述待处理的题干文本的第二中心文本和对应的问题文本、多个选项文本,预测所述待处理的题干文本的正确选项,包括:

获取训练后的问答模型;

基于所述问答模型,对所述待处理的题干文本的第二中心文本和对应的问题文本、多个选项文本进行处理,预测所述待处理的题干文本的正确选项。

14.根据权利要求13所述的文本选择方法,其特征在于,所述问答模型的训练方法包括:

获取第三训练样本,所述第三训练样本包括多个第三中心文本和每个第三中心文本对应的第三问题文本、多个选项文本,所述多个第三中心文本基于所述文本确定模型得到;

获取初始问答模型;

基于所述第三训练样本对所述初始问答模型进行训练,得到训练后的问答模型。

15.一种文本选择装置,其特征在于,所述装置包括:划分模块,用于当获取到待处理的题干文本和所述待处理的题干文本对应的问题文本时,将所述待处理的题干文本划分为多个待处理的题干子文本;

确定模块,用于基于训练后的文本确定模型,对每个待处理的题干子文本和所述每个待处理的题干子文本对应的问题文本进行处理,确定满足选择条件的至少一个目标子文本;

获取模块,用于获取多个第一题干文本和每个第一题干文本对应的第一问题文本、正确选项文本;

所述划分模块,还用于将所述多个第一题干文本划分为多个第一题干子文本;

所述确定模块,还用于对于每个第一题干子文本,根据所述每个第一题干子文本和对应的第一问题文本、正确选项文本,确定所述每个第一题干子文本的目标选择概率;所述根据所述每个第一题干子文本和对应的第一问题文本、正确选项文本,确定所述每个第一题干子文本的目标选择概率,包括:确定所述每个第一题干子文本与对应的第一问题文本的第一相似度;确定所述每个第一题干子文本与对应的正确选项文本的第二相似度;基于所述第一相似度和所述第二相似度,确定所述每个第一题干子文本的目标选择概率;

所述获取模块,还用于获取初始文本确定模型;

训练模块,用于将所述多个第一题干子文本和对应的第一问题文本、目标选择概率作为第一训练样本,基于所述第一训练样本对所述初始文本确定模型进行训练,得到训练后的文本确定模型。

16.一种电子设备,包括:

处理器;以及

存储程序的存储器,

其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1‑14中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1‑14中任一项所述的方法。

说明书 :

文本选择方法及装置

技术领域

[0001] 本发明涉及自然语言处理研究领域,尤其涉及一种文本选择方法及装置。

背景技术

[0002] 随着技术的发展,许多题目可以通过模型进行处理,例如,可以将题目的题干文本、问题文本和选项文本输入模型,对该题目的正确选项进行预测。
[0003] 但是,有些题目的题干文本往往篇幅过长,影响模型的处理效率。
[0004] 因此,亟需提出一种文本选择方法对篇幅过长的题干文本进行文本选择。

发明内容

[0005] 为了解决现有技术的问题,本公开实施例提供了一种文本选择方法及装置。技术方案如下:
[0006] 根据本公开的一方面,提供了一种文本选择方法,所述方法包括:
[0007] 当获取到待处理的题干文本和所述待处理的题干文本对应的问题文本时,将所述待处理的题干文本划分为多个待处理的题干子文本;
[0008] 基于训练后的文本确定模型,对每个待处理的题干子文本和所述每个待处理的题干子文本对应的问题文本进行处理,确定满足选择条件的至少一个目标子文本;
[0009] 其中,所述文本确定模型的训练方法包括:
[0010] 获取多个第一题干文本和每个第一题干文本对应的第一问题文本、正确选项文本;
[0011] 将所述多个第一题干文本划分为多个第一题干子文本;
[0012] 对于每个第一题干子文本,根据所述每个第一题干子文本和对应的第一问题文本、正确选项文本,确定所述每个第一题干子文本的目标选择概率;
[0013] 获取初始文本确定模型;
[0014] 将所述多个第一题干子文本和对应的第一问题文本、目标选择概率作为第一训练样本,基于所述第一训练样本对所述初始文本确定模型进行训练,得到训练后的文本确定
模型。
[0015] 根据本公开的另一方面,提供了一种文本选择装置,所述装置包括:
[0016] 划分模块,用于当获取到待处理的题干文本和所述待处理的题干文本对应的问题文本时,将所述待处理的题干文本划分为多个待处理的题干子文本;
[0017] 确定模块,用于基于训练后的文本确定模型,对每个待处理的题干子文本和所述每个待处理的题干子文本对应的问题文本进行处理,确定满足选择条件的至少一个目标子
文本;
[0018] 获取模块,用于获取多个第一题干文本和每个第一题干文本对应的第一问题文本、正确选项文本;
[0019] 所述划分模块,还用于将所述多个第一题干文本划分为多个第一题干子文本;
[0020] 所述确定模块,还用于对于每个第一题干子文本,根据所述每个第一题干子文本和对应的第一问题文本、正确选项文本,确定所述每个第一题干子文本的目标选择概率;
[0021] 所述获取模块,还用于获取初始文本确定模型;
[0022] 训练模块,用于将所述多个第一题干子文本和对应的第一问题文本、目标选择概率作为第一训练样本,基于所述第一训练样本对所述初始文本确定模型进行训练,得到训
练后的文本确定模型。
[0023] 根据本公开的另一方面,提供了一种电子设备,包括:
[0024] 处理器;以及
[0025] 存储程序的存储器,
[0026] 其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述文本选择方法。
[0027] 根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行上述文本选择方法。
[0028] 根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现上述文本选择方法。
[0029] 本公开实施例中提供的一个或多个技术方案,通过训练文本确定模型,利用训练好的文本确定模型对待处理的题干文本和待处理的题干文本对应的问题文本进行处理,确
定满足选择条件的至少一个目标子文本,从题干文本中选择与题干文本对应的问题文本相
关的目标文本,可以对篇幅过长的题干文本进行文本选择。

附图说明

[0030] 在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
[0031] 图1示出了根据本公开示例性实施例的文本选择方法流程图;
[0032] 图2示出了根据本公开示例性实施例的文本选择方法流程图;
[0033] 图3示出了根据本公开示例性实施例的文本分类模型的训练方法流程图;
[0034] 图4示出了根据本公开示例性实施例的文本选择方法流程图;
[0035] 图5示出了根据本公开示例性实施例的文本选择方法流程图;
[0036] 图6示出了根据本公开示例性实施例的确定目标选择概率的流程图;
[0037] 图7示出了根据本公开示例性实施例的确定目标参数组合的流程图;
[0038] 图8示出了根据本公开示例性实施例的文本选择方法流程图;
[0039] 图9示出了根据本公开示例性实施例的问答模型的训练方法流程图;
[0040] 图10示出了根据本公开示例性实施例的确定正确选项方法的流程图;
[0041] 图11示出了根据本公开示例性实施例的文本选择装置的示意性框图;
[0042] 图12示出了根据本公开示例性实施例的文本选择装置的示意性框图;
[0043] 图13示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

[0044] 下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这
里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的
是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0045] 应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公
开的范围在此方面不受限制。
[0046] 本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示
“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定
义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的
装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者
相互依存关系。
[0047] 需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0048] 本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0049] 本公开实施例提供了一种文本选择方法,该方法可以由终端、服务器和/或其他具备处理能力的设备完成。本公开实施例提供的方法可以由上述任一设备完成,也可以由多
个设备共同完成,例如,终端进行文本获取后传输到服务器,服务器再对其进行文本选择的
处理,本公开对此不作限定。
[0050] 本公开实施例以终端为例,下面将参照图1所示的文本选择方法的流程图,对文本选择的方法进行介绍。本实施例中,终端可以基于文本确定模型进行文本选择。由于文本确
定模型可以是机器学习模型,在使用文本确定模型进行预测之前,可以对其进行训练,下面
将从模型的训练阶段开始介绍。
[0051] 步骤101,终端获取多个第一题干文本和每个第一题干文本对应的第一问题文本、正确选项文本。
[0052] 在一种可能的实施方式中,题库中可以存储有多个题目,其中,每个题目具有其题干文本、问题文本和选项文本,选项文本又可以包括正确选项文本和错误选项文本。本实施
例对具体的题库不作限定,例如,上述题库可以是中小学生题库。
[0053] 在对文本确定模型进行训练之前,可以进行数据准备。此时,终端可以从题库中获取多个题目的数据,也即获取多个第一题干文本和每个第一题干文本对应的第一问题文
本、正确选项文本。
[0054] 表1给出了一个题目样例,该题目样例包括一个第一题干文本和该第一题干文本对应的第一问题文本、正确选项文本,如下所示:
[0055] 表1 题目样例
[0056] 题干 固以为能,遣与从事郭恂俱使西域。超到鄯善,鄯善王广奉超礼敬甚备,后忽更疏懈。超谓其官属曰:“宁觉广礼意薄乎。此必有北虏使来,狐疑未知
所从故也。明者睹未萌,况已著耶。”乃召伺胡诈之曰:“使来数日,今安在
乎。”伺胡惶恐,俱服其状。超乃闭伺胡,悉会其吏士三十六人,与共饮。酒
酣,因激怒之曰:“卿曹与我俱在绝域,欲立大功以求富贵。今虏使到裁数
日,而王广礼敬即废。”官属皆曰:“今在危亡之地,死生从司马。”超曰:“不
入虎穴,不得虎子。当今之计独有因夜以火攻虏使,彼不知我多少,必大震
怖,可殄尽也。灭此虏则鄯善破胆,功成事立矣。”众曰:“当与从事议之。”
超怒曰:“吉凶决于今日。从事文俗吏,闻此必恐而谋泄。死无所名,非壮士
也。”众曰:“善。”初夜,遂将吏士往奔虏营。会天大风,超令十人持鼓,藏虏
舍后。约曰:“见火然皆当鸣鼓大呼。”余人悉持兵弩夹门而伏。超乃顺风纵
火,前后鼓噪。虏众皆乱,超手格杀三人,吏兵斩其使及从士三十余级,余
众百许人悉烧死。《后汉书·班超传》[注]:班超,班固之弟,沟通西域,为
发展与西域的政治文化联系作出不朽功绩。
问题 对“鄯善王广奉超礼敬甚备”一句朗读节奏划分正确的一项是( )
选项 ['A.鄯善王/广奉超/礼敬甚备', 'B.鄯善王广/奉超礼敬/甚备', 'C.鄯
善王/广奉超礼敬/甚备', 'D.鄯善王广/奉超/礼敬甚备']
答案 D
[0057] 上述题目样例中,第一题干文本为:固以为能,遣与从事郭恂俱使西域。超到鄯善,鄯善王广奉超礼敬甚备,后忽更疏懈。超谓其官属曰:“宁觉广礼意薄乎。此必有北虏使来,
狐疑未知所从故也。明者睹未萌,况已著耶。”乃召伺胡诈之曰:“使来数日,今安在乎。”伺胡
惶恐,俱服其状。超乃闭伺胡,悉会其吏士三十六人,与共饮。酒酣,因激怒之曰:“卿曹与我
俱在绝域,欲立大功以求富贵。今虏使到裁数日,而王广礼敬即废。”官属皆曰:“今在危亡之
地,死生从司马。”超曰:“不入虎穴,不得虎子。当今之计独有因夜以火攻虏使,彼不知我多
少,必大震怖,可殄尽也。灭此虏则鄯善破胆,功成事立矣。”众曰:“当与从事议之。”超怒曰:
“吉凶决于今日。从事文俗吏,闻此必恐而谋泄。死无所名,非壮士也。”众曰:“善。”初夜,遂
将吏士往奔虏营。会天大风,超令十人持鼓,藏虏舍后。约曰:“见火然皆当鸣鼓大呼。”余人
悉持兵弩夹门而伏。超乃顺风纵火,前后鼓噪。虏众皆乱,超手格杀三人,吏兵斩其使及从士
三十余级,余众百许人悉烧死。《后汉书·班超传》[注]:班超,班固之弟,沟通西域,为发展
与西域的政治文化联系作出不朽功绩。
[0058] 第一题干文本对应的第一问题文本为:对“鄯善王广奉超礼敬甚备”一句朗读节奏划分正确的一项是( )。
[0059] 第一题干文本对应的正确选项文本为:鄯善王广/奉超/礼敬甚备。
[0060] 步骤102,终端将多个第一题干文本划分为多个第一题干子文本。
[0061] 在一种可能的实施方式中,终端在获取到第一题干文本后,可以基于预设的分句规则,将多个第一题干文本划分为多个第一题干子文本。例如,终端可以利用spacy(一个自
然语言文本处理库)对第一题干文本进行分句处理,得到多个句子,也即是多个第一题干子
文本。本公开实施例对划分第一题干文本的具体处理方式不作限定。
[0062] 示例性的,将表1的题目样例中的第一题干文本划分之后,其中一个第一题干子文本为“超到鄯善”。
[0063] 步骤103,对于每个第一题干子文本,终端根据每个第一题干子文本和对应的第一问题文本、正确选项文本,确定每个第一题干子文本的目标选择概率。
[0064] 在一种可能的实施方式中,终端可以根据每个第一题干子文本和对应的第一问题文本的相似度以及每个第一题干子文本和正确选项文本的相似度来确定每个第一题干子
文本的目标选择概率。
[0065] 在做题的过程中,有时根据题干中的几个句子即可选出正确选项,表明这些句子对于当前问题的重要程度较高。而这些句子与问题和正确选项的相关程度可能会比较大,
因此,根据问题和正确选项来选择题干中的句子,可以提高句子的代表性,提高文本选择的
准确性。
[0066] 可选的,如图2所示的文本选择方法的流程图,上述步骤103的处理可以如下:
[0067] 步骤1031,终端确定每个第一题干子文本与对应的第一问题文本的第一相似度。
[0068] 在一种可能的实施方式中,终端可以通过每个第一题干子文本与对应的第一问题文本的相关程度,来确定第一相似度。题干子文本与对应的问题文本的相关程度越高,则第
一相似度越大;相关程度越低,则第一相似度就越小。
[0069] 可选的,第一相似度可以包括第一子相似度和第二子相似度。第一子相似度可以是指每个第一题干子文本与对应的第一问题文本的语句相似度,第二子相似度可以是指每
个第一题干子文本与对应的第一问题文本的词语相似度。也即是,第一相似度可以包括两
个维度:语句维度和词语维度。
[0070] 在一种可能的实施方式中,终端可以对每个第一题干子文本与对应的第一问题文本进行整体语句的比较处理,从而确定第一子相似度,或对每个第一题干子文本的词语和
对应的第一问题文本的词语进行词语之间的比较处理,从而确定第二子相似度。
[0071] 可选的,确定第一子相似度的方法可以如下:终端基于训练后的文本分类模型,对每个第一题干子文本与对应的第一问题文本进行处理,得到每个第一题干子文本与对应的
第一问题文本的第一子相似度。
[0072] 在一种可能的实施方式中,终端可以将每个第一题干子文本与对应的第一问题文本作为文本分类模型的输入,通过文本分类模型进行处理,输出得到每个第一题干子文本
与对应的第一问题文本的分类概率,将该分类概率作为上述第一子相似度。
[0073] 上述分类概率是指输入的两个文本是否相关的概率,也即是说,两个文本的相关程度越高,则分类概率越大;相关程度越低,分类概率越小。因此,可以将分类概率作为第一
子相似度,用于指示两个文本整体语句的相似度。下面参照图3所示的文本分类模型的训练
方法流程图,对该文本分类模型的训练方法进行介绍。
[0074] 步骤301,终端获取第二训练样本。
[0075] 其中,第二训练样本可以包括多个第二问题文本和每个第二问题文本对应的正例样本、负例样本,正例样本包括每个第二问题文本对应的第二题干子文本,负例样本包括除
第二题干子文本之外的第三题干子文本。
[0076] 在一种可能的实施方式中,在对文本分类模型进行训练之前,可以在每个题目的题干文本中,对问题文本对应的题干子文本(即第二题干子文本)进行标注,作为该问题文
本的正例样本。相对应的,其余的题干子文本(即第三题干子文本)可以作为该问题文本的
负例样本。
[0077] 当终端触发对文本分类模型的训练任务时,可以获取多个第二问题文本以及标注后的多个题干子文本,作为文本分类模型的训练样本。为了方便描述,将该训练样本称为第
二训练样本。
[0078] 步骤302,终端获取初始文本分类模型。
[0079] 其中,初始文本分类模型的各个模型参数可以是初始值。
[0080] 在一种可能的实施方式中,当终端执行模型训练的任务时,可以获取预先设置的初始文本分类模型。
[0081] 示例性的,文本分类模型可以为高效学习编码器(ELECTRA,Efficiently Learning an Encoder that Classifies Token Replacements Accurately),本公开实施
例对具体的文本分类模型不做限定。
[0082] 步骤303,终端基于第二训练样本对初始文本分类模型进行训练,得到训练后的文本分类模型。
[0083] 在一种可能的实施方式中,终端可以将第二问题文本和第二问题文本对应的正例样本作为初始文本分类模型的输入,通过初始文本分类模型的处理,输出得到预测的分类
概率,正例样本对应的期望分类概率为1。负例样本同理,负例样本对应的期望分类概率为
0。
[0084] 然后,终端可以根据输出的分类概率和期望分类概率,对初始文本分类模型的参数进行调整。处理过程可以是:终端可以将输出的分类概率和期望分类概率输入损失函数,
确定损失函数的梯度变化,通过损失函数的梯度变化,对初始文本分类模型的模型参数进
行调整。
[0085] 当终端对初始文本分类模型的训练次数越来越多时,输出的正例样本的分类概率,可以越来越趋近于正例样本的期望分类概率;输出的负例样本的分类概率,可以越来越
趋近于负例样本的期望分类概率。
[0086] 当达到训练结束条件时,终端可以获取当前的文本分类模型,作为训练后的文本分类模型。
[0087] 其中,训练结束条件可以是训练次数达到第四阈值,和/或模型正确率达到第五阈值,和/或损失函数低于第六阈值。上述第四阈值、第五阈值和第六阈值可以根据经验设置。
本公开实施例对具体的训练结束条件不作限定。
[0088] 上面介绍了终端确定每个第一题干子文本与对应的第一问题文本的第一子相似度的可能的实施方式,下面将对确定第二子相似度的可能的实施方式进行介绍。相对应的,
如图4所示的文本选择方法的流程图,上述步骤1031中确定第二子相似度的方法可以如下:
[0089] 步骤401,终端对每个第一题干子文本与对应的第一问题文本进行分词。
[0090] 也即是,终端可以对每个第一题干子文本与对应的第一问题文本进行分词,得到每个第一题干子文本的多个第一词语和每个第一题干子文本对应的第一问题文本的多个
第二词语。
[0091] 在一种可能的实施方式中,终端可以基于预设的分词规则,对上述过程中得到的第一题干子文本进一步划分,得到多个词语,将第一题干子文本的词语称为第一词语。同
理,终端可以对第一问题文本进行分词,得到多个词语,将第一问题文本的词语称为第二词
语。例如,终端可以利用jieba工具(一个中文分词组件)对每个第一题干子文本与对应的第
一问题文本进行分词,本公开实施例对分词的具体处理方式不作限定。
[0092] 示例性的,将表1的题目样例的其中一个第一题干子文本“超到鄯善”分词,得到分词后的第一题干子文本的多个第一词语为“超、到、鄯善”。将题目样例中的第一问题文本分
词,得到分词后的第一问题文本的多个第二词语为“对、鄯善、王广、奉、超、礼敬、甚备、一
句、朗读、节奏、划分、正确、的、一项、是”。
[0093] 步骤402,终端确定第一词语与第二词语相同的第一数量。
[0094] 在一种可能的实施方式中,终端可以对第一词语中的每个词语进行遍历,将第一词语中的每个词语与第二词语中的每个词语分别进行比较,从而确定第一词语与第二词语
相同的第一数量。
[0095] 示例性的,上述表1的题目样例的其中一个第一题干子文本“超到鄯善”的第一词语的总数量为3,第一问题文本的第二词语的总数量为15,相同的词语为“超”“鄯善”,则第
一词语与第二词语相同的第一数量为2。
[0096] 步骤403,终端基于第一数量占第一词语的总数量的比重,确定第二子相似度。
[0097] 在一种可能的实施方式中,终端可以将第一数量与第一词语的总数量的比值,确定为第二子相似度,也即是第一题干子文本与对应的第一问题文本的词语相似度。确定第
二子相似度的公式可以为:
[0098] Sq=第一数量/第一词语的总数量(1)
[0099] 式(1)中,Sq表示第二子相似度。
[0100] 示例性的,上述表1的题目样例的其中一个第一题干子文本“超到鄯善”与对应的第一问题文本的第二子相似度Sq=第一数量/第一词语的总数量=2/3。
[0101] 通过上面的方法,终端可以确定第一子相似度和第二子相似度,也即是得到了相应的第一相似度。
[0102] 通过步骤1031对每个第一题干子文本进行相同的处理,终端可以确定每个第一题干子文本与对应的第一问题文本的第一相似度。然后,终端可以通过步骤1032确定第二相
似度。
[0103] 步骤1032,终端确定每个第一题干子文本与对应的正确选项文本的第二相似度。
[0104] 在一种可能的实施方式中,终端可以确定每个第一题干子文本与对应的正确选项文本的整体语句的相关程度,或将每个第一题干子文本中的词语与对应的正确选项文本中
的词语进行遍历,从而确定第二相似度。
[0105] 可选的,如图5所示的文本选择方法的流程图,上述步骤1032的处理可以如下:
[0106] 步骤501,终端对每个第一题干子文本与对应的正确选项文本进行分词。
[0107] 在一种可能的实施方式中,终端可以基于预设的分词规则,对每个第一题干子文本与对应的正确选项文本进行分词,得到每个第一题干子文本的多个第一词语和每个第一
题干子文本对应的正确选项文本的多个第三词语。
[0108] 示例性的,将表1的题目样例的其中一个第一题干子文本“超到鄯善”分词,得到分词后的第一题干子文本的多个第一词语为“超、到、鄯善”。将题目样例中的第一问题文本对
应的正确选项文本分词,得到分词后的正确选项文本的多个第三词语为“鄯善、王广、奉、
超、礼敬、甚备”。
[0109] 步骤502,终端确定第一词语与第三词语相同的第二数量。
[0110] 在一种可能的实施方式中,终端可以对第一词语中的每个第一词语进行遍历,将每个第一词语与每个第三词语分别进行比较,从而确定第一词语与第三词语相同的第二数
量。
[0111] 示例性的,上述表1的题目样例的其中一个第一题干子文本“超到鄯善”的第一词语的总数量为3,第一题干子文本对应的正确选项文本的第三词语的总数量为6,相同的词
语为“超”“鄯善”,则第一词语与第三词语相同的第二数量为2。
[0112] 步骤503,终端基于第二数量占所述第一词语的总数量的比重,确定每个第一题干子文本与对应的正确选项文本的第二相似度。
[0113] 在一种可能的实施方式中,终端可以将第二数量与第一词语的总数量的比值,确定为第二相似度。确定第二相似度的公式可以为:
[0114] So=第二数量/第一词语的总数量(2)
[0115] 式(2)中,So表示第二相似度。
[0116] 示例性的,上述表1的题目样例的其中一个第一题干子文本“超到鄯善”与对应的正确选项文本的第二相似度So=第二数量/第一词语的总数量=2/3。
[0117] 终端在步骤1031‑1032中确定下第一相似度和第二相似度后,可以执行下述步骤1033的处理。
[0118] 步骤1033,终端基于第一相似度和第二相似度,确定每个第一题干子文本的目标选择概率。
[0119] 在一种可能的实施方式中,终端可以将第一相似度与第二相似度相加,或将第一相似度与第二相似度进行线性加权,从而确定每个第一题干子文本的目标选择概率。本公
开实施例对确定目标选择概率的具体方式不作限定。
[0120] 终端在上述步骤103中确定下每个第一题干子文本的目标选择概率后,可以将其作为训练样本的标签,对文本确定模型进行训练。相应的处理如下:
[0121] 步骤104,终端获取初始文本确定模型。
[0122] 其中,初始文本确定模型的各个模型参数可以是初始值。
[0123] 在一种可能的实施方式中,当终端执行模型训练的任务时,可以获取预先设置的初始文本确定模型。
[0124] 示例性的,终端获取的初始文本确定模型可以为ELECTRA模型,本公开实施例对具体的文本确定模型不作限定。
[0125] 步骤105,终端将多个第一题干子文本和对应的第一问题文本、目标选择概率作为第一训练样本,基于第一训练样本对初始文本确定模型进行训练,得到训练后的文本确定
模型。
[0126] 在一种可能的实施方式中,终端可以将第一题干子文本和对应的第一问题文本作为初始文本确定模型的输入,通过初始文本确定模型的处理,输出得到预测的第一题干子
文本的选择概率。
[0127] 然后,终端可以根据每个第一题干子文本对应的预测的选择概率和目标选择概率,对初始文本确定模型的参数进行调整。处理过程可以是:终端可以将预测的选择概率和
目标选择概率输入损失函数,确定损失函数的梯度变化,通过损失函数的梯度变化,对初始
文本确定模型的模型参数进行调整。
[0128] 当终端对初始文本确定模型的训练次数越来越多时,输出的选择概率,可以越来越趋近于目标选择概率。
[0129] 当达到训练结束条件时,终端可以获取当前的文本确定模型,作为训练后的文本确定模型。
[0130] 其中,训练结束条件可以是训练次数达到第七阈值,和/或模型正确率达到第八阈值,和/或损失函数低于第九阈值。上述第七阈值、第八阈值和第九阈值可以根据经验设置。
本公开实施例对具体的训练结束条件不作限定。
[0131] 文本确定模型训练完成后,可以对篇幅过长的题干文本进行文本选择,下面对文本确定模型的应用过程进行介绍。
[0132] 步骤106,当获取到待处理的题干文本和待处理的题干文本对应的问题文本时,终端将待处理的题干文本划分为多个待处理的题干子文本。
[0133] 在一种可能的实施方式中,用户可以将题干文本和对应的问题文本输入到终端,点击搜索按钮,或直接对题干文本和对应的问题文本进行拍照上传,终端就可以对待处理
的题干文本进行分句处理,分句处理与上述步骤102同理,此处不再赘述。
[0134] 步骤107,基于文本确定模型,终端对每个待处理的题干子文本和每个待处理的题干子文本对应的问题文本进行处理,确定满足选择条件的至少一个目标子文本。
[0135] 可选的,满足选择条件可以是指第一题干子文本的选择概率大于等于第一阈值,和/或,文本总长度小于等于第二阈值。
[0136] 在一种可能的实施方式中,终端可以将每个待处理的题干子文本和每个待处理的题干子文本对应的问题文本作为文本确定模型的输入,经过文本确定模型的处理,输出得
到每个待处理的题干子文本对应的选择概率。进而,终端可以根据选择概率,确定满足选择
条件的至少一个目标子文本。
[0137] 对于不同的选择条件,终端确定目标子文本的情况不同,下面分别对每种情况进行介绍。
[0138] 情况一:满足选择条件可以是指第一题干子文本的选择概率大于等于第一阈值。终端可以基于每个第一题干子文本的选择概率,确定选择概率大于等于第一阈值的至少一
个第一题干子文本,作为目标子文本。例如,终端可以将选择概率大于等于80%的第一题干
子文本,作为目标子文本。
[0139] 情况二:满足选择条件可以是指文本总长度小于等于第二阈值。终端可以基于每个第一题干子文本的选择概率,对每个第一题干子文本进行排序,排序的规则可以是按照
选择概率从大到小的顺序。终端可以从排序完成的多个第一题干子文本中,从排在第一位
的第一题干子文本开始选择,每确定当前的第一题干子文本是否选中时,将当前文本的文
本长度与选中文本的文本总长度相加,确定当前的文本总长度是否小于等于第二阈值。如
果当前的文本总长度小于等于第二阈值,则将当前的第一题干子文本添加到选中文本中,
将选中文本的文本总长度更新为当前的文本总长度,继续确定下一个第一题干子文本是否
选中;如果当前的文本总长度大于第二阈值,则将选中文本确定为目标子文本,停止对其余
文本确定是否选中的处理。例如,终端可以将文本总长度小于等于512个字符长度的前6个
第一题干子文本,作为目标子文本。
[0140] 情况三:满足选择条件可以是指第一题干子文本的选择概率大于等于第一阈值,和文本总长度小于等于第二阈值。终端可以将选择概率大于等于第一阈值的第一题干子文
本筛选出来,然后对筛选出的第一题干子文本按照选择概率从大到小的顺序进行排序,将
文本总长度小于等于第二阈值的排序在前的第一题干子文本,确定为目标子文本。具体处
理与上述同理,此处不再赘述。例如,终端可以选取总长度小于等于512个字符长度且选择
概率大于等于80%的至少一个第一题干子文本,作为每个第一题干文本的第一中心文本。
本实施例对选择概率和文本总长度的判断顺序不作限定,例如,可以是先判断选择概率,再
判断文本总长度;或者,还可以是先判断文本总长度,再判断选择概率。
[0141] 在本公开实施例中,终端可以基于题目中的问题文本、正确选项文本,确定每个题干子文本的选择概率。进而,可以将确定的选择概率作为训练标签,对文本确定模型进行训
练,利用文本确定模型,拟合根据问题文本和正确选项文本确定选择概率的问题。由于训练
标签是基于问题文本、正确选项文本确定的,经过训练后,文本确定模型在处理过程中相当
于参考了问题文本、正确选项文本的信息,可以提高其确定的选择概率的准确率。因此,当
终端基于上述选择概率确定目标子文本时,可以提高目标子文本的代表性。
[0142] 为了使得目标选择概率能够更加准确地评估第一题干子文本的代表性,本实施例提供了一种确定目标选择概率的方法,该方法可以应用于上述实施例。
[0143] 下面将参照图6所示的确定目标选择概率的流程图,对确定目标选择概率的方法进行介绍。
[0144] 步骤601,终端确定目标参数组合。
[0145] 其中,目标参数组合可以包括第一相似度的第一权重和第二相似度的第二权重。该目标参数组合是指,基于该目标参数组合确定的目标选择概率,可以使得选中的目标子
文本的代表性满足条件。
[0146] 在一种可能的实施方式中,终端可以基于随机值确定参数组合,并通过参数组合确定选择概率,确定该组选择概率的正确率,当准确率满足条件时,将对应的参数组合确定
为目标参数组合。
[0147] 可选的,假设第一题干文本中任一个第一题干子文本可能为目标子文本,那么该第一题干子文本的第一相邻题干子文本和第二相邻题干子文本也有可能为目标子文本,因
此,目标参数组合还可以包括迭代次数、第一相邻题干子文本的第三权重和第二相邻题干
子文本的第四权重。
[0148] 其中,第一相邻题干子文本是指每个第一题干子文本在第一题干文本中的前一个第一题干子文本,第二相邻题干子文本是指每个第一题干子文本在第一题干文本中的后一
个第一题干子文本。
[0149] 为了方便描述,将上述包括第一权重和第二权重的参数组合称为第一参数组合,将上述包括第一权重、第二权重、第三权重、第四权重和迭代次数的参数组合称为第二参数
组合。
[0150] 可选的,为了扩大参数的搜索范围,终端可以基于随机值确定参数组合。相对应的,如图7所示的确定目标参数组合的流程图,上述步骤601的处理可以如下:
[0151] 步骤6011,终端获取多个参数组合。
[0152] 其中,对应于上述第一参数组合,此处的参数组合可以包括第一相似度的第一随机权重和第二相似度的第二随机权重。
[0153] 在一种可能的实施方式中,可以预先设定第一随机权重和第二随机权重的参数范围,进而,终端可以在该参数范围内随机获取第一随机权重和第二随机权重。
[0154] 可选的,对应于上述第二参数组合,此处的参数组合还可以包括迭代次数、第一相邻题干子文本的第三随机权重和第二相邻题干子文本的第四随机权重。
[0155] 在一种可能的实施方式中,同理,可以预先设定上述参数的参数范围,终端可以根据不同参数的参数类型,从参数范围中随机获取参数值。
[0156] 示例性的,参数组合的相关信息如表2所示。
[0157] 表2 参数组合的相关信息
[0158] 参数名称 参数说明 参数范围 参数类型Wi 第一权重 (0, 1) 浮点数
Wo 第二权重 (0, 1) 浮点数
Sm 迭代次数 {0, 1, 2, 3} 整数
Wb 第三权重 (0, 1) 浮点数
Wa 第四权重 (0, 1) 浮点数
[0159] 步骤6012,基于每个参数组合、第一相似度和第二相似度,终端确定每个参数组合对应的每个第一题干子文本的选择概率。
[0160] 在第一种可能的实施方式中,对应于上述第一参数组合,终端可以将每个第一题干子文本的第一随机权重与第一相似度相乘,第二随机权重和第二相似度相乘,将上述两
个乘积相加,从而确定每个参数组合对应的每个第一题干子文本的选择概率。上面介绍的
是加权求和的方法,或者,终端还可以基于加权平均的方法,确定上述选择概率,也即是对
上述加权求和的结果求平均。本实施例对具体的方式不作限定。
[0161] 在第二种可能的实施方式中,对应于上述第二参数组合,步骤6012的处理可以如下:基于每个参数组合中的第一相似度的第一随机权重和第二相似度的第二随机权重、迭
代次数、第一相邻题干子文本的第三随机权重和第二相邻题干子文本的第四随机权重,以
及第一相似度和第二相似度,终端确定每个第一题干子文本的选择概率。
[0162] 终端可以基于上面介绍过的方法,分别确定第一相邻题干子文本和第二相邻题干子文本的第一相似度、第二相似度,此处不再赘述。然后,终端可以基于与上述第一参数组
合同理的方法,确定每个题干子文本的初步的选择概率。由于该初步的选择概率还不是本
实施方式中所要确定的选择概率,将该初步的选择概率称为中间数据。
[0163] 进而,对于当前的第一题干子文本,终端可以将第一相邻题干子文本的中间数据与第三权重相乘,将第二相邻题干子文本的中间数据与第四权重相乘,将两个相乘的结果
加上当前的第一题干子文本的中间数据,得到当前的第一题干子文本的选择概率。
[0164] 示例性的,终端所使用的公式可以如下:
[0165] new_scorei=Wb*scorei‑1+scorei+Wa*scorei+(1 3)
[0166] 式(3)中,new_scorei表示上述当前的第一题干子文本的选择概率,scorei‑1表示上述第一相邻题干子文本的中间数据,scorei表示上述当前的第一题干子文本的中间数
据,scorei+1表示上述第二相邻题干子文本的中间数据。其余参数请参照表1。
[0167] 在此基础上,一个题干子文本的选择概率参考了其前后两个题干子文本的选择概率,也即是说,参考了上下文的信息。通常而言,一个题目中的题干文本的语义是连贯的,如
果一个句子是目标子文本,则相邻的具有类似语义的上下文,也有可能是目标子文本。因
此,参考上下文信息之后,可以提高确定目标子文本的准确率。
[0168] 在第三种可能的实施方式中,对应于上述第一相似度包括第一子相似度和第二子相似度的情况,终端可以通过线性加权和法,确定第一题干子文本的选择概率。或者,还可
以直接将第一子相似度和第二子相似度,代入上述第一种和第二种可能的实施方式中,例
如,将第一相似度等于第一子相似度加第二子相似度,代入上述实施方式所使用的公式中。
[0169] 示例性的,终端所使用的线性加权和法的公式如下:
[0170] score=Wi*Si+(1‑Wi)*(Wo*So+(1‑Wo)*Sq)(4)
[0171] 式(4)中,score表示每个第一题干子文本的选择概率,Si表示第一子相似度,So表示第二相似度,Sq表示第二子相似度。其余参数请参照表1。可选的,为了更加准确地评估选
择概率,可以对每个题干子文本的选择概率进行数据平滑的处理,相对应的,如图8所示的
文本选择方法的流程,上述步骤6012的处理可以如下:
[0172] 步骤801,终端基于第一随机权重、第二随机权重、第一相似度和第二相似度,确定每个第一题干子文本的初始选择概率。
[0173] 在一种可能的实施方式中,在进行数据平滑的处理之前,可以确定待平滑的初始数据。初始数据的处理可以与上述步骤6012中介绍的确定选择概率的处理相同,此处不再
赘述。
[0174] 步骤802,终端基于每个第一题干子文本的初始选择概率、迭代次数、第三随机权重和第四随机权重,确定经过迭代次数后每个第一题干子文本的选择概率。
[0175] 其中,在每次迭代过程中,基于第三随机权重和第四随机权重,以及每个第一题干子文本、第一相邻题干子文本和第二相邻题干子文本的当前的选择概率,确定每个第一题
干子文本的迭代后的选择概率。
[0176] 每个第一题干子文本的顺序可以是其在第一题干文本中的顺序。由于第一个题干子文本没有第一相邻题干子文本,最后一个题干子文本没有第二相邻题干子文本,每次迭
代过程中可以不对第一个题干子文本和最后一个题干子文本的数据进行处理。
[0177] 在一种可能的实施方式中,获取到每个第一题干子文本的初始选择概率之后,终端可以根据上述参数组合中的迭代次数,对每个第一题干子文本的初始选择概率进行迭
代。具体的迭代过程如下:
[0178] 第一次迭代时,对于第二个第一题干子文本,终端可以将第三权重和第一个题干子文本的初始选择概率进行相乘,将第四权重和第三个题干子文本的初始选择概率进行相
乘,然后将上述两个乘积与第二个第一题干子文本的初始选择概率进行相加,得到经过一
次迭代后的选择概率。以此类推,终端分别确定多个第一题干子文本经过一次迭代后的选
择概率。
[0179] 第二次迭代时,对于第二个第一题干子文本,终端可以将第三权重和第一个题干子文本上一次迭代后得到的选择概率进行相乘,将第四权重和第三个题干子文本上一次迭
代后得到的选择概率进行相乘,然后将上述两个乘积与第二个第一题干子文本上一次迭代
后得到的选择概率进行相加,得到经过二次迭代后的选择概率。以此类推,终端分别确定多
个第一题干子文本经过二次迭代后的选择概率。
[0180] 其他次迭代过程以此类推,此处不再赘述。终端在上述过程中确定下每个参数组合对应的每个第一题干子文本的选择概率后,可以继续执行步骤6013。
[0181] 步骤6013,对于每个参数组合,基于每个第一题干子文本的选择概率,终端确定每个第一题干文本中满足选择条件的至少一个第一题干子文本,将至少一个第一题干子文本
作为每个第一题干文本的第一中心文本。
[0182] 步骤6013的具体处理,与上述步骤107中确定目标子文本的处理同理,此处不再赘述。
[0183] 步骤6014,终端基于每个第一题干文本的第一中心文本和对应的第一问题文本、多个选项文本,预测每个第一题干文本的正确选项,确定每个参数组合对应的正确率。
[0184] 在一种可能的实施方式中,终端可以将每个第一题干文本的第一中心文本和对应的第一问题文本、多个选项文本,通过相同的预测方式,预测每个第一题干文本的正确选
项,将预测出的正确选项与真正的正确选项进行对比,确定每个参数组合对应的正确率。
[0185] 可选的,上述预测方式可以是通过问答模型对正确选项进行预测,相应的,上述步骤6014的处理可以为:终端基于每个第一题干文本的第一中心文本和对应的第一问题文
本、多个选项文本,通过目标问答模型预测每个第一题干文本的正确选项,确定每个参数组
合对应的正确率。
[0186] 在一种可能的实施方式中,终端将每个第一题干文本的第一中心文本和对应的第一问题文本、多个选项文本作为目标问答模型的输入,经过目标问答模型的处理,得到每个
第一题干文本对应的第一问题文本的正确选项。
[0187] 步骤6015,终端将正确率满足条件的参数组合,确定为目标参数组合。
[0188] 其中,正确率满足条件可以是指正确率大于或等于第三阈值,或正确率为最大值。
[0189] 在一种可能的实施方式中,终端可以根据不同的情况确定不同的目标参数组合。
[0190] 情况一:正确率满足条件可以是指正确率大于或等于第三阈值。终端可以将每个参数组合对应的正确率与第三阈值进行对比,确定正确率大于或等于第三阈值的至少一个
参数组合,作为目标参数组合。例如,第三阈值为90%,当参数组合的正确率大于或等于
90%时,当前的参数组合可以被确定为目标参数组合。
[0191] 情况二:正确率满足条件可以是指正确率为最大值。终端可以对每个参数组合对应的正确率进行排序,确定正确率为最大值的参数组合,将该参数组合确定为目标参数组
合。
[0192] 至此,步骤601的具体处理介绍完毕。示例性的,上述步骤601的具体处理,也即是步骤6011‑6015的处理,可以是通过optuna(一个超参数优化框架)进行超参数搜索实现的。
[0193] 通过获取目标参数组合,终端能够提高确定第一题干子文本的目标选择概率的准确率,从而提高从第一题干文本中确定第一中心文本的准确率。
[0194] 终端在确定下目标参数组合后,可以继续执行步骤602,基于目标参数组合确定目标选择概率。
[0195] 步骤602,终端基于目标参数组合、第一相似度和第二相似度,确定每个第一题干子文本的目标选择概率。
[0196] 步骤602的具体处理与上述步骤6012同理,此处不再赘述。
[0197] 可选的,当终端进行了上述数据平滑的处理时,终端可以通过与上述步骤801‑802相同的方法,确定每个第一题干子文本的目标选择概率,此处不再赘述。
[0198] 在本公开实施例中,终端可以通过评估正确率的方式,确定目标参数组合,并基于目标参数组合、第一相似度和第二相似度,确定每个第一题干子文本的目标选择概率。并
且,在确定目标参数组合的过程中,采用数据平滑的方法扩充数据,增大数据的搜索空间。
因此,通过上述方法,可以使得目标选择概率能够更加准确地评估第一题干子文本的代表
性。
[0199] 上面的实施例中介绍了通过文本确定模型进行文本选择的方法,本实施例提供了一种确定正确选项的方法。
[0200] 本实施例可以通过问答模型对正确选项进行预测,在此之前,可以对问答模型进行训练。如图9所示的问答模型的训练方法的流程图,上述问答模型的训练方法可以如下:
[0201] 步骤901,终端获取第三训练样本。
[0202] 其中,第三训练样本包括多个第三中心文本和每个第三题干文本对应的第三问题文本、多个选项文本,上述多个第三中心文本可以基于上述文本确定模型得到。
[0203] 在一种可能的实施方式中,终端可以从题库中获取多个题目的数据,也即获取多个第三题干文本和每个第三题干文本对应的第三问题文本、多个选项文本。终端可以将多
个第三题干文本和每个第三题干文本对应的第三问题文本输入到上述文本确定模型中,经
过文本确定模型的处理,得到多个第三中心文本。
[0204] 当终端触发对问答模型的训练任务时,可以获取多个第三中心文本和每个第三题干文本对应的第三问题文本、多个选项文本,作为问答模型的训练样本。
[0205] 步骤902,终端获取初始问答模型。
[0206] 其中,初始问答模型的各个模型参数可以是初始值。
[0207] 在一种可能的实施方式中,当终端执行模型训练的任务时,可以获取预先设置的初始问答模型。
[0208] 示例性的,问答模型可以采用Roberta‑large模型(一种预训练模型)与多头注意力模型(DUMA,DUal Multi‑headCo‑Attention)的结合,也可以采用其他可以预测正确选项
的模型,例如bert模型(一种语言表示模型),本实施例对具体的问答模型不作限定。
[0209] 步骤903,终端基于第三训练样本对初始问答模型进行训练,得到训练后的问答模型。
[0210] 在一种可能的实施方式中,终端可以将第三中心文本和对应的第三问题文本、多个选项文本作为初始问答模型的输入,经过初始问答模型的处理,输出得到第三问题文本
对应的预测的正确选项。
[0211] 然后,终端可以根据预测的正确选项和真正的正确选项,对初始问答模型的参数进行调整。处理过程可以是:终端可以根据预测的正确选项和真正的正确选项的距离,确定
损失函数的梯度变化,通过损失函数的梯度变化,对初始问答模型的模型参数进行调整。
[0212] 当终端对初始问答模型的训练次数越来越多时,输出的预测正确选项越来越接近正确选项。
[0213] 示例性的,当问答模型采用Roberta‑large模型与DUMA模型的结合时,终端可以将第三训练样本中的每个第三题干文本和每个第三题干文本对应的第三问题文本、每个选项
文本分别进行拼接,得到每个组合文本。例如,对每个第三题干文本和每个第三题干文本对
应的第三问题文本、每个选项文本进行拼接,得到的每个组合文本可以为:[CLS]第三题干
文本[SEP]第三问题文本[SEP]每个选项文本。
[0214] 然后,终端可以将每个组合文本通过Roberta‑large模型进行处理,得到每个组合文本的第一特征向量表示,将每个组合文本的第一特征向量表示通过DUMA模型进行处理,
得到每个组合文本的第二特征向量表示。终端可以将每个组合文本的第二特征向量表示通
过线性全连接层进行向量映射,得到每个组合文本的未归一化的概率表示。该概率表示可
以是一维向量。进而,终端可以将上述概率表示,通过softmax函数(归一化指数函数)进行
归一化,得到每个选项文本为正确选项文本的概率。例如,A选项为正确选项文本的概率可
以是0.2,表示为[0.2,0,0,0]。
[0215] 终端可以根据每个选项文本对应的概率和标签,对初始问答模型的模型参数进行调整。处理过程可以是:终端可以将每个选项文本为正确选项文本的概率与正确选项文本
的标签,通过交叉熵函数确定损失,利用反向传播的算法调整初始问答模型的参数。
[0216] 示例性的,当正确选项为A、B、C、D时,对应的正确选项文本的标签分别为:[1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0], [0, 0, 0, 1]。
[0217] 当达到训练结束条件时,终端可以获取当前的问答模型,作为训练后的问答模型。
[0218] 其中,训练结束条件可以是训练次数达到第十阈值,和/或模型正确率达到第十一阈值,和/或损失函数低于第十二阈值。上述第十阈值、第十一阈值和第十二阈值可以根据
经验设置。本公开实施例对具体的训练结束条件不作限定。
[0219] 终端在对问答模型训练完成后,可以对正确选项进行预测,下面将参照图10所示的确定正确选项方法的流程图,对确定正确选项的方法进行介绍。
[0220] 步骤1001,当获取到待处理的题干文本和待处理的题干文本对应的问题文本时,终端将待处理的题干文本划分为多个待处理的题干子文本。
[0221] 步骤1001与上述步骤106同理,此处不再赘述。
[0222] 步骤1002,终端基于文本确定模型,对每个待处理的题干子文本和每个待处理的题干子文本对应的问题文本进行处理,确定满足选择条件的至少一个目标子文本。
[0223] 步骤1002与上述步骤107同理,此处不再赘述。
[0224] 步骤1003,终端将至少一个目标子文本确定为待处理的题干文本的第二中心文本。
[0225] 在一种可能的实施方式中,终端可以获取上述文本确定模型输出的至少一个目标子文本,对至少一个目标子文本进行拼接,将拼接后的至少一个目标子文本确定为待处理
的题干文本的第二中心文本。
[0226] 步骤1004,终端基于待处理的题干文本的第二中心文本和对应的问题文本、多个选项文本,预测待处理的题干文本的正确选项。
[0227] 在一种可能的实施方式中,终端可以将待处理的题干文本的第二中心文本和对应的问题文本、多个选项文本作为问答模型的输入,经过问答模型的处理,输出得到对应的每
个选项的概率。进而,终端可以将概率最高的选项确定为正确选项。
[0228] 本公开实施例中,通过上述文本确定模型进行文本选择得到的目标子文本,可以作为问答模型的训练样本。并且在问答模型的应用过程中,也采用了文本确定模型对待处
理的题干文本进行文本选择,然后通过问答模型确定对应的正确选项,可以提高确定正确
选项的准确率。
[0229] 本公开实施例提供了一种文本选择装置,该装置用于实现上述文本选择方法。如图11所示的文本选择装置的示意性框图,该装置包括:
[0230] 划分模块1101,用于当获取到待处理的题干文本和待处理的题干文本对应的问题文本时,将待处理的题干文本划分为多个待处理的题干子文本;
[0231] 确定模块1102,用于基于训练后的文本确定模型,对每个待处理的题干子文本和每个待处理的题干子文本对应的问题文本进行处理,确定满足选择条件的至少一个目标子
文本;
[0232] 获取模块1103,用于获取多个第一题干文本和每个第一题干文本对应的第一问题文本、正确选项文本;
[0233] 划分模块1101,还用于将多个第一题干文本划分为多个第一题干子文本;
[0234] 确定模块1102,还用于根据每个第一题干子文本和对应的第一问题文本、正确选项文本,确定每个第一题干子文本的目标选择概率;
[0235] 获取模块1103,还用于获取初始文本确定模型;
[0236] 训练模块1104,用于将多个第一题干子文本和对应的第一问题文本、目标选择概率作为第一训练样本,基于第一训练样本对初始文本确定模型进行训练,得到训练后的文
本确定模型。
[0237] 可选的,确定模块1102用于:
[0238] 确定每个第一题干子文本与对应的第一问题文本的第一相似度;
[0239] 确定每个第一题干子文本与对应的正确选项文本的第二相似度;
[0240] 基于第一相似度和第二相似度,确定每个第一题干子文本的目标选择概率。
[0241] 可选的,第一相似度包括第一子相似度和第二子相似度,其中,第一子相似度是指每个第一题干子文本与对应的第一问题文本的语句相似度,第二子相似度是指每个第一题
干子文本与对应的第一问题文本的词语相似度。
[0242] 可选的,确定模块1102用于:
[0243] 基于训练后的文本分类模型,对每个第一题干子文本与对应的第一问题文本进行处理,得到每个第一题干子文本与对应的第一问题文本的第一子相似度。
[0244] 可选的,训练模块1104还用于:
[0245] 获取第二训练样本,第二训练样本包括多个第二问题文本和每个第二问题文本对应的正例样本、负例样本,正例样本包括每个第二问题文本对应的第二题干子文本,负例样
本包括除第二题干子文本之外的第三题干子文本;
[0246] 获取初始文本分类模型;
[0247] 基于第二训练样本对初始文本分类模型进行训练,得到训练后的文本分类模型。
[0248] 可选的,确定模块1102用于:
[0249] 对每个第一题干子文本与对应的第一问题文本进行分词,得到每个第一题干子文本的多个第一词语和每个第一题干子文本对应的第一问题文本的多个第二词语;
[0250] 确定第一词语与第二词语相同的第一数量;
[0251] 基于第一数量占所述第一词语的总数量的比重,确定第二子相似度。
[0252] 可选的,确定模块1102用于:
[0253] 对每个第一题干子文本与对应的正确选项文本进行分词,得到每个第一题干子文本的多个第一词语和每个第一题干子文本对应的正确选项文本的多个第三词语;
[0254] 确定第一词语与第三词语相同的第二数量;
[0255] 基于第二数量占第一词语的总数量的比重,确定每个第一题干子文本与对应的正确选项文本的第二相似度。
[0256] 可选的,确定模块1102用于:
[0257] 确定目标参数组合,目标参数组合包括第一相似度的第一权重和第二相似度的第二权重;
[0258] 基于目标参数组合、第一相似度和第二相似度,确定每个第一题干子文本的目标选择概率。
[0259] 可选的,确定模块1102用于:
[0260] 获取多个参数组合,参数组合包括第一相似度的第一随机权重和第二相似度的第二随机权重;
[0261] 基于每个参数组合、第一相似度和第二相似度,确定每个参数组合对应的每个第一题干子文本的选择概率;
[0262] 对于每个参数组合,基于每个第一题干子文本的选择概率,确定每个第一题干文本中满足选择条件的至少一个第一题干子文本,将至少一个第一题干子文本作为每个第一
题干文本的第一中心文本;
[0263] 基于每个第一题干文本的第一中心文本和对应的第一问题文本、多个选项文本,预测每个第一题干文本的正确选项,确定每个参数组合对应的正确率;
[0264] 将正确率满足条件的参数组合,确定为目标参数组合。
[0265] 可选的,目标参数组合还包括迭代次数、第一相邻题干子文本的第三权重和第二相邻题干子文本的第四权重,第一相邻题干子文本是指每个第一题干子文本在第一题干文
本中的前一个第一题干子文本,第二相邻题干子文本是指每个第一题干子文本在第一题干
文本中的后一个第一题干子文本;
[0266] 参数组合还包括迭代次数、第一相邻题干子文本的第三随机权重和第二相邻题干子文本的第四随机权重;
[0267] 确定模块1102用于:基于每个参数组合中的迭代次数、第一相似度的第一随机权重、第二相似度的第二随机权重、第一相邻题干子文本的第三随机权重和第二相邻题干子
文本的第四随机权重,以及第一相似度和第二相似度,确定每个第一题干子文本的选择概
率。
[0268] 可选的,确定模块1102用于:
[0269] 基于第一随机权重、第二随机权重、第一相似度和第二相似度,确定每个第一题干子文本的初始选择概率;
[0270] 基于每个第一题干子文本的初始选择概率、迭代次数、第三随机权重和第四随机权重,确定经过迭代次数后每个第一题干子文本的选择概率;
[0271] 其中,在每次迭代过程中,基于第三随机权重和第四随机权重,以及每个第一题干子文本、第一相邻题干子文本和第二相邻题干子文本的当前的选择概率,确定每个第一题
干子文本的迭代后的选择概率。
[0272] 可选的,满足选择条件是指选择概率大于等于第一阈值,和/或,文本总长度小于等于第二阈值。
[0273] 可选的,如图12所示,文本选择装置还包括预测模块1105,预测模块1105用于:
[0274] 将至少一个目标子文本确定为待处理的题干文本的第二中心文本;
[0275] 基于待处理的题干文本的第二中心文本和对应的问题文本、多个选项文本,预测待处理的题干文本的正确选项。
[0276] 可选的,预测模块1105用于:
[0277] 获取训练后的问答模型;
[0278] 基于问答模型,对待处理的题干文本的第二中心文本和对应的问题文本、多个选项文本进行处理,预测待处理的题干文本的正确选项。
[0279] 可选的,训练模块1104还用于:
[0280] 获取第三训练样本,第三训练样本包括多个第三中心文本和每个第三中心文本对应的第三问题文本、多个选项文本,多个第三中心文本基于文本确定模型得到;
[0281] 获取初始问答模型;
[0282] 基于第三训练样本对初始问答模型进行训练,得到训练后的问答模型。
[0283] 本公开实施例中,可以通过训练文本确定模型,利用训练好的文本确定模型对待处理的题干文本和待处理的题干文本对应的问题文本进行处理,确定满足选择条件的至少
一个目标子文本,从题干文本中选择与题干文本对应的问题文本相关的目标文本,可以对
篇幅过长的题干文本进行文本选择。
[0284] 本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机
程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公
开实施例的方法。
[0285] 本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开
实施例的方法。
[0286] 本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
[0287] 参考图13,现将描述可以作为本公开的服务器或客户端的电子设备1300的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数
字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀
片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装
置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所
示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述
的和/或者要求的本公开的实现。
[0288] 如图13所示,电子设备1300包括计算单元1301,其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计
算机程序,来执行各种适当的动作和处理。在RAM 1303中,还可存储设备1300操作所需的各
种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出
(I/O)接口1305也连接至总线1304。
[0289] 电子设备1300中的多个部件连接至I/O接口1305,包括:输入单元1306、输出单元1307、存储单元1308以及通信单元1309。输入单元1306可以是能向电子设备1300输入信息
的任何类型的设备,输入单元1306可以接收输入的数字或字符信息,以及产生与电子设备
的用户设置和/或功能控制有关的键信号输入。输出单元1307可以是能呈现信息的任何类
型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印
机。存储单元1304可以包括但不限于磁盘、光盘。通信单元1309允许电子设备1300通过诸如
因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限
于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi
设备、WiMax设备、蜂窝通信设备和/或类似物。
[0290] 计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的
人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、
以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和
处理。例如,在一些实施例中,文本选择方法可被实现为计算机软件程序,其被有形地包含
于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经
由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。在一些实施例中,
计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本选择
方法。
[0291] 用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处
理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0292] 在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM
或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
[0293] 如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光
盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。
[0294] 为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视
器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0295] 可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
(LAN)、广域网(WAN)和互联网。
[0296] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计
算机程序来产生客户端和服务器的关系。