基于反馈的模型训练方法、关键词抽取方法及相关设备转让专利

申请号 : CN202311199088.X

文献号 : CN116957056B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 余梓飞朵思惟刘双勇张程华薛晨云张艳丽

申请人 : 天津汇智星源信息技术有限公司

摘要 :

本申请提供一种基于反馈的模型训练方法、关键词抽取方法及相关设备,所述模型训练方法包括:获取事件描述文本,将所述事件描述文本分别输入至预先构建的第一语言模型和第二语言模型,通过所述第一语言模型输出第一概率分布和推荐关键词,通过所述第二语言模型输出第二概率分布,其中,所述第一语言模型和所述第二语言模型用于抽取所述事件描述文本中的关键词。基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数;最小化所述总损失函数以更新所述第一语言模型的模型参数。本申请的模型训练方法能够使推荐关键词更符合人类偏好。

权利要求 :

1.一种基于反馈的模型训练方法,其特征在于,包括:获取事件描述文本;

将所述事件描述文本分别输入至预先构建的第一语言模型和第二语言模型,通过所述第一语言模型输出第一概率分布和推荐关键词,通过所述第二语言模型输出第二概率分布,其中,所述第一语言模型和所述第二语言模型用于抽取所述事件描述文本中的关键词;

基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数;

通过下式确定所述总损失函数 :

其中, 表示策略损失函数,表示可调节的参数, 表示价值损失函数,所述策略损失函数和所述价值损失函数均是基于所述关键词得分、相对熵和所述第一概率分布对应的第一得分向量确定的;所述相对熵是基于所述第一概率分布和所述第二概率分布计算得到的;

所述策略损失函数通过下式确定:

所述价值损失函数通过下式确定:

其中, 表示优势函数,所述优势函数是基于所述关键词得分和所述相对熵确定的,表示所述第一概率分布的更新幅度, 表示限幅函数,表示可调节的参数;

表示更新后的第一得分向量,表示第一得分向量;

最小化所述总损失函数以更新所述第一语言模型的模型参数。

2.根据权利要求1所述的方法,其特征在于,所述基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数,包括:根据所述事件描述文本对所述推荐关键词进行打分,得到关键词得分;

基于所述第一概率分布和所述第二概率分布计算得到相对熵;

基于所述关键词得分和所述相对熵,采用近端策略优化算法构建所述总损失函数。

3.根据权利要求1所述的方法,其特征在于,所述第一语言模型和所述第二语言模型相同,所述第一语言模型和所述第二语言模型均包括多层Transformer编码器;所述第一概率分布和所述第二概率分布是基于所述多层Transformer编码器中倒数第二层Transformer编码器的注意力权重计算得到的;所述第二语言模型的模型参数处于冻结状态。

4.一种关键词抽取方法,其特征在于,应用于权利要求1‑3任一项所述的第一语言模型,所述方法包括:获取目标文本;

将所述目标文本输入至所述第一语言模型中,经由所述第一语言模型输出所述目标文本对应的目标关键词。

5.一种基于反馈的模型训练装置,其特征在于,包括:获取模块,被配置为获取事件描述文本;

输出模块,被配置为将所述事件描述文本分别输入至预先构建的第一语言模型和第二语言模型,通过所述第一语言模型输出第一概率分布和推荐关键词,通过所述第二语言模型输出第二概率分布,其中,所述第一语言模型和所述第二语言模型用于抽取所述事件描述文本中的关键词;

构建模块,被配置为基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数;

通过下式确定所述总损失函数 :

其中, 表示策略损失函数,表示可调节的参数, 表示价值损失函数,所述策略损失函数和所述价值损失函数均是基于所述关键词得分、相对熵和所述第一概率分布对应的第一得分向量确定的;所述相对熵是基于所述第一概率分布和所述第二概率分布计算得到的;

所述策略损失函数通过下式确定:

所述价值损失函数通过下式确定:

其中, 表示优势函数,所述优势函数是基于所述关键词得分和所述相对熵确定的,表示所述第一概率分布的更新幅度, 表示限幅函数,表示可调节的参数;

表示更新后的第一得分向量,表示第一得分向量;

更新模块,被配置为最小化所述总损失函数以更新所述第一语言模型的模型参数。

6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任意一项所述的方法。

7.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至4任意一项所述的方法。

说明书 :

基于反馈的模型训练方法、关键词抽取方法及相关设备

技术领域

[0001] 本申请涉及深度学习技术领域,尤其涉及一种基于反馈的模型训练方法、关键词抽取方法及相关设备。

背景技术

[0002] 关键词抽取技术一直是自然语言处理领域重点研究对象之一,抽取出的关键词虽然结构简短,却依然能够清晰地表达文本本身的含义。常见的关键词提取模型致力于提取出有意义的关键词,却忽略了被错误抽取的关键词也可作为反馈信号来引导模型进行自我完善。此外,如何使得模型的输出更加人性化,所抽取的关键词更加符合人类的偏好也是亟需解决的问题。

发明内容

[0003] 有鉴于此,本申请的目的在于提出一种基于反馈的模型训练方法、关键词抽取方法及相关设备,以解决关键词抽取不符合人类偏好的问题。
[0004] 基于上述目的,本申请的第一方面提供了一种基于反馈的模型训练方法,包括:
[0005] 获取事件描述文本;
[0006] 将所述事件描述文本分别输入至预先构建的第一语言模型和第二语言模型,通过所述第一语言模型输出第一概率分布和推荐关键词,通过所述第二语言模型输出第二概率分布,其中,所述第一语言模型和所述第二语言模型用于抽取所述事件描述文本中的关键词;
[0007] 基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数;
[0008] 最小化所述总损失函数以更新所述第一语言模型的模型参数。
[0009] 可选的,所述基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数,包括:
[0010] 根据所述事件描述文本对所述推荐关键词进行打分,得到关键词得分;
[0011] 基于所述第一概率分布和所述第二概率分布计算得到相对熵;
[0012] 基于所述关键词得分和所述相对熵,采用近端策略优化算法构建所述总损失函数。
[0013] 可选的,所述基于所述关键词得分和所述相对熵,采用近端策略优化算法构建所述总损失函数,包括:
[0014] 通过下式确定所述总损失函数 :
[0015]
[0016] 其中, 表示策略损失函数,表示可调节的参数, 表示价值损失函数,所述策略损失函数和所述价值损失函数均是基于所述关键词得分、所述相对熵和所述第一概率分布对应的第一得分向量确定的。
[0017] 可选的,所述策略损失函数通过下式确定:
[0018]
[0019] 其中, 表示优势函数,所述优势函数是基于所述关键词得分和所述相对熵确定的, 表示所述第一概率分布的更新幅度, 表示限幅函数,表示可调节的参数。
[0020] 可选的,所述价值损失函数通过下式确定:
[0021]
[0022]
[0023]
[0024] 其中, 表示更新后的第一得分向量,表示第一得分向量, 表示优势函数,所述优势函数是基于所述关键词得分和所述相对熵确定的, 表示限幅函数,表示可调节的参数。
[0025] 可选的,所述第一语言模型和所述第二语言模型相同,所述第一语言模型和所述第二语言模型均包括多层Transformer编码器;所述第一概率分布和所述第二概率分布是基于所述多层Transformer编码器中倒数第二层Transformer编码器的注意力权重计算得到的;所述第二语言模型的模型参数处于冻结状态。
[0026] 本申请的第二方面提供了一种关键词抽取方法,应用于第一方面所述的第一语言模型,所述方法包括:
[0027] 获取目标文本;
[0028] 将所述目标文本输入至所述第一语言模型中,经由所述第一语言模型输出所述目标文本对应的目标关键词。
[0029] 本申请的第三方面提供了一种基于反馈的模型训练装置,包括:
[0030] 获取模块,被配置为获取事件描述文本;
[0031] 输出模块,被配置为将所述事件描述文本分别输入至预先构建的第一语言模型和第二语言模型,通过所述第一语言模型输出第一概率分布和推荐关键词,通过所述第二语言模型输出第二概率分布,其中,所述第一语言模型和所述第二语言模型用于抽取所述事件描述文本中的关键词;
[0032] 构建模块,被配置为基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数;
[0033] 更新模块,被配置为最小化所述总损失函数以更新所述第一语言模型的模型参数。
[0034] 本申请的第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,述处理器执行所述程序时实现如第一方面或第二方面所述的方法。
[0035] 本申请的第五方面提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行第一方面或第二方面所述的方法。
[0036] 从上面所述可以看出,本申请提供的基于反馈的模型训练方法、关键词抽取方法及相关设备,所述模型训练方法包括:获取事件描述文本,将所述事件描述文本分别输入至预先构建的第一语言模型和第二语言模型,通过所述第一语言模型输出第一概率分布和推荐关键词,通过所述第二语言模型输出第二概率分布,其中,所述第一语言模型和所述第二语言模型用于抽取所述事件描述文本中的关键词。 基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数;最小化所述总损失函数以更新所述第一语言模型的模型参数。本申请的模型训练方法能够通过近端策略优化算法对第一语言模型输出的不符合事件描述文本的关键词进行低分惩罚,以强化学习算法不断优化第一语言模型的模型参数,以提升模型抽取得到的推荐关键词的质量,使推荐关键词更符合人类偏好。

附图说明

[0037] 为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038] 图1为本申请实施例的基于反馈的模型训练方法的流程示意图;
[0039] 图2为本申请另一实施例的基于反馈的模型训练方法的流程示意图;
[0040] 图3为本申请实施例的基于反馈的模型训练装置的结构示意图;
[0041] 图4为本申请实施例的关键词抽取装置的结构示意图;
[0042] 图5为本申请实施例的电子设备硬件结构示意图。

具体实施方式

[0043] 为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
[0044] 需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0045] 社会治理涉及社区管理、环境保护和城市规划等多个方面,主要用于解决社会问题和化解社会矛盾,从而创造一个更加安全和谐的社会环境。近年来,社会治理领域积极运用先进科学技术,如大数据和人工智能等,来丰富不同应用场景下的智能治理手段,为实现治理方式的转型升级和治理效能的提升起到了有效的推动作用。
[0046] 随着在线治理平台规模的不断扩大,社会治理领域每天所产生的文本数据量大幅上涨。但是,这些海量数据中所蕴藏的价值信息需通过智能文本处理技术进行挖掘。关键词抽取技术一直是自然语言处理领域重点研究对象之一,抽取出的关键词虽然结构简短,却依然能够清晰地表达文本本身的含义。
[0047] 常见的关键词提取方法有基于词频统计的TF‑IDF(Term Frequency–Inverse Document Frequency,词频逆文本频率指数)和基于主题建模的LSA(Latent Semantic Analysis,潜在语义分析)和LDA(Latent Dirichlet Allocation,隐含狄利克雷分布),以及基于深度语言模型的BERTopic主题建模技术和KeyBert关键词提取技术等。这些模型致力于提取出有意义的关键词,却忽略了被错误抽取的关键词也可作为反馈信号来引导模型进行自我完善。此外,如何使得模型的输出更加人性化,所抽取的关键词更加符合人类的偏好也是亟需解决的问题。
[0048] 有鉴于此,本申请提出了一种基于反馈的模型训练方法,将基于人类反馈的强化学习RLHF(Reinforcement Learning from Human Feedback)技术引入基于Transformer的编码器模型,通过人工反馈的对于输出结果的评价和强化学习算法来微调编码器模型的模型参数,从而使得模型在关键词抽取上能够获得令人满意的结果。
[0049] 以下结合附图来详细说明本申请的实施例。
[0050] 本申请提供了一种基于反馈的模型训练方法,参考图1,包括以下步骤:
[0051] 步骤102、获取事件描述文本。
[0052] 具体的,本实施例中的事件描述文本可以为非结构化的社会治理事件,示例性的,社会治理事件涉及纠纷、赔偿、环境、婚姻感情等常见社会问题。事件描述文本可通过相关平台或网络爬取获取,此处对事件描述文本的获取途径不作具体限制。
[0053] 步骤104、将所述事件描述文本分别输入至预先构建的第一语言模型和第二语言模型,通过所述第一语言模型输出第一概率分布和推荐关键词,通过所述第二语言模型输出第二概率分布,其中,所述第一语言模型和所述第二语言模型用于抽取所述事件描述文本中的关键词。
[0054] 具体的,在将事件描述文本输入至语言模型之前,需要对事件描述文本进行清洗操作,例如,删除重复事件和无效格式等,从而提升事件描述文本的质量。第一语言模型和第二语言模型是用于对事件描述文本进行关键词抽取的模型。示例性的,本实施例中选取的第一语言模型和第二语言模型均为BERT‑base‑chinese模型,该模型采用基本的BERT架构,包括12层的Transformer编码器,每层有12个自注意力头,总共有110M参数。BERT‑base‑chinese模型中含有多头注意力机制,可以从更深层次理解句子的语义,利用这一特征,可以抽取能够反映文本句子主题的关键词。将事件描述文本输入第一语言模型后,通过第一语言模型的Transformer编码器输出第一得分向量 ,其中,N表示语句中字符的总数。通过softmax对第一得分向量进行归一化操作后得到第一概率分布,第一概率分布中概率 代表第i个字符对应的概率,将最大概率值
对应的字符作为候选字符。确定句子中的候选字符后,可以使用中文分词工具对事件描述文本的句子进行分词,以便确定推荐关键词。示例性的,事件描述文本的句子为“居民反应小区门口有垃圾”,分词后可以为“居民/反应/小区/门口/有/垃圾”,若通过第一语言模型确定的候选字符为“垃”,则将词语“垃圾”确定为推荐关键词。同理,通过第二语言模型的Transformer编码器输出第二得分向量 ,通过softmax对第二得分
向量进行归一化操作后得到第二概率分布 。
[0055] 步骤106、基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数。
[0056] 具体的,近端策略优化(Proximal Policy Optimization,PPO)算法是策略梯度算法的变形,属于强化学习算法。通过近端策略优化算法可以帮助第一语言模型更好的指导自己的决策,调整模型参数,优化模型的输出结果。在本步骤中,基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数。
[0057] 步骤108、最小化所述总损失函数以更新所述第一语言模型的模型参数。
[0058] 具体的,通过反向传播来最小化总损失函数,完成第一语言模型的增强,提升推荐关键词的质量。
[0059] 基于上述步骤102至步骤108,本实施例提供了一种基于反馈的模型训练方法,包括:获取事件描述文本,将所述事件描述文本分别输入至预先构建的第一语言模型和第二语言模型,通过所述第一语言模型输出第一概率分布和推荐关键词,通过所述第二语言模型输出第二概率分布,其中,所述第一语言模型和所述第二语言模型用于抽取所述事件描述文本中的关键词。 基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数;最小化所述总损失函数以更新所述第一语言模型的模型参数。本申请的模型训练方法能够通过近端策略优化算法对第一语言模型输出的不符合事件描述文本的关键词进行低分惩罚,以强化学习算法不断优化第一语言模型的模型参数,以提升模型抽取得到的推荐关键词的质量,使推荐关键词更符合人类偏好。
[0060] 在一些实施例中,所述基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数,包括:
[0061] 根据所述事件描述文本对所述推荐关键词进行打分,得到关键词得分;
[0062] 基于所述第一概率分布和所述第二概率分布计算得到相对熵;
[0063] 基于所述关键词得分和所述相对熵,采用近端策略优化算法构建所述总损失函数。
[0064] 具体的,在对推荐关键词进行打分时,需要考虑事件描述文本的语义,若通过第一语言模型输出的推荐关键词与事件描述文本的语义相符,打分后关键词得分为1,若推荐关键词与事件描述文本的语义不符,打分后关键词得分为0,作为对第一语言模型的低分惩罚。以使第一语言模型能够根据打分的反馈机制通过强化学习对模型参数进行持续优化。相对熵,也称为KL(Kullback‑Leibler divergence)散度或信息散度,是两个概率分布(probability distribution)间差异的非对称性度量。将第一概率分布与第二概率分布之间的差值作为KL散度 。得到了KL散度以及关键词得分后,基于KL散度和关键词
得分构建总损失函数。
[0065] 在一些实施例中,所述基于所述关键词得分和所述相对熵,采用近端策略优化算法构建所述总损失函数,包括:
[0066] 通过下式确定所述总损失函数 :
[0067]
[0068] 其中, 表示策略损失函数,表示可调节的参数, 表示价值损失函数,所述策略损失函数和所述价值损失函数均是基于所述关键词得分、所述相对熵和所述第一概率分布对应的第一得分向量确定的。
[0069] 具体的,构建总损失函数 包括以下步骤:
[0070] 1)计算价值
[0071] 在本实施例中,将第一语言模型近似作为价值函数。使用第一语言模型作为编码器,用来获得句子中每个字符所对应的语义嵌入。编码器上连接一层线性层softmax,线性层softmax的输入是编码器生成的嵌入向量,输出是一维的标量值。因此,将N个字符所组成的事件描述文本的句子输入至第一语言模型会获得第一得分向量,也即价值向量。在关键词抽取任务场景中,我们将第一语言模型对于每个字符的
注意力权重的赋予视作一个动作。若一个句子中含有N个字符,则整个句子的注意力赋予过程中,模型会执行N次动作。价值函数是对模型所执行的动作好坏的评估,即模型对于当前字符所赋予的权重是否合适,从而帮助模型更好地指导自己的决策。
[0072] 2)计算奖励函数
[0073] 模型的每个动作都会有对应的即时奖励。此外,在本实施例中将关键词得分 看作是注意力赋予过程的最终奖励,关键词得分的高低对应着第一语言模型最终是否将注意力集中于关键词所包含的字符上。奖励函数 通过式(2)定义:
[0074]
[0075] (2)
[0076] 其中, 是第一概率分布和第二概率分布相减得到的散度,是可调节的参数值,是关键词得分。
[0077] 3)计算优势函数
[0078] 在更新策略时,需要用到优势函数来计算总损失函数。优势函数是一种衡量当前状态和动作相对于平均水平的优劣程度的函数。优势函数的值越大,表示当前状态和动作越优秀,应该得到更大的奖励。优势函数的作用是为了增加策略更新的稳定性,避免策略更新过于剧烈而导致优化过程不稳定。在近端策略优化算法中计算策略损失时,使用优势函数可以帮助控制裁剪幅度,从而限制策略更新的幅度。优势函数通过式(3)确定:
[0079] (3)
[0080] 其中, ,和 是可调节的参数值,代表句子中包含的字符的数量,表示第 个字符, 和 分别表示奖励函数 和价值向量 中的第 个元素。
[0081] 4)计算策略损失函数
[0082] 本申请中需要更新的是第一语言模型的参数,并希望更新过程中策略的更新幅度在一定范围内,幅度用 表示,即 。 为反向传播最小化策略损失函数后更新的第一语言模型对当前句子所生成的第一概率分布, 为执行旧策略的第一语言模型所产生的第一概率分布。策略损失函数通过式(4)确定:
[0083] (4)
[0084] 其中, 为限幅函数,将向量 中的值限制在 和 之间,以避免策略更新幅度过大,为可调节的参数值。
[0085] 5)计算价值损失函数
[0086] 价值损失函数 通过式(5)确定:
[0087]
[0088]
[0089] (5)
[0090] 其中, 为执行最新价值函数所生成的价值向量,为可调节的标量参数值。
[0091] 6)计算总损失函数Loss
[0092] 总损失函数通过式(6)确定:
[0093] (6)
[0094] 其中,表示可调节的参数,用来平衡策略损失函数和价值损失函数的大小。通过反向传播来最小化总损失函数,完成第一语言模型的增强和价值函数的拟合。
[0095] 综上,通过上述步骤1)至步骤6)完成总损失函数的构建。
[0096] 在一些实施例中,所述第一语言模型和所述第二语言模型相同,所述第一语言模型和所述第二语言模型均包括多层Transformer编码器;所述第一概率分布和所述第二概率分布是基于所述多层Transformer编码器中倒数第二层Transformer编码器的注意力权重计算得到的;所述第二语言模型的模型参数处于冻结状态。
[0097] 具体的,本实施例中,第一语言模型和第二语言模型是相同的语言模型,第一语言模型的模型参数处于持续更新状态,第二语言模型的模型参数处于冻结状态,也即不进行更新。第一语言模型作为提升模型,第二语言模型作为初始模型。以第二语言模型的输出的第二概率分布作为参考,避免第一语言模型更新后输出的第一概率分布偏离初始模型对事件语句的理解。本实施例中,第一语言模型和第二语言模型均包括多层Transformer编码器。实践过程中发现,语言模型中倒数第二层transformer的注意力更加集中,而其他层的注意力更加分散,因此选取倒数第二层transformer的注意力权重来确定句子的关键词。然后将该层中的多个注意力头的注意力权重进行相加,再将每个字符所受到其他字符的注意力求和从而获得得分向量。
[0098] 图2给出了本申请实施例的另一种基于反馈的模型训练方法的流程图,如图2所示,本申请的实施例还可通过以下方式进一步描述:
[0099] 首先进行数据采集,以获取社会治理领域的事件描述文本,将事件描述文本分别输入至第一语言模型和第二语言模型。通过第一语言模型输出第一得分向量,通过第二语言模型输出第二得分向量。通过softmax对第一得分向量和第二得分向量进行归一化处理,得到推荐关键词、第一概率分布和第二概率分布。通过人工对推荐关键词进行打分得到关键词得分,并基于第一概率分布和第二概率分布确定KL散度。基于关键词得分和KL散度,采用近端策略优化算法对第一语言模型的模型参数进行优化。
[0100] 在前述基于反馈的模型训练方法的基础上,本申请还提供了一种关键词抽取方法,应用于前述任意实施例中的第一语言模型,关键词抽取方法包括:
[0101] 获取目标文本;
[0102] 将所述目标文本输入至所述第一语言模型中,经由所述第一语言模型输出所述目标文本对应的目标关键词。
[0103] 具体的,目标文本为待抽取关键词的文本,具体可以为描述社会治安事件的文本。将目标文本输入至第一语言模型之前,对目标文本进行清洗,以去除重复数据和无效格式等。本实施例中的第一语言模型的模型参数已经过更新,将目标文本输入至第一语言模型后,通过第一语言模型输出对应的目标关键词。该目标关键词能够正确反映目标文本的语义,为用户提供更加人性化的关键词抽取服务。
[0104] 需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
[0105] 需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0106] 基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种基于反馈的模型训练装置。
[0107] 参考图3,所述基于反馈的模型训练装置,包括:
[0108] 第一获取模块302,被配置为获取事件描述文本;
[0109] 第一输出模块304,被配置为将所述事件描述文本分别输入至预先构建的第一语言模型和第二语言模型,通过所述第一语言模型输出第一概率分布和推荐关键词,通过所述第二语言模型输出第二概率分布,其中,所述第一语言模型和所述第二语言模型用于抽取所述事件描述文本中的关键词;
[0110] 构建模块306,被配置为基于所述第一概率分布、所述第二概率分布和所述推荐关键词,采用近端策略优化算法构建总损失函数;
[0111] 更新模块308,被配置为最小化所述总损失函数以更新所述第一语言模型的模型参数。
[0112] 在一些实施例中,所述构建模块306,还被配置为根据所述事件描述文本对所述推荐关键词进行打分,得到关键词得分;
[0113] 基于所述第一概率分布和所述第二概率分布计算得到相对熵;
[0114] 基于所述关键词得分和所述相对熵,采用近端策略优化算法构建所述总损失函数。
[0115] 在一些实施例中,所述构建模块306,还被配置为通过下式确定所述总损失函数:
[0116]
[0117] 其中, 表示策略损失函数,表示可调节的参数, 表示价值损失函数,所述策略损失函数和所述价值损失函数均是基于所述关键词得分、所述相对熵和所述第一概率分布对应的第一得分向量确定的。
[0118] 在一些实施例中,所述构建模块306,还被配置为所述策略损失函数通过下式确定:
[0119]
[0120] 其中, 表示优势函数,所述优势函数是基于所述关键词得分和所述相对熵确定的, 表示所述第一概率分布的更新幅度, 表示限幅函数,表示可调节的参数。
[0121] 在一些实施例中,所述构建模块306,还被配置为所述价值损失函数通过下式确定:
[0122]
[0123]
[0124]
[0125] 其中, 表示更新后的第一得分向量,表示第一得分向量, 表示优势函数,所述优势函数是基于所述关键词得分和所述相对熵确定的, 表示限幅函数,表示可调节的参数。
[0126] 在一些实施例中,所述第一语言模型和所述第二语言模型相同,所述第一语言模型和所述第二语言模型均包括多层Transformer编码器;所述第一概率分布和所述第二概率分布是基于所述多层Transformer编码器中倒数第二层Transformer编码器的注意力权重计算得到的;所述第二语言模型的模型参数处于冻结状态。
[0127] 基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种关键词抽取装置。
[0128] 参考图4,所述关键词抽取装置,包括:
[0129] 第二获取模块402,被配置为获取目标文本;
[0130] 第二输出模块404,被配置为将所述目标文本输入至所述第一语言模型中,经由所述第一语言模型输出所述目标文本对应的目标关键词。
[0131] 为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0132] 上述实施例的装置用于实现前述任一实施例中相应的基于反馈的模型训练方法或关键词抽取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0133] 基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于反馈的模型训练方法或关键词抽取方法。
[0134] 图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0135] 处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
[0136] 存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
[0137] 输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/ 模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0138] 通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式 (例如移动网络、WIFI、蓝牙等)实现通信。
[0139] 总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0140] 需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0141] 上述实施例的电子设备用于实现前述任一实施例中相应的基于反馈的模型训练方法或关键词抽取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0142] 基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于反馈的模型训练方法或关键词抽取方法。
[0143] 本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0144] 上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于反馈的模型训练方法或关键词抽取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0145] 所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0146] 另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0147] 尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
[0148] 本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。