一种模型训练和信息推荐的方法及装置转让专利

申请号 : CN202210908680.1

文献号 : CN114999611B

文献日 : 2022-12-20

本说明书公开了一种模型训练和信息推荐的方法及装置，可以获取用户情绪信息以及用户情绪信息对应的标准音频数据，并将该用户情绪信息输入到待训练的生成模型中，以使该生成模型根据预先构建出的知识图谱中与用户情绪信息相匹配的目标节点，确定图谱特征，并根据该图谱特征，生成目标音频，其中，这里提到的知识图谱用于表征各种音频相关信息与各类用户情绪信息之间的关联关系，而后，可以以最小化该目标音频与标准音频数据之间的差异为优化目标，对生成模型进行训练，训练后的生成模型用于根据目标用户的用户情绪信息，为目标用户生成音频，从而在一定程度上生成适合用户的音频，以及提高为用户生成音频的合理性。

1.一种模型训练的方法，包括：

获取用户情绪信息以及所述用户情绪信息对应的标准音频数据；

将所述用户情绪信息与所述标准音频数据输入到待训练的生成模型中，以使所述生成模型确定所述标准音频数据对应的音频特征，并根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定所述用户情绪信息对应的图谱特征，以及根据所述图谱特征和所述音频特征，生成目标音频，所述知识图谱用于表征各种音频相关信息与各类用户情绪信息之间的关联关系；

以最小化所述目标音频与所述标准音频数据之间的差异为优化目标，对所述生成模型进行训练，训练后的所述生成模型用于根据目标用户的用户情绪信息，为所述目标用户生成音频。

2.如权利要求1所述的方法，以最小化所述目标音频与所述标准音频数据之间的差异为优化目标，对所述生成模型进行训练，包括：以最小化所述图谱特征与所述音频特征之间的差异，以及最小化所述目标音频与所述标准音频数据之间的差异为优化目标，对所述生成模型进行训练。

3.如权利要求1所述的方法，将所述用户情绪信息输入到待训练的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定图谱特征,包括：将所述用户情绪信息输入到待训练的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，查询出位于所述目标节点预设邻接范围内的其他节点，并将所述目标节点与所述其他节点组成的子图，作为目标子图；

根据所述目标子图，确定所述图谱特征。

4.如权利要求1所述的方法，将所述用户情绪信息输入到待训练的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定图谱特征，包括：将所述用户情绪信息以及补充信息输入到待训练的生成模型中，以使所述生成模型根据所述知识图谱中与所述用户情绪信息以及所述补充信息相匹配的目标节点，确定图谱特征，所述补充信息包括与所述用户情绪信息相匹配的音频相关信息，音频相关信息包括音频节奏信息、音频风格信息以及乐器信息中的至少一种。

5.如权利要求1所述的方法，所述生成模型包括：音频编码子模型、音频解码子模型以及图谱子模型；

将所述用户情绪信息与所述标准音频数据输入到所述生成模型中，以使所述生成模型确定所述标准音频数据对应的音频特征，并根据所述知识图谱中与所述用户情绪信息相匹配的目标节点，确定图谱特征，以及根据所述音频特征以及所述图谱特征，生成所述目标音频，包括：将所述标准音频数据输入到所述音频编码子模型中，得到所述音频特征，以及将用户情绪信息输入到所述图谱子模型中，以使所述图谱子模型基于所述目标节点，得到所述图谱特征；

将所述图谱特征与所述音频特征输入到所述音频解码子模型中，生成所述目标音频。

6.一种信息推荐的方法，包括：

获取目标用户的用户情绪信息；

将所述用户情绪信息输入到训练后的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定所述用户情绪信息对应的图谱特征，并根据所述图谱特征，生成音频，所述生成模型是通过如权利要求1 5任一项所述的~方法进行训练得到的；

将生成的音频推荐给所述目标用户。

7.一种模型训练的装置，包括：

获取模块，用于获取用户情绪信息以及所述用户情绪信息对应的标准音频数据；

输入模块，用于将所述用户情绪信息与所述标准音频数据输入到待训练的生成模型中，以使所述生成模型确定所述标准音频数据对应的音频特征，并根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定图谱特征，以及根据所述图谱特征和所述音频特征，生成目标音频，所述知识图谱用于表征各种音频相关信息与各类用户情绪信息之间的关联关系；

训练模块，用于以最小化所述目标音频与所述标准音频数据之间的差异为优化目标，对所述生成模型进行训练，训练后的所述生成模型用于根据目标用户的用户情绪信息，为所述目标用户生成音频。

8.一种信息推荐的装置，包括：

获取模块，用于获取目标用户的用户情绪信息；

输入模块，用于将所述用户情绪信息输入到训练后的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定所述用户情绪信息对应的图谱特征，并根据所述图谱特征，生成音频，所述生成模型是通过如权利要求1~

5任一项所述的方法进行训练得到的；

推荐模块，用于将生成的音频推荐给所述目标用户。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1 6任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1 6任一项所述的方法。

一种模型训练和信息推荐的方法及装置

技术领域

[0001] 本说明书涉及计算机技术领域，尤其涉及一种模型训练和信息推荐的方法及装置。

背景技术

[0002] 在音乐治疗领域中，医生可以根据患者的情绪，为患者播放适当的音乐。

[0003] 在现有技术中，可以人为根据经验，从已有的曲库中选取出乐曲，为用户播放音乐，但是这种方式，不一定能为用户选取出最为合适的音乐，并且，人为选取出的乐曲也有可能会比较单一。

[0004] 所以，如何为用户提供更为合理的音乐以及保护用户的隐私数据，则是一个亟待解决的问题。

发明内容

[0005] 本说明书提供一种模型训练和信息推荐的方法及装置，以生成更加适合用户心理的音乐。

[0006] 本说明书采用下述技术方案：

[0007] 本说明书提供一种模型训练的方法，包括：

[0008] 获取用户情绪信息以及所述用户情绪信息对应的标准音频数据；

[0009] 将所述用户情绪信息输入到待训练的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定所述用户情绪信息对应的图谱特征，并根据所述图谱特征，生成目标音频，所述知识图谱用于表征各种音频相关信息与各类用户情绪信息之间的关联关系；

[0010] 以最小化所述目标音频与所述标准音频数据之间的差异为优化目标，对所述生成模型进行训练，训练后的所述生成模型用于根据目标用户的用户情绪信息，为所述目标用户生成音频。

[0011] 可选地，将所述用户情绪信息输入到待训练的生成模型中，以使所述生成模型根据预先构建出的知识图谱中的与所述用户情绪信息相匹配的目标节点，确定所述用户情绪信息对应的图谱特征，并根据所述图谱特征，生成目标音频,包括：

[0012] 将所述用户情绪信息与所述标准音频数据输入到所述生成模型中，以使所述生成模型确定所述标准音频数据对应的音频特征，并根据所述知识图谱中与所述用户情绪信息相匹配的目标节点，确定所述用户情绪信息对应图谱特征，以及根据所述音频特征与所述图谱特征，生成所述目标音频。

[0013] 可选地，以最小化所述目标音频与所述标准音频数据之间的差异为优化目标，对所述生成模型进行训练，包括：

[0014] 以最小化所述图谱特征与所述音频特征之间的差异，以及最小化所述目标音频与所述标准音频数据之间的差异为优化目标，对所述生成模型进行训练。

[0015] 可选地，将所述用户情绪信息输入到待训练的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定图谱特征,包括：

[0016] 将所述用户情绪信息输入到待训练的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，查询出位于所述目标节点预设邻接范围内的其他节点，并将所述目标节点与所述其他节点组成的子图，作为目标子图；

[0017] 根据所述目标子图，确定所述图谱特征。

[0018] 可选地，将所述用户情绪信息输入到待训练的生成模型中，以使所述生成模型根据预先构建出的知识图谱中的与所述用户情绪信息相匹配的目标节点，确定图谱特征，包括：

[0019] 将所述用户情绪信息以及补充信息输入到待训练的生成模型中，以使所述生成模型根据所述知识图谱中与所述用户情绪信息以及所述补充信息相匹配的目标节点，确定图谱特征，所述补充信息包括与所述用户情绪信息相匹配的音频相关信息，音频相关信息包括音频节奏信息、音频风格信息以及乐器信息中的至少一种。

[0020] 可选地，所述生成模型包括：音频编码子模型、音频解码子模型以及图谱子模型；

[0021] 将所述用户情绪信息与所述标准音频数据输入到所述生成模型中，以使所述生成模型确定所述标准音频数据对应的音频特征，并根据所述知识图谱中与所述用户情绪信息相匹配的目标节点，确定图谱特征，以及根据所述音频特征以及所述图谱特征，生成所述目标音频，包括：

[0022] 将所述标准音频数据输入到所述音频编码子模型中，得到所述音频特征，以及用户情绪信息输入到所述图谱子模型中，以使所述图谱子模型基于所述目标节点，得到所述图谱特征；

[0023] 将所述图谱特征与所述音频特征输入到所述音频解码子模型中，生成所述目标音频。

[0024] 本说明书中一种信息推荐的方法，包括：

[0025] 获取目标用户的用户情绪信息；

[0026] 将所述用户情绪信息输入到训练后的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定图谱特征，并根据所述图谱特征，生成音频，所述生成模型是通过模型训练的方法进行训练得到的；

[0027] 将生成的音频推荐给所述目标用户。

[0028] 本说明书提供一种模型训练的装置，包括：

[0029] 获取模块，用于获取用户情绪信息以及所述用户情绪信息对应的标准音频数据；

[0030] 输入模块，用于将所述用户情绪信息输入到待训练的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定图谱特征，并根据所述图谱特征，生成目标音频，所述知识图谱用于表征各种音频相关信息与各类用户情绪信息之间的关联关系；

[0031] 训练模块，用于以最小化所述目标音频与所述标准音频数据之间的差异为优化目标，对所述生成模型进行训练，训练后的所述生成模型用于根据目标用户的用户情绪信息，为所述目标用户生成音频。

[0032] 本说明书提供一种信息推荐的装置，包括：

[0033] 获取模块，用于获取目标用户的用户情绪信息；

[0034] 输入模块，用于将所述用户情绪信息输入到训练后的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定图谱特征，并根据所述图谱特征，生成音频，所述生成模型是通过模型训练的方法进行训练得到的；

[0035] 推荐模块，用于将生成的音频推荐给所述目标用户。

[0036] 本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练或信息推荐的方法。

[0037] 本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述模型训练或信息推荐的方法。

[0038] 本说明书采用的上述至少一个技术方案能够达到以下有益效果：

[0039] 在本说明书中提供的模型训练和信息推荐的方法中，可以获取用户情绪信息以及用户情绪信息对应的标准音频数据，并将该用户情绪信息输入到待训练的生成模型中，以使该生成模型根据预先构建出的知识图谱中与用户情绪信息相匹配的目标节点，确定图谱特征，并根据该图谱特征，生成目标音频，其中，这里提到的知识图谱用于表征各种音频相关信息与各类用户情绪信息之间的关联关系，而后，可以以最小化该目标音频与标准音频数据之间的差异为优化目标，对生成模型进行训练，训练后的生成模型用于根据目标用户的用户情绪信息，为目标用户生成音频。

[0040] 从上述内容中可以看出，本方法可以通过生成模型，以及依据适合特定用户情绪的标准音频数据，以及预先构建出的包含有大量的音频相关信息和用户心理信息之间关联关系的知识图谱中确定出的符合该用户心理信息的子图进行编码，进行音乐的生成，从而在生成音乐的过程中，可以结合大量的音乐的相关信息和用户情绪之间的关联，来生成音乐，尽量可以为用户生成合理且适合用户的音频。

附图说明

[0041] 此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

[0042] 图1为本说明书中一种模型训练的方法的流程示意图；

[0043] 图2为本说明书中提供的一种生成模型的结构示意图；

[0044] 图3为本说明书中提供的一种知识图谱的形式示意图；

[0045] 图4为本说明书中一种信息推荐的方法的流程示意图；

[0046] 图5为本说明书提供的一种模型训练的装置示意图；

[0047] 图6为本说明书提供的一种信息推荐的装置示意图；

[0048] 图7为本说明书提供的一种对应于图1或4的电子设备示意图。

具体实施方式

[0049] 为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

[0050] 以下结合附图，详细说明本说明书各实施例提供的技术方案。

[0051] 图1为本说明书中一种模型训练的方法的流程示意图，具体包括以下步骤：

[0052] S100：获取用户情绪信息以及所述用户情绪信息对应的标准音频数据。

[0053] 在实际应用中，往往存在生成音乐的需求，在此基础上，业务平台可以构建出用于表示各种音频相关信息与各种用户情绪信息之间关联关系的知识图谱，该知识图谱可以用于在后续训练出能够依据用户情绪为用户生成音频（可包含音乐、视频等）的模型。音频相关信息可以包括音频节奏信息、音频风格信息、音乐流派、所属艺人以及乐器信息等，也就是说，音频相关信息可以为多种维度下和音频中音乐相关的信息。

[0054] 基于此，业务平台可以获取训练样本，训练样本中可以包括用户情绪信息以及用户情绪信息对应的标准音频数据，用户心理信息用于表示用户的情绪状态，例如，用户是开心，还是悲伤，抑或是忧郁等。当然训练样本中除用户情绪信息外还可以包括一些其他的补充信息。例如，还可以包括用户基本信息，如年龄、性别、星座等；再例如，还可以包括用户情绪信息相匹配的音频相关信息，在使用生成模型生成音频时，该与用户情绪信息相匹配的音频相关信息可以是指用户自己输入或者为用户进行音乐治疗的医生根据用户的心理状态判断出的用户适合的音乐风格，在训练过程中，该与用户情绪信息相匹配的音频相关信息可以是依据专家经验给出的。标准音频数据也可以是指由相关专家给出的适合该用户情绪信息下的用户的音频数据。

[0055] 其中，本方案可以应用在多种场景中，如音乐治疗场景以及红包发送的场景中，例如在音乐治疗场景中，可以由用户（可以理解为需要进行音乐治疗的患者）说出或者输入一句话，业务平台可以基于这句话确定用户的情绪，并为用户提供适合的音乐，而在红包发送的场景中，在用户发红包时可以输入附赠的一句话，通过这句话也可以确定出用户的情绪，并可以为用户生成相应的音乐，收取红包的用户在收取红包时，可以为收取红包的用户播放这段音乐。

[0056] 因此，上述提到的用户情绪信息可以通过一段文本或者用户输入的语音确定出，这段文本或语音，在应用生成模型执行业务时，可以是用户自行输入的，而在模型训练阶段，可以批量获取一些文本，并人工进行筛选得到。

[0057] S102：将所述用户情绪信息输入到待训练的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定图谱特征，并根据所述图谱特征，生成目标音频，所述知识图谱用于表征各种音频相关信息与各类用户情绪信息之间的关联关系。

[0058] S104：以最小化所述目标音频与所述标准音频数据之间的差异为优化目标，对所述生成模型进行训练，训练后的所述生成模型用于根据目标用户的用户情绪信息，为所述目标用户生成音频。

[0059] 得到训练样本后，可以将训练样本中的用户情绪信息，输入到待训练的生成模型中，以使该生成模型根据预先构建出的知识图谱中与该用户情绪信息相匹配的目标节点，确定所述用户情绪信息对应的图谱特征，并根据该图谱特征，生成目标音频，而后，以最小化该目标音频与该标准音频数据之间的差异为优化目标，对生成模型进行训练，训练后的生成模型用于根据目标用户的用户情绪信息，为目标用户生成音频，其中，该知识图谱可以用于表征各种音频相关信息与各类用户情绪信息之间的关联关系。

[0060] 其中，可以将用户情绪信息与标准音频数据输入到生成模型中，以使该生成模型确定该标准音频数据对应的音频特征，并根据知识图谱中与用户情绪信息相匹配的目标节点，确定用户情绪信息对应图谱特征，以及根据音频特征与图谱特征，生成目标音频。而后，可以以最小化该生成模型得到的图谱特征与该音频特征之间的差异，以及最小化生成模型生成出的目标音频与训练样本中的标准音频数据之间的差异为训练目标，对该生成模型进行训练。

[0061] 需要说明的，由于在实际为用户生成音频的过程中，是直接通过用户情绪信息生成音频，不存在标准音频数据，因此，在上述训练过程中，需要使得图谱特征与音频特征之间的差异最小，以使图谱特征尽量学习到音频特征，从而在使用生成模型为用户生成音频时，即使不存在任何音频，业务平台通过在训练阶段生成模型中用于生成图谱特征的模型结构学习到的音频特征，也能够为用户生成出音频。

[0062] 由于知识图谱中包含有不同种用户情绪信息对应的节点（可以称之为情绪节点）。因此，上述提到的目标节点具体可以是指，训练样本中的用户情绪信息在知识图谱中所对应的情绪节点，当然，目标节点还可以包括与该情绪节点具有直接或间接连接关系，当然，在通过目标节点确定上述图谱特征，并不一定是直接将目标节点的特征，或者将与目标节点具有直接或间接连接关系的节点的特征，作为图谱特征。具体的，在通过该目标节点，确定上述图谱特征时，可以将用户情绪信息输入到待训练的生成模型中，以使生成模型根据预先构建出的知识图谱中与用户情绪信息相匹配的目标节点，查询出位于目标节点预设邻接范围内的其他节点，并将该目标节点与其他节点组成的子图，作为目标子图，并根据该目标子图，确定出上述图谱特征。

[0063] 其中，根据目标子图确定出的图谱特征，可以是指根据目标子图中所包含的所有节点的节点特征，得到的图谱特征，得到的图谱特征可以是指将节点特征进行平均池化得到的，并且，目标子图可能并不唯一，既可以根据多个目标子图生成多个音频，也可以将多个目标子图进行合并，得到唯一的图谱特征。

[0064] 在本说明书中，业务平台除了用户情绪信息之外，还可以参考其他信息生成音频，例如。其他信息可包括：由用户自行输入的一些音频相关信息，或者由医生结合用户的情绪给出的音频相关信息，还可以包括用户自身的一些信息，即，用户基本信息，因此，在训练模型时，可以将用户情绪信息以及补充信息输入到待训练的生成模型中，以使生成模型根据预先构建出的知识图谱中的与用户情绪信息以及补充信息相匹配的目标节点，确定图谱特征。

[0065] 其中，补充信息可以包括与用户情绪信息相匹配的音频相关信息，与用户情绪信息相匹配的音频相关信息可以是指基于相关专家经验根据用户情绪信息确定出的适合该用户情绪信息下的用户的音频的音频相关信息。当然，补充信息还可以包括用户基本信息、以及用户自行输入的用户情绪信息，其中，在训练过程中，补充信息可以由人为确定出，而在线上应用该生成模型为用户生成音乐后，则可以通过用户行为继续对该生成模型进行训练，因此，通过用户行为信息，可以得到新的训练数据，新的训练数据中的补充信息可以存在有医生确定出的适合该用户情绪信息下的用户听的音频的音频相关信息，或者用户自行输入的音频相关信息，以及用户实际的用户基本信息。

[0066] 需要说明的是，在生成模型中可以存在有两个结构，其中一个结构用于得到上述图谱特征，另一结构用于得到上述标准音频数据对应的音频特征，即，生成模型中可以包含音频编码子模型、音频解码子模型以及图谱子模型，音频编码子模型可以是指生成模型中用于生成音频特征的结构，图谱子模型可以是指生成模型中用于生成和用户情绪信息相匹配的知识图谱中部分结构的图谱特征的那一部分。

[0067] 可以将标准音频数据输入到音频编码子模型中，得到音频特征，以及将用户情绪信息输入到图谱子模型中，以使该图谱子模型基于该目标节点，得到图谱特征，并将图谱特征与音频特征输入到音频解码子模型中，生成目标音频，而后，可以以最小化该图谱特征与该音频特征之间的偏差，以及最小化该目标音频与训练样本中的标准音频数据之间的偏差为训练目标，对音频编码子模型、音频解码子模型以及图谱子模型进行联合训练。

[0068] 具体的生成模型的模型结构可以如图2所示。

[0069] 图2为本说明书中提供的一种生成模型的结构示意图。

[0070] 图2中展示出的音频编码子模型与音频解码子模型具体可由AutoEncoder，即，自编码生成器结构构成，图谱子模型具体可由一种GNN结构构成，当然，音频解码子模型后还可以接入一个判别模型的结构，这样一来，可将音频解码子模型与判别模型组成GAN网络结构，以使音频解码子模型生成更加真实的音频。

[0071] 需要说明的是，上述提到的构建出的知识图谱可以表示出各种音频相关信息与各种用户情绪信息之间的关联关系，当然，该知识图谱中还可以表示出各种音频相关信息之间的关联关系，以及用户自身的一些信息（即用户基本信息）与各种音频相关信息之间的关联关系。

[0072] 具体的，在构建该知识图谱时，可以构建每种音频相关信息对应的信息节点，以及每种用户情绪信息对应的情绪节点，并根据每种音频相关信息之间的关联关系，构建各信息节点之间的边，以及根据每种用户情绪信息与每种音频相关信息之间的关联关系，构建信息节点与情绪节点之间的边，以得到该知识图谱，当然，该知识图谱中还可以包含有用户基本信息（如年龄、性别等）对应的节点，还可以根据每种用户基本信息与音频相关信息之间的关系，构建用户基本信息对应的节点与信息节点之间的边。

[0073] 例如，音频相关信息可以包括音乐流派、音频节奏等，而音乐治疗领域上的专家经验可以给出什么样的情绪需要什么样流派、节奏、风格等的音乐这一信息，从而，可以通过这一信息得到每种用户情绪信息与每种音频相关信息之间的关联关系，进而构建得到信息节点与心理节点之间的边，而用户基本信息则可以包含年龄、性别等，也可以什么样年龄、性别的用户适合什么样的音乐，从而构建得到用户基本信息对应的节点与信息节点之间的边。

[0074] 具体本说明书中的知识图谱的形式可以如图3所示。

[0075] 图3为本说明书中提供的一种知识图谱的形式示意图。

[0076] 从图3中可以看出，音频相关信息中可以包括歌曲名、艺人、乐器信息、流派信息等，知识图谱中可以表示出这些音频相关信息之间的关系，即，哪首歌属于哪个流派、歌手、乐器等，还可以表示出什么样的情绪适合什么样的歌曲，从而，生成模型可以根据用户情绪信息以及补充信息，在知识图谱中查询出与该用户情绪信息和补充信息相符合的子图，作为目标子图，其中，在使用该生成模型生成音频时，有可能可以选取出多个目标子图，则可以通过每个目标子图均生成一段音频，用户可以自行选择需要的音频进行播放，而用户选择出的音频则是用户更加倾向的音乐，可以根据用户选择出的音频，重新得到训练样本，并根据该训练样本继续对生成模型进行训练。

[0077] 图4为本说明书中一种信息推荐的方法的流程示意图，具体包括以下步骤：

[0078] S400：获取目标用户的用户情绪信息。

[0079] S402：将所述用户情绪信息输入到训练后的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定所述用户情绪信息对应的图谱特征，并根据所述图谱特征，生成音频，所述生成模型是通过模型训练的方法进行训练得到的。

[0080] S403：将生成的音频推荐给所述目标用户。

[0081] 在实际使用生成模型生成音频的过程中，业务平台可以获取目标用户的用户情绪信息，将用户情绪信息输入到训练后的生成模型中，以使生成模型根据预先构建出的知识图谱中与用户情绪信息相匹配的目标节点，确定用户情绪信息对应的图谱特征，并根据图谱特征，生成音频，将生成的音频推荐给目标用户，其中，该生成模型是通过上述模型训练的方法进行训练得到的。

[0082] 其中，目标用户可以是指通过终端或客户端向业务平台发送音频生成请求的用户，该目标用户在音乐治疗场景中，既可以是患者，也可以是需要为患者进行治疗的医生，而在发送红包的场景中，目标用户可以是指发送红包或者接收红包的用户。业务平台接收到目标用户的音频生成请求，可以将该音频生成请求中的用户情绪信息输入到生成模型中。

[0083] 从上述方法中可以看出，本方法可以通过生成模型，以及依据适合特定用户情绪信息的音频数据，以及预先构建出的包含有大量音频相关信息和各类用户情绪信息之间关联关系的知识图谱中确定出的符合该用户情绪信息的子图进行编码，进行音乐的生成，从而在生成音乐的过程中，可以结合大量的音频相关信息和用户情绪状态之间的关联，来生成音乐，尽量可以为用户生成合理并且适合用户的音频。

[0084] 以上为本说明书的一个或多个实施例提供的模型训练和信息推荐的方法，基于同样的思路，本说明书还提供了模型训练和信息推荐的装置，如图5、图6所示。

[0085] 图5为本说明书提供的一种模型训练的装置示意图，具体包括：

[0086] 获取模块501，用于获取用户情绪信息以及所述用户情绪信息对应的标准音频数据；

[0087] 输入模块502，用于将所述用户情绪信息输入到待训练的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定图谱特征，并根据所述图谱特征，生成目标音频，所述知识图谱用于表征各种音频相关信息与各类用户情绪信息之间的关联关系；

[0088] 训练模块503，用于以最小化所述目标音频与所述标准音频数据之间的差异为优化目标，对所述生成模型进行训练，训练后的所述生成模型用于根据目标用户的用户情绪信息，为所述目标用户生成音频。

[0089] 可选地，所述输入模块502具体用于，将所述用户情绪信息与所述标准音频数据输入到所述生成模型中，以使所述生成模型确定所述标准音频数据对应的音频特征，并根据所述知识图谱中与所述用户情绪信息相匹配的目标节点，确定所述用户情绪信息对应图谱特征，以及根据所述音频特征与所述图谱特征，生成所述目标音频。

[0090] 可选地，所述训练模块503具体用于，以最小化所述图谱特征与所述音频特征之间的差异，以及最小化所述目标音频与所述标准音频数据之间的差异为优化目标，对所述生成模型进行训练。

[0091] 可选地，所述输入模块502具体用于，将所述用户情绪信息输入到待训练的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，查询出位于所述目标节点预设邻接范围内的其他节点，并将所述目标节点与所述其他节点组成的子图，作为目标子图；根据所述目标子图，确定所述图谱特征。

[0092] 可选地，所述输入模块502具体用于，将所述用户情绪信息以及补充信息输入到待训练的生成模型中，以使所述生成模型根据所述知识图谱中与所述用户情绪信息以及所述补充信息相匹配的目标节点，确定图谱特征，所述补充信息包括与所述用户情绪信息相匹配的音频相关信息，音频相关信息包括音频节奏信息、音频风格信息以及乐器信息中的至少一种。

[0093] 可选地，所述生成模型包括：音频编码子模型、音频解码子模型以及图谱子模型；

[0094] 所述输入模块502具体用于，将所述标准音频数据输入到所述音频编码子模型中，得到所述音频特征，以及用户情绪信息输入到所述图谱子模型中，以使所述图谱子模型基于所述目标节点，得到所述图谱特征；将所述图谱特征与所述音频特征输入到所述音频解码子模型中，生成所述目标音频。

[0095] 图6为本说明书提供的一种信息推荐的装置示意图，具体包括：

[0096] 获取模块601，用于获取目标用户的用户情绪信息；

[0097] 输入模块602，用于将所述用户情绪信息输入到训练后的生成模型中，以使所述生成模型根据预先构建出的知识图谱中与所述用户情绪信息相匹配的目标节点，确定所述用户情绪信息对应的图谱特征，并根据所述图谱特征，生成音频，所述生成模型是通过模型训练的方法进行训练得到的；

[0098] 推荐模块603，用于将生成的音频推荐给所述目标用户。

[0099] 本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述异常检测的方法。

[0100] 本说明书还提供了图7所示的电子设备的示意结构图。如图7所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述模型训练和信息推荐的方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

[0101] 在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable Gate Array，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware Description Language）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby Hardware Description Language）等，目前最普遍使用的是VHDL（Very‑High‑Speed Integrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

[0102] 控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

[0103] 上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

[0104] 为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

[0105] 本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD‑ROM、光学存储器等）上实施的计算机程序产品的形式。

[0106] 本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

[0107] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

[0108] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

[0109] 在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

[0110] 内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

[0111] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

[0112] 还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

[0113] 本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD‑ROM、光学存储器等）上实施的计算机程序产品的形式。

[0114] 本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理节点来执行任务。在分布式计算环境中，程序模块可以位于包括存储节点在内的本地和远程计算机存储介质中。

[0115] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0116] 以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

一种模型训练和信息推荐的方法及装置转让专利

申请号 : CN202210908680.1

文献号 : CN114999611B

文献日 : 2022-12-20

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 张长浩 , 许小龙 , 傅欣艺 , 王维强

申请人 : 支付宝(杭州)信息技术有限公司

摘要 :

权利要求 :

说明书 :