音频调整方法、系统、计算机设备和计算机可读存储介质专利检索-电声乐器由机电装置或电子发生器产生音调的乐器或从数据存储器合成音调的乐器专利检索查询-专利查询网

IPRDB

API 数据接口

专利申请

使用指引 chat嘟嘟

会员体验

联系我们

交流群

现在联系顾问~

音频调整方法、系统、计算机设备和计算机可读存储介质
申请号	CN202311663676.4	申请日	2023-12-06	公开(公告)号	CN117854458A	公开(公告)日	2024-04-09
申请人	北京航空航天大学;			发明人	岳伯禹; 李成;
摘要	本发明公开了一种音频调整方法、系统、计算机设备和计算机可读存储介质，涉及音频处理技术领域，方法包括：对待调整音频进行分轨，得到每个声源对应的音轨数据；确定至少一个目标声源，并对每个目标声源对应的音轨数据进行变调处理，得到每个目标声源对应的最终音轨数据；将每个目标声源对应的最终音轨数据和未进行变调处理的音轨数据进行合并，得到调整好的音频。本发明只需要录制一次音频，通过对声源对应的音轨数据进行变调处理，能够更灵活地实现不同的音频效果，极大降低经济成本和时间成本。
权利要求	1.一种音频调整方法，其特征在于，包括：对待调整音频进行分轨，得到每个声源对应的音轨数据；确定至少一个目标声源，并对每个目标声源对应的音轨数据进行变调处理，得到每个目标声源对应的最终音轨数据；将每个目标声源对应的最终音轨数据和未进行变调处理的音轨数据进行合并，得到调整好的音频。 2.根据权利要求1所述的一种音频调整方法，其特征在于，还包括：当所述待调整音频为音乐时，且当用户正在听调整好的音乐时，获取所述用户的面部图像；根据所述用户的面部图像，对所述用户的情绪进行识别，得到所述用户的情绪识别结果；根据所述用户的情绪识别结果，调整正在播放的所述调整好的音乐的音量和节奏。 3.根据权利要求1所述的一种音频调整方法，其特征在于，还包括：当所述待调整音频为音乐时，且当用户正在听调整好的音乐时，获取含有所述用户的面部的视频，从所述视频中提取多个关键帧，将每个关键帧分别输入训练好的情绪识别模型，得到每个关键帧对应的情绪识别结果；根据每个关键帧对应的情绪识别结果，确定所述用户的最终的情绪识别结果；根据所述用户的最终的情绪识别结果，调整正在播放的所述调整好的音乐的音量和节奏。 4.根据权利要求1至3任一项所述的一种音频调整方法，其特征在于，还包括：对初始音频进行去噪处理后，得到所述待调整音频。 5.一种音频调整系统，其特征在于，包括分轨模块、变调处理模块和合并模块；所述分轨模块用于：对待调整音频进行分轨，得到每个声源对应的音轨数据；所述变调处理模块用于：确定至少一个目标声源，并对每个目标声源对应的音轨数据进行变调处理，得到每个目标声源对应的最终音轨数据；所述合并模块用于：将每个目标声源对应的最终音轨数据和未进行变调处理的音轨数据进行合并，得到调整好的音频。 6.根据权利要求5所述的一种音频调整系统，其特征在于，还包括第一识别调整模块，所述第一识别调整模块用于：当所述待调整音频为音乐时，且当用户正在听调整好的音乐时，获取所述用户的面部图像；根据所述用户的面部图像，对所述用户的情绪进行识别，得到所述用户的情绪识别结果；根据所述用户的情绪识别结果，调整正在播放的所述调整好的音乐的音量和节奏。 7.根据权利要求5所述的一种音频调整系统，其特征在于，还包括第二识别调整模块，所述第二识别调整模块用于：当所述待调整音频为音乐时，且当用户正在听调整好的音乐时，获取含有所述用户的面部的视频，从所述视频中提取多个关键帧，将每个关键帧分别输入训练好的情绪识别模型，得到每个关键帧对应的情绪识别结果；根据每个关键帧对应的情绪识别结果，确定所述用户的最终的情绪识别结果；根据所述用户的最终的情绪识别结果，调整正在播放的所述调整好的音乐的音量和节奏。 8.根据权利要求5至7任一项所述的一种音频调整系统，其特征在于，还包括去噪模块，所述去噪模块用于：对初始音频进行去噪处理后，得到所述待调整音频。 9.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器与存储器耦合，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述计算机设备实现权利要求1至4任一项所述的一种音频调整方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使计算机实现权利要求1至4任一项所述的一种音频调整方法。
说明书全文	音频调整方法、系统、计算机设备和计算机可读存储介质技术领域 [0001] 本发明涉及音频处理技术领域，尤其涉及一种音频调整方法、系统、计算机设备和计算机可读存储介质。背景技术 [0002] 目前，若使同一首歌实现男女对唱效果、多人混唱效果或单人演唱效果时，需要录制该首歌的不同演唱版本，具有经济成本高、时间成本高的技术问题，且录制该首歌时，还可能会发生演唱失误等情况，进一步提高了时间成本。发明内容 [0003] 本发明所要解决的技术问题是针对现有技术的不足，具体针对现在录制歌曲中存在的经济成本高和时间成本高等问题，具体提供了一种音频调整方法、系统、计算机设备和计算机可读存储介质，以降低经济成本和时间成本，具体如下： [0004] 1)第一方面，本发明提供一种音频调整方法，具体技术方案如下： [0005] 对待调整音频进行分轨，得到每个声源对应的音轨数据； [0006] 确定至少一个目标声源，并对每个目标声源对应的音轨数据进行变调处理，得到每个目标声源对应的最终音轨数据； [0007] 将每个目标声源对应的最终音轨数据和未进行变调处理的音轨数据进行合并，得到调整好的音频。 [0008] 本发明提供的一种音频调整方法的有益效果如下： [0009] 只需要录制一次音频，通过对声源对应的音轨数据进行变调处理，能够更灵活地实现不同的音频效果，极大降低经济成本和时间成本。 [0010] 在上述方案的基础上，本发明的一种音频调整方法还可以做如下改进。 [0011] 进一步，还包括： [0012] 当所述待调整音频为音乐时，且当用户正在听调整好的音乐时，获取所述用户的面部图像； [0013] 根据所述用户的面部图像，对所述用户的情绪进行识别，得到所述用户的情绪识别结果； [0014] 根据所述用户的情绪识别结果，调整正在播放的所述调整好的音乐的音量和节奏。 [0015] 采用上述进一步方案的有益效果是：通过对用户情绪进行准确识别，然后调整正在播放的所述调整好的音乐的音量和节奏，以达到为用户调节情绪的目的。 [0016] 进一步，还包括： [0017] 当所述待调整音频为音乐时，且当用户正在听调整好的音乐时，获取含有所述用户的面部的视频，从所述视频中提取多个关键帧，将每个关键帧分别输入训练好的情绪识别模型，得到每个关键帧对应的情绪识别结果； [0018] 根据每个关键帧对应的情绪识别结果，确定所述用户的最终的情绪识别结果； [0019] 根据所述用户的最终的情绪识别结果，调整正在播放的所述调整好的音乐的音量和节奏。 [0020] 采用上述进一步方案的有益效果是：通过对用户情绪进行准确识别，然后调整正在播放的所述调整好的音乐的音量和节奏，以达到为用户调节情绪的目的。 [0021] 进一步，还包括：对初始音频进行去噪处理后，得到所述待调整音频。 [0022] 采用上述进一步方案的有益效果是：通过对初始音频进行去噪处理，能够获取更高质量的待调整音频如音乐等，能够满足用户需求，提高用户体验度。 [0023] 2)第二方面，本发明还提供一种音频调整系统，具体技术方案如下： [0024] 包括分轨模块、变调处理模块和合并模块； [0025] 所述分轨模块用于：对待调整音频进行分轨，得到每个声源对应的音轨数据； [0026] 所述变调处理模块用于：确定至少一个目标声源，并对每个目标声源对应的音轨数据进行变调处理，得到每个目标声源对应的最终音轨数据； [0027] 所述合并模块用于：将每个目标声源对应的最终音轨数据和未进行变调处理的音轨数据进行合并，得到调整好的音频。 [0028] 在上述方案的基础上，本发明的一种音频调整系统还可以做如下改进。 [0029] 进一步，还包括第一识别调整模块，所述第一识别调整模块用于： [0030] 当所述待调整音频为音乐时，且当用户正在听调整好的音乐时，获取所述用户的面部图像； [0031] 根据所述用户的面部图像，对所述用户的情绪进行识别，得到所述用户的情绪识别结果； [0032] 根据所述用户的情绪识别结果，调整正在播放的所述调整好的音乐的音量和节奏。 [0033] 进一步，还包括第二识别调整模块，所述第二识别调整模块用于： [0034] 当所述待调整音频为音乐时，且当用户正在听调整好的音乐时，获取含有所述用户的面部的视频，从所述视频中提取多个关键帧，将每个关键帧分别输入训练好的情绪识别模型，得到每个关键帧对应的情绪识别结果； [0035] 根据每个关键帧对应的情绪识别结果，确定所述用户的最终的情绪识别结果； [0036] 根据所述用户的最终的情绪识别结果，调整正在播放的所述调整好的音乐的音量和节奏。 [0037] 进一步，还包括去噪模块，所述去噪模块用于：对初始音频进行去噪处理后，得到所述待调整音频。 [0038] 3)第三方面，本发明还提供一种计算机设备，计算机设备包括处理器，处理器与存储器耦合，存储器中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行，以使计算机设备实现上述任一种音频调整方法。 [0039] 4)第四方面，本发明还提供一种计算机可读存储介质，计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行，以使计算机实现上述任一种音频调整方法。 [0040] 需要说明的是，本发明的第二方面至第四方面的技术方案及对应的可能的实现方式所取得的有益效果，可以参见上述对第一方面及其对应的可能的实现方式的技术效果，此处不再赘述。附图说明 [0041] 通过阅读参照以下附图所作的对非限制性实施例的详细描述，本发明的其它特征、目的和优点将会变得更明显： [0042] 图1为本发明实施例的一种音频调整方法的流程示意图； [0043] 图2为调整正在播放的调整好的音乐的音量和节奏的流程示意图之一； [0044] 图3为调整正在播放的调整好的音乐的音量和节奏的流程示意图之二； [0045] 图4为本发明实施例的一种音频调整方法的结构示意图； [0046] 图5为本发明实施例的一种计算机设备的结构示意图。具体实施方式 [0047] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。 [0048] 如图1所示，本发明实施例的一种音频调整方法，包括如下步骤： [0049] S1、对待调整音频进行分轨，得到每个声源对应的音轨数据； [0050] 其中，待调整音频具体可为音乐、用户自行录制的说话音频、或录制的猫叫声等，音乐为纯音乐或歌曲，纯音乐中的声源包括：纯音乐所涉及的乐器如吉他、钢琴等。歌曲中的声源包括：歌曲所涉及的乐器以及演唱者，用户自行录制的说话音频包括：用户以及环境中的声源如车鸣等，录制的猫叫声中的声源包括：猫以及环境中的声源如车鸣等。 [0051] S2、确定至少一个目标声源，并对每个目标声源对应的音轨数据进行变调处理，得到每个目标声源对应的最终音轨数据； [0052] S3、将每个目标声源对应的最终音轨数据和未进行变调处理的音轨数据进行合并，得到调整好的音频，具体地： [0053] 1)例如，若歌曲的演唱者为两个男歌手，若想实现男女对唱效果的歌曲，则将其中任一男歌手确定为目标声源，对该男歌手对应的音轨数据进行变调处理，处理为女声，然后，与未进行变调处理的音轨数据进行合并，得到调整好的音频即调整好的歌曲，此时调整好的歌曲实现了男女对唱效果。 [0054] 2)例如，用户为了拍搞笑视频，自行录制包括猫叫的视频，提取视频中的猫叫声，将猫作为目标声源，对猫对应的音轨数据进行变调处理，处理为狗叫声，然后和未进行变调处理的音轨数据进行合并，得到调整好的音频，再将调整好的音频合并进视频中即可，提高用户体验度。 [0055] 该实施例的一种音频调整方法，只需要录制一次音频，通过对声源对应的音轨数据进行变调处理，能够更灵活地实现不同的音频效果，极大降低经济成本和时间成本。 [0056] 可选地，在上述技术方案中，如图2所示，还包括： [0057] S10、获取用户的面部图像，具体地： [0058] 当待调整音频为音乐时，且当用户正在听调整好的音乐时，获取用户的面部图像，需要说明的是，在法律允许的范围内，获取用户的面部图像，如在飞机上、火车上、机场内、火车站内、心理治疗室等场景下，通过布设的摄像头获取用户的面部图像。 [0059] S11、情绪识别，具体地： [0060] 根据用户的面部图像，对用户的情绪进行识别，得到用户的情绪识别结果，具体包括S110至S111： [0061] S110、预先搜集多个用户的面部图像并进行情绪标注，建立数据集，基于数据集对预设深度学习网络进行训练，得到训练好的情绪识别模型，预设深度学习网络为卷积神经网络、循环神经网络、自编码器和Transformer。 [0062] S111、将用户的面部图像输入训练好的情绪识别模型，训练好的情绪识别模型输出用户的情绪识别结果。 [0063] S12、调整，具体地： [0064] 根据用户的情绪识别结果，调整正在播放的调整好的音乐的音量和节奏，具体包括S120和S121： [0065] S120、通过调查问卷并结合心理专家建议的方式，确定每种情绪对应的每种最喜欢的音量和节奏的人群占比，将人群占比最高最喜欢的音量和节奏，作为该情绪对应的最佳音量和最佳节奏，由此得到每种情绪对应的最佳音量和最佳节奏； [0066] S121、根据用户的情绪识别结果，从预先确定的“每种情绪对应的最佳音量和最佳节奏”中，确定用户对应的最佳音量和最佳节奏，并调整正在播放的调整好的音乐的音量和节奏至该用户对应的最佳音量和最佳节奏。 [0067] 需要说明的是，通过调查问卷并结合心理专家建议的方式能够满足大多数人的需求，统计调整正在播放的调整好的音乐的音量和节奏后，在预设时长内容关闭音乐的用户，为这些用户单独建立记录表，以便于后续修改调整正在播放的调整好的音乐的音量和节奏，能提高这些用户的体验度，进一步提高用户黏度。 [0068] 该实施例中，通过对用户情绪进行准确识别，然后调整正在播放的调整好的音乐的音量和节奏，以达到为用户调节情绪的目的。 [0069] 可选地，在上述技术方案中，如图3所示，还包括： [0070] S20、提取关键帧，并进行情绪识别，具体地： [0071] 当待调整音频为音乐时，且当用户正在听调整好的音乐时，获取含有用户的面部的视频，从视频中提取多个关键帧，将每个关键帧分别输入训练好的情绪识别模型，得到每个关键帧对应的情绪识别结果； [0072] S21、确定最终的情绪识别结果，具体地： [0073] 根据每个关键帧对应的情绪识别结果，确定用户的最终的情绪识别结果； [0074] 例如，共有10个关键帧，其中9个关键帧对应的情绪识别结果均为愤怒，剩余1个关键帧对应的情绪识别结果为委屈，则将愤怒确定为用户的最终的情绪识别结果。通过多个关键帧进行情绪识别的方式，能够防止单一图像所导致的情绪识别结果误差大的问题。 [0075] 需要说明的是，其中5个关键帧对应的情绪识别结果均为愤怒，剩余5个关键帧对应的情绪识别结果为委屈，则需要重新进行模型的训练。 [0076] S22、调整： [0077] 根据用户的最终的情绪识别结果，调整正在播放的调整好的音乐的音量和节奏，具体过程参见上文中对S12的具体解释，在此不做赘述。 [0078] 该实施例中，通过对用户情绪进行准确识别，然后调整正在播放的调整好的音乐的音量和节奏，以达到为用户调节情绪的目的。 [0079] 可选地，在上述技术方案中，还包括：对初始音频进行去噪处理后，得到待调整音频。通过对初始音频进行去噪处理，能够获取更高质量的待调整音频如音乐等，能够满足用户需求，提高用户体验度。 [0080] 其中，预先建立包括多个噪音样本的训练集，基于训练集对卷积神经网络进行训练，得到训练好的噪音识别模型，将初始音频输入训练好的噪音识别模型，识别出初始音频中的噪声，并进行去噪处理，得到待调整音频。初始音频指最初录制的音频。 [0081] 其中，卷积神经网络包括输入层、卷积层、激活函数、池化层和全连接层，卷积层采用扩张卷积，激活函数选用Sigmoid函数，池化层采用混合池化。 [0082] 在上述各实施例中，虽然对步骤进行了编号S1、S2等，但只是本发明给出的具体实施例，本领域的技术人员可根据实际情况调整S1、S2等的执行顺序，此也在本发明的保护范围内，可以理解，在一些实施例中，可以包含如上述各实施方式中的部分或全部。 [0083] 如图4所示，本发明实施例的一种音频调整系统200，包括分轨模块201、变调处理模块202和合并模块203； [0084] 分轨模块201用于：对待调整音频进行分轨，得到每个声源对应的音轨数据； [0085] 变调处理模块202用于：确定至少一个目标声源，并对每个目标声源对应的音轨数据进行变调处理，得到每个目标声源对应的最终音轨数据； [0086] 合并模块203用于：将每个目标声源对应的最终音轨数据和未进行变调处理的音轨数据进行合并，得到调整好的音频。 [0087] 可选地，在上述技术方案中，还包括第一识别调整模块，第一识别调整模块用于： [0088] 当待调整音频为音乐时，且当用户正在听调整好的音乐时，获取用户的面部图像； [0089] 根据用户的面部图像，对用户的情绪进行识别，得到用户的情绪识别结果； [0090] 根据用户的情绪识别结果，调整正在播放的调整好的音乐的音量和节奏。 [0091] 可选地，在上述技术方案中，还包括第二识别调整模块，第二识别调整模块用于： [0092] 当待调整音频为音乐时，且当用户正在听调整好的音乐时，获取含有用户的面部的视频，从视频中提取多个关键帧，将每个关键帧分别输入训练好的情绪识别模型，得到每个关键帧对应的情绪识别结果； [0093] 根据每个关键帧对应的情绪识别结果，确定用户的最终的情绪识别结果； [0094] 根据用户的最终的情绪识别结果，调整正在播放的调整好的音乐的音量和节奏。 [0095] 可选地，在上述技术方案中，还包括去噪模块，去噪模块用于：对初始音频进行去噪处理后，得到待调整音频。 [0096] 需要说明的是，上述实施例提供的一种音频调整系统200的有益效果与上述一种音频调整方法的有益效果相同，在此不再赘述。此外，上述实施例提供的系统在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统根据实际情况划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的系统与方法实施例属于同一构思，其具体实现过程详见方法实施例，在此不再赘述。 [0097] 如图5所示，本发明实施例的一种计算机设备300，计算机设备300包括处理器320，处理器320与存储器310耦合，存储器310中存储有至少一条计算机程序330，至少一条计算机程序330由处理器320加载并执行，以使计算机设备300实现上述任一项音频调整方法，具体地： [0098] 计算机设备300可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器320(Central Processing Units，CPU)和一个或多个存储器310，其中，该一个或多个存储器310中存储有至少一条计算机程序330，该至少一条计算机程序330由该一个或多个处理器320加载并执行，以使该计算机设备300实现上述实施例提供的任一项音频调整方法。当然，该计算机设备300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备300还可以包括其他用于实现设备功能的部件，在此不做赘述。 [0099] 本发明实施例的一种计算机可读存储介质，计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行，以使计算机实现上述任一项音频调整方法。 [0100] 可选地，计算机可读存储介质可以是只读存储器(Read‑Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read‑Only Memory，CD‑ROM)、磁带、软盘和光数据存储设备等。 [0101] 在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一项音频调整方法。 [0102] 需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”、等是用于区别类似的对象，而代表对特定的顺序或先后次序进行限定。在适当情况下对于类似的对象的使用顺序可以互换，以便这里描述的本申请的实施例能够以除了图示或描述的顺序以外的顺序实施。 [0103] 所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品，因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。 [0104] 可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)，只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。 [0105] 尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。