一种远程调音的方法和系统转让专利

申请号 : CN202211017602.9

文献号 : CN115396784B

文献日 : 2023-12-08

相似专利: 请登录后查看

本说明书实施例提供一种远程调音的方法和系统，该方法包括：基于用户的输入、待调音设备的环境数据和待调音设备的分布数据中的至少一种，预测模拟声音数据；将模拟声音数据发送给远程调音终端，以使远程调音终端基于模拟声音数据播放音频。

1.一种远程调音的方法，包括：

基于用户的输入、待调音设备的环境数据和所述待调音设备的分布数据，预测模拟声音数据，所述模拟声音数据包括模拟音效；其中，所述预测模拟声音数据包括：通过模拟声音确定算法预测所述模拟声音数据；所述模拟声音确定算法包括模拟音效确定算法，所述模拟音效确定算法包括第一预测模型，所述第一预测模型为机器学习模型，所述第一预测模型的输入包括所述待调音设备的环境数据以及所述待调音设备的分布数据，输出包括所述模拟音效；

将所述模拟声音数据发送给远程调音终端，以使所述远程调音终端基于所述模拟声音数据播放音频；其中，所述待调音设备的环境数据包括所述待调音设备所处环境的温度、湿度、人流量和空间数据；所述空间数据包括所处环境的类型、大小、声音传递障碍物的参数；所述声音传递障碍物的参数包括传播参数矩阵；所述传播参数矩阵是指声音在所述待调音设备所处环境中传播时，与声音传播相关的参数构成的矩阵；

所述待调音设备的分布数据是指与所述待调音设备在空间的位置、分布相关的数据；

所述待调音设备的分布数据包括所述待调音设备在空间中的位置坐标信息。

2.如权利要求1所述的方法，其特征在于，所述模拟声音数据还包括模拟音量，其中，所述模拟音效包括模拟环绕模式、模拟增益和模拟环境声中的至少一种。

3.如权利要求2所述的方法，所述远程调音终端包括多个扬声器构成的扬声器阵列，所述基于用户的输入、待调音设备的环境数据和所述待调音设备的分布数据，预测模拟声音数据包括：基于所述待调音设备的所述环境数据和/或所述待调音设备的所述分布数据，确定所述扬声器阵列中的目标扬声位置，以生成所述模拟音效。

4.如权利要求2所述的方法，其特征在于，所述基于用户的输入、待调音设备的环境数据和所述待调音设备的分布数据，预测模拟声音数据包括：基于模拟音量确定算法对所述用户的输入和所述待调音设备的所述环境数据进行处理，确定所述模拟音量。

5.一种远程调音的系统，包括：

预测模块，用于基于用户的输入、待调音设备的环境数据和所述待调音设备的分布数据，预测模拟声音数据，所述模拟声音数据包括模拟音效；其中，所述预测模拟声音数据包括：通过模拟声音确定算法预测所述模拟声音数据；所述模拟声音确定算法包括模拟音效确定算法，所述模拟音效确定算法包括第一预测模型，所述第一预测模型为机器学习模型，所述第一预测模型的输入包括所述待调音设备的环境数据以及所述待调音设备的分布数据，输出包括所述模拟音效；所述待调音设备的环境数据包括所述待调音设备所处环境的温度、湿度、人流量和空间数据；所述空间数据包括所处环境的类型、大小、声音传递障碍物的参数；所述声音传递障碍物的参数包括传播参数矩阵；所述传播参数矩阵是指声音在所述待调音设备所处环境中传播时，与声音传播相关的参数构成的矩阵；

所述待调音设备的分布数据是指与所述待调音设备在空间的位置、分布相关的数据；

所述待调音设备的分布数据包括所述待调音设备在空间中的位置坐标信息；

模拟模块，用于将所述模拟声音数据发送给远程调音终端，以使所述远程调音终端基于所述模拟声音数据播放音频。

6.一种计算机可读存储介质，所述存储介质存储计算机指令，当所述计算机指令被处理器执行时实现如权利要求1 4的方法。

7.一种远程调音终端，其特征在于，包括：扬声器阵列；

所述扬声器阵列基于模拟声音数据播放音频，其中，所述模拟声音数据基于用户的输入、待调音设备的环境数据、待调音设备的分布数据确定，所述模拟声音数据包括模拟音效；其中，确定所述模拟声音数据包括：通过模拟声音确定算法预测所述模拟声音数据；所述模拟声音确定算法包括模拟音效确定算法，所述模拟音效确定算法包括第一预测模型，所述第一预测模型为机器学习模型，所述第一预测模型的输入包括所述待调音设备的环境数据以及所述待调音设备的分布数据，输出包括所述模拟音效；

所述待调音设备的环境数据包括所述待调音设备所处环境的温度、湿度、人流量和空间数据；所述空间数据包括所处环境的类型、大小、声音传递障碍物的参数；所述声音传递障碍物的参数包括传播参数矩阵；所述传播参数矩阵是指声音在所述待调音设备所处环境中传播时，与声音传播相关的参数构成的矩阵；

所述待调音设备的分布数据是指与所述待调音设备在空间的位置、分布相关的数据；

所述待调音设备的分布数据包括所述待调音设备在空间中的位置坐标信息。

8.如权利要求7所述的远程调音终端，所述模拟声音数据还包括模拟音量，其中，所述模拟音效包括模拟环绕模式、模拟增益和模拟环境声中的至少一种。

9.如权利要求8所述的远程调音终端，所述扬声器阵列中的目标扬声位置的扬声器进行播放，以生成所述模拟音效。

一种远程调音的方法和系统

技术领域

[0001] 本说明书涉及信息技术领域，特别涉及一种远程调音的方法和系统。

背景技术

[0002] 播放设备(如音箱等)越来越受到消费者的欢迎，为了向听众提供更好的视听体验，对播放设备进行调音(如音量、音效等的调节)是必不可少的。在某些场景下，由于一些原因，调试人员可能无法在现场试听播放设备播放的声音，使得调试人员通常只能根据经验来调试。

[0003] 因此，需要提供一种远程调音的方法和系统，以更好的对播放设备进行远程调音。

发明内容

[0004] 本说明书一个或多个实施例提供一种远程调音的方法。所述远程调音的方法包括：基于用户的输入、待调音设备的环境数据和所述待调音设备的分布数据中的至少一种，预测模拟声音数据；将所述模拟声音数据发送给远程调音终端，以使所述远程调音终端基于所述模拟声音数据播放音频。

[0005] 本说明书一个或多个实施例提供一种远程调音的系统，包括：预测模块，用于基于用户的输入、待调音设备的环境数据和所述待调音设备的分布数据中的至少一种，预测模拟声音数据；模拟模块，用于将所述模拟声音数据发送给远程调音终端，以使所述远程调音终端基于所述模拟声音数据播放音频。

[0006] 本说明书一个或多个实施例提供一种计算机可读存储介质，所述存储介质存储计算机指令，当所述计算机指令被处理器执行时实现一种远程调音的方法。

[0007] 本说明书一个或多个实施例提供一种远程调音终端，其特征在于，包括：扬声器阵列；所述扬声器阵列基于模拟声音数据播放音频，其中，所述模拟声音数据基于用户的输入、待调音设备的环境数据、待调音设备的分布数据中的至少一种确定。

附图说明

[0008] 本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

[0009] 图1是根据本说明书一些实施例所示的远程调音的应用场景示意图；

[0010] 图2是根据本说明书一些实施例所示的远程调音系统的示例性模块图；

[0011] 图3是根据本说明书一些实施例所示的远程调音的示例性流程图；

[0012] 图4是根据本说明书一些实施例所示的待调音设备所处环境的俯视图的示例性示意图；

[0013] 图5是根据本说明书一些实施例所示的基于第一预测模型确定模拟音效的示例性示意图；

[0014] 图6是根据本说明书一些实施例所示的第一预测模型的示例性结构示意图。

[0015] 图7是根据本说明书一些实施例所示的基于第二预测模型确定模拟音量的示例性结构示意图。

具体实施方式

[0016] 为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

[0017] 应当理解，本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

[0018] 如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

[0019] 本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

[0020] 图1是根据本说明书一些实施例所示的远程调音的应用场景示意图。如图1所示，远程调音的应用场景100可以包括待调音设备110、远程调音终端120、网络130和处理设备140，处理设备140用于执行本说明书一些实施例所示的远程调音的方法。

[0021] 待调音设备110为需要进行调音的设备。关于待调音设备的更多内容可以参见图3及其相关描述。

[0022] 远程调音终端120为向用户播放模拟声音，以使用户试听调音效果的设备。在一些实施例中，远程调音终端120可以包括多个扬声器构成的扬声器阵列，扬声器阵列用于播放音频。在一些实施例中，远程调音终端120可以为远程调音头盔150。如图1所述，远程调音头盔150可以包括扬声器阵列150‑1、降噪器150‑2以及麦克风150‑3。扬声器阵列150‑1用于播放音频。麦克风150‑3用于采集佩戴远程调音头盔150的用户所在环境的声音。降噪器150‑2用于基于麦克风150‑3采集的声音，去除佩戴远程调音头盔150的用户所在环境的声音。

[0023] 网络130可以连接系统的各组成部分和/或连接系统与外部资源部分。网络130使得各组成部分之间，以及与系统之外其他部分之间可以进行通讯，促进数据和/或信息的交换。例如，处理设备140可以通过网络130接收待调音设备110的环境数据、分布数据。又例如，处理设备140可以通过网络130接收来自远程调音终端120的用户的输入。又例如，处理设备140还可以通过网络130将模拟声音数据发送给远程调音终端120。网络可以通过各种方式实现，例如局域网、USB连接线等。

[0024] 处理设备140可以用于处理来自应用场景100的至少一个组件或外部数据源的数据和/或信息。例如，处理设备140可以基于用户的输入、待调音设备110的环境数据和待调音设备110的分布数据中的至少一种，预测模拟声音数据。又例如，处理设备140可以将模拟声音数据发送给远程调音终端120，以使远程调音终端120基于模拟声音数据播放音频。处理设备140可以是独立的设备，也可以内置在远程调音终端120。

[0025] 图2是根据本说明书一些实施例所示的远程调音系统的示例性模块图。在一些实施例中，远程调音系统200可以包括预测模块210、模拟模块220。

[0026] 预测模块210可以用于基于用户的输入、待调音设备的环境数据和待调音设备的分布数据中的至少一种，预测模拟声音数据。在一些实施例中，待调音设备的环境数据可以包括待调音设备所处环境的温度、湿度、人流量和空间数据中的至少一种，空间数据可以包括以下特征的一种或多种：所处环境的类型、大小、声音传递障碍物的参数。在一些实施例中，模拟声音数据可以包括模拟音量和/或模拟音效，其中，模拟音效可以包括模拟环绕模式、模拟增益和模拟环境声中的至少一种。

[0027] 在一些实施例中，预测模块210可以进一步用于基于模拟音效确定算法对待调音设备的环境数据和/或待调音设备的分布数据进行处理，确定模拟音效。

[0028] 在一些实施例中，远程调音终端可以包括多个扬声器构成的扬声器阵列，预测模块210可以进一步用于基于待调音设备的环境数据和/或待调音设备的分布数据，确定扬声器阵列中的目标扬声位置，以生成模拟音效。

[0029] 在一些实施例中，预测模块210可以进一步用于基于模拟音量确定算法对用户的输入和待调音设备的环境数据进行处理，确定模拟音量。

[0030] 模拟模块220可以用于将模拟声音数据发送给远程调音终端，以使远程调音终端基于模拟声音数据播放音频。

[0031] 需要注意的是，以上对于远程调音系统及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。在一些实施例中，图2中披露的预测模块和模拟模块可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。

[0032] 图3是根据本说明书一些实施例所示的远程调音的示例性流程图。如图3所示，流程300包括下述步骤。在一些实施例中，流程300可以由处理设备140执行。

[0033] 步骤310，基于用户的输入、待调音设备的环境数据和待调音设备的分布数据中的至少一种，预测模拟声音数据。在一些实施例中，步骤310可以由预测模块210执行。

[0034] 用户指参与调音的人或事物。例如，用户可以包括试听远程调音终端播放的音频(例如，佩戴远程调音头盔)的人。

[0035] 在一些实施例中，用户的输入可以包括对待调音设备进行调音的参数调节值。参数类型包括：音量、音效。用户的输入还可以包括：播放内容、播放音乐类型(例如曲目)、播放时长等。

[0036] 用户可以通过远程调音终端进行输入。例如，远程调音终端上设有可以调节音量大小的按钮，用户可以通过该按钮输入音量，从而可以控制用户试听到的音频的音量大小。

[0037] 远程调音终端上可调的参数的类型可以根据待调音设备上可调的参数类型来设计，从而用于不同调节值的模拟与测试，以便用户基于从远程调音终端播放的音频来确定可调参数的参数调节值，并最终确定待调音设备的调节方式。

[0038] 在一些实施例中，远程调音终端上的可调参数(如，音量)可以设置默认值。例如，当用户未输入音量的调节值时，对待调音设备的音量调节可以为默认值。

[0039] 待调音设备为需要进行调音的设备。例如，待调音设备可以包括音箱、话筒、扩音喇叭等设备。

[0040] 待调音设备的环境数据指待调音设备所处环境的与环境相关的数据。

[0041] 在一些实施例中，待调音设备的环境数据可以包括待调音设备所处环境的温度、湿度、人流量和空间数据中的至少一种，空间数据可以包括以下特征的一种或多种：所处环境的类型、大小、声音传递障碍物的参数。

[0042] 待调音设备所处环境的温度和湿度可以通过获取存储或输入的数据得到。例如，待调音设备所处环境的温度可以通过所处环境中部署的温度传感器检测得到，处理设备通过与温度传感器通信获取，待调音设备所处环境的湿度可以通过所处环境中部署的湿度传感器检测得到，处理设备通过与湿度传感器通信获取。

[0043] 人流量可以用于表示人的密集程度。在一些实施例中，待调音设备所处环境的人流量可以为当前时刻待调音设备所处环境的人的数量。例如，当前时刻有15人，则人流量可以为15。

[0044] 在一些实施例中，处理设备可以基于所处环境中部署的摄像头获取的图像，通过图像识别算法或模型确定人流量。在一些实施例中，处理设备还可以通过其他方式(如，进出口闸机计数等)确定人流量。

[0045] 空间数据指可以影响声音传递的，与空间、结构等相关的数据。空间数据可以包括所处环境的类型、大小、声音传递障碍物的参数。

[0046] 所处环境的类型可以根据所处环境的功能、用途等来区分。例如，所处环境的类型可以包括大堂区、服装区、会场、办公室等。所处环境的类型的不同，可以对声音产生不同的影响。例如，当所处环境的类型为大堂区时，通常该环境内的物品摆放较少，环境较空旷，对声音可能具有增强效果。又例如，当所处环境的类型为服装区时，通常该环境内的物品摆放较多，环境较复杂，对声音可能具有减弱效果。

[0047] 所处环境的大小指所处环境的三维空间的大小。例如，待处理设备所处环境的大3
小为50m。

[0048] 所处环境的声音传递障碍物的参数指所处环境中，与影响声音传递的障碍物相关的参数。

[0049] 在一些实施例中，所处环境的声音传递障碍物的参数可以包括墙体参数。

[0050] 墙体参数指与墙体相关的参数。在一些实施例中，墙体参数可以包括所处环境中的墙体数量、墙体大小。在一些实施例中，墙体参数还可以包括其他信息，包括但不限于墙体类型(如石灰墙、木墙、砖墙等)、墙体厚度、墙体所在位置等。

[0051] 空间数据可以通过多种方式获取。在一些实施例中，设备所处环境的空间数据可以预先存储在存储设备中，处理设备可以直接从存储设备中读取。在一些实施例中，设备所处环境的空间数据可以基于存储在存储设备或者上传至远程调音终端中的户型图获取。户型图指待调音设备在空间中的安装位置以及空间结构的图。户型图的信息可以通过各种特征提取方式表示。设备所处环境的空间数据(如，墙体参数)可以通过户型图确定。例如，将户型图输入图像识别模型，图像识别模型输出墙体参数。

[0052] 在一些实施例中，所处环境的声音传递障碍物的参数还可以包括传播参数矩阵。

[0053] 传播参数矩阵指声音在待调音设备所处环境中传播时，与声音传播相关的参数构成的矩阵。在一些实施例中，每一个待调音设备可以对应一个传播参数矩阵。

[0054] 传播参数矩阵的不同行或列代表不同的第一角度下的至少一个传播参数。在一些实施例中，传播参数可以包括第一角度、第二角度、第一距离、第二距离、交点处的障碍物材质等。

[0055] 第一角度指以发声位置为原点生成的第一射线的角度。不同的第一射线对应不同的第一角度。在一些实施例中，在三维空间坐标系中，第一角度可以用多种方式表示。例如，该第一射线与地平面的夹角等。第一角度可以通过多种方式确定。例如，第一角度可以预设。又例如，在球面上选取若干个点，将每个点与球心的连线都作为一条射线，该射线与地平面的角度作为第一角度。

[0056] 发声位置指该传播参数矩阵对应的待调音设备的所在位置。

[0057] 第二角度指以听声位置为原点且经过目标交点的射线的角度。目标交点是指第一射线与第一射线射到的障碍物的交点。第二角度的表示方式与第一角度类似，不再赘述。

[0058] 听声位置指用户在待调音设备所处环境中可能收听音频的位置。听声位置可以是基于任务要求预设。

[0059] 第一距离指发声位置与目标交点的距离。

[0060] 第二距离指听声位置与目标交点的距离。

[0061] 交点处的障碍物材质指第一射线射到的障碍物的材质。例如，交点处的障碍物材质可以包括石灰、瓷砖、红木等等。

[0062] 示例的，图4为待调音设备所处环境的俯视图的示例性示意图。如图4所示，发声位置410为待调音设备在其所处环境中对应的位置。听声位置420为基于任务要求预设的位置。将发声位置作为原点，以预设角度向外射出一条射线，该射线即为第一射线430，该预设角度即为第一射线430对应的第一角度。第一射线430与障碍物(例如，墙壁)形成的交点即为目标交点440。在以听声位置420为原点的射线中，将经过目标交点440的射线对应的角度确定为第二角度。发声位置410与目标交点440的距离即为第一距离450，听声位置420与目标交点440的距离即为第二距离460，交点处的障碍物材质即目标交点440处的障碍物材质。

[0063] 在一些实施例中，可以基于多种可行的方法来构建传播参数矩阵，例如，可以通过现场测绘、实时图像识别等方式来获取传播参数以构建传播参数矩阵。

[0064] 在本说明书一些实施例中，通过在所处环境的声音传递障碍物的参数中引入传播参数矩阵，可以基于声音的传播路线，按每个点来获取更细致的障碍物材质，从而更充分地刻画所处环境的声音传递障碍物的分布情况，使得后续将所处环境的声音传递障碍物的参数用于算法或模型时，可以得到更为准确的结果。

[0065] 在本说明书一些实施例中，通过引入人流量、空间数据等信息，可以更全面地表示环境数据，使得将环境数据用于模拟声音数据时，可以获得更准确的模拟数据。

[0066] 待调音设备的分布数据指与待调音设备在空间的位置、分布相关的数据。在一些实施例中，待调音设备的分布数据可以包括待调音设备在空间中的位置坐标信息。在一些实施例中，待调音设备的分布数据还可以包括其他信息，例如待调音设备的数量、待调音设备之间的距离等。

[0067] 待调音设备的分布信息可以通过多种方式获取。例如，处理设备可以基于户型图确定待调音设备的分布信息。又例如，处理设备可以通过环境中的摄像头拍摄环境中的待调音设备图像，并对图像进行识别获取。

[0068] 模拟声音数据指用于使发音设备发出与实际效果类似的声音的数据。模拟声音数据可以用声音波形或其他数据形式表示。

[0069] 在一些实施例中，模拟声音数据可以包括模拟音量。

[0070] 模拟音量指用于使发音设备发出与实际效果类似的音量的数据。在一些实施例中，模拟音量可以对应声音波形中的波形幅值。

[0071] 在一些实施例中，模拟声音数据可以包括模拟音效，其中，模拟音效可以包括模拟环绕模式、模拟增益和模拟环境声中的至少一种。

[0072] 模拟音效指用于使发音设备发出与实际效果类似的音效的数据。在一些实施例中，模拟音效可以对应声音波形中的波形形态。

[0073] 模拟音效可以包括模拟环绕模式、模拟增益和模拟环境声中的至少一种。

[0074] 模拟环绕模式指用于使发音设备发出与实际效果类似的环绕模式的数据。环绕模式是指通过在合理的位置增加扬声器的摆放来创造更逼真的聆听效果的方式所对应的扬声器的摆放方式。

[0075] 模拟增益指用于使发音设备发出与实际效果类似的增益的数据。增益指使得音量增加或减弱的程度，例如增益可以是对音量的放大倍数或缩小倍数。

[0076] 模拟环境声指用于使发音设备发出与实际效果类似的环境声的数据。环境声指可以听到的周围环境的声音。例如，环境声可以是周围的各种杂音(如，嘈杂的人声、一些动作带来的噪声等)混在一起的背景声。

[0077] 模拟音量对应的波形幅值和模拟音效对应的波形形态可以共同构成模拟声音数据对应的声音波形。

[0078] 在本说明书一些实施例中，通过引入模拟音量、模拟音效，并定义模拟音效包括模拟环绕模式、模拟增益和模拟环境声中的至少一种，可以使得模拟声音数据进一步细分为多个组成部分，从而在模拟声音时，生成更为细致、准确的声音波形，从而使得模拟效果更好。

[0079] 在一些实施例中，可以基于用户的输入、待调音设备的环境数据和待调音设备的分布数据中的至少一种，通过模拟声音确定算法，预测模拟声音数据。

[0080] 在一些实施例中，模拟声音确定算法包括模拟音量确定算法和模拟音效确定算法。其中，模拟音量确定算法用于确定在远程调音终端播放的音频的音量。模拟音效确定算法用于确定在远程调音终端播放的音频的音效。

[0081] 在一些实施例中，模拟音效确定算法可以包括模拟环绕模式确定子算法，模拟环绕模式确定子算法可以基于分布数据，确定模拟环绕模式。在一些实施例中，模拟环绕模式确定子算法的输入可以包括分布数据，输出可以包括模拟环绕模式。不同的环绕模式对应不同的分布数据，该对应关系可以预设。例如，通过数据库存储参考分布数据及其对应的参考环绕模式。模拟环绕模式确定子算法可以是对分布数据在数据库中检索，确定最接近的参考分布数据，进一步的将参考分布数据对应的参考环绕模式作为模拟环绕模式。模拟环绕模式确定子算法也可以选用其他任意可行的算法。

[0082] 在一些实施例中，模拟音效确定算法可以包括模拟增益确定子算法，模拟增益确定子算法可以基于待调音设备的环境数据，确定模拟增益。在一些实施例中，模拟增益确定子算法的输入可以包括待调音设备的环境数据，输出可以包括模拟增益。例如，模拟增益确定子算法可以反映待调音设备所处环境的空旷程度与增益之间的对应关系。模拟增益确定子算法可以基于待调音设备所处环境的空旷程度(例如，可通过待调音设备所处环境的类型确定，不同的类型对应不同的空旷程度)确定模拟增益，待调音设备所处环境的空旷程度越高，最终声音被放大的程度越高，该算法输出的模拟增益也越大。模拟增益确定子算法也可以选用其他任意可行的算法。

[0083] 在一些实施例中，模拟增益确定子算法可以进一步包括第一增益确定子算法、第二增益确定子算法、第三增益确定子算法以及增益融合子算法。

[0084] 第一增益确定子算法指用于确定第一增益的相关算法。第一增益可以指空间大小对声音的增益。在一些实施例中，第一增益确定子算法的输入可以为所处环境的大小，输出可以为第一增益。例如，第一增益确定子算法可以反映待调音设备所处环境的大小与增益之间的对应关系。第一增益确定子算法可以基于待调音设备所处环境的大小确定第一增益，待调音设备所处环境的空间越大，最终声音被放大的程度越高，该算法输出的第一增益也越大。第一增益确定子算法也可以选用其他任意可行的算法。

[0085] 第二增益确定子算法指用于确定第二增益的相关算法。第二增益可以指空间类型对声音的增益。在一些实施例中，第二增益确定子算法的输入可以为所处环境的类型，输出可以为第二增益。例如，第二增益确定子算法可以反映待调音设备所处环境的类型与增益之间的对应关系。第二增益确定子算法可以基于待调音设备所处环境的类型确定第二增益，待调音设备所处环境的类型为大堂区(通常该类型下的环境中的物品摆放较少)，则声音更容易反射产生回声效果，在听感上更响亮，该算法输出的第二增益也越大。第二增益确定子算法也可以选用其他任意可行的算法。

[0086] 第三增益确定子算法指用于确定第三增益的相关算法。第三增益可以指空间中的障碍物对声音的增益。在一些实施例中，第三增益确定子算法的输入可以为所处环境的声音传递障碍物的参数，输出可以为第三增益。例如，第三增益确定子算法可以反映待调音设备所处环境的声音传递障碍物的参数与增益之间的对应关系。第三增益确定子算法可以基于所处环境的声音传递障碍物的参数中的墙体参数，确定第三增益，墙体类型的吸音系数越小(如大理石墙体对各频率声音的吸音系数小于混凝土墙体)，墙体厚度在合适的范围内越大，则声音更容易反射，不容易穿透和被吸收，回声效果越强，该算法输出的第三增益也越大。第三增益确定子算法也可以选用其他任意可行的算法。

[0087] 增益融合子算法指对至少一个增益进行融合的相关算法。在一些实施例中，增益融合子算法的输入可以为第一增益、第二增益、第三增益，输出可以为模拟增益。在一些实施例中，增益融合子算法可以基于增益权重向量，分别对第一增益、第二增益、第三增益进行加权融合(如，加权求和等)，得到模拟增益。增益权重向量可以包括第一增益的权重、第二增益的权重、第三增益的权重。

[0088] 各个增益的权重可以通过多种方式确定。例如，可以预设第一增益的权重、第二增益的权重、第三增益的权重。又例如，可以基于远程调音设备的播放特征确定增益权重向量。远程调音设备的播放特征可以至少包括播放时长特征和播放内容特征。根据经验制定的预设规则，播放不同的曲目时，基于播放曲目的播放时长和播放内容，选用不同的增益权重向量。又例如，可以通过融合模型确定增益权重向量，融合模型的输入包括待调音设备所处环境中的障碍物参数以及障碍物分布数据，输出为增益权重向量。障碍物分布数据包括：对低、中、高频声音吸收较强的障碍物占比等。融合模型训练的训练样本可以通过历史调音数据获取。

[0089] 在一些实施例中，模拟音效确定算法可以包括模拟环境声确定子算法，模拟环境声确定子算法可以基于待调音设备的环境数据，确定模拟环境声。在一些实施例中，模拟环境声确定子算法的输入可以包括待调音设备所处环境的温度、湿度、人流量，输出可以包括模拟环境声。模拟环境声确定子算法可以选用任意可行的算法，例如，模拟环境声确定子算法可以基于待调音设备所处环境的温度、湿度、人流量，根据预设的匹配规则，从多个预设的环境声中确定模拟环境声，其中，匹配规则可以是：每一个预设的环境声对应一组温度、湿度、人流量，将待调音设备所处环境的温度、湿度、人流量与预设的环境声对应的温度、湿度、人流量进行比对，将相似度最大的预设的环境声确定为模拟环境声确定子算法输出的模拟环境声。又例如，可以预设环境声，模拟环境声确定子算法可以基于待调音设备所处环境的温度、湿度、人流量，对该预设的环境声进行调整(比如调整音量等)，然后输出模拟环境声。

[0090] 在一些实施例中，模拟环境声确定子算法可以包括舒适度确定子算法和环境声匹配子算法。

[0091] 舒适度确定子算法指用于确定舒适度的相关算法。舒适度可以指人在特定环境下的舒适程度。在一些实施例中，舒适度确定子算法的输入可以为待调音设备所处环境的温度、湿度、人流量，输出可以为舒适度。舒适度确定子算法可以选用任意可行的算法，例如，舒适度确定子算法可以先基于温度和湿度，通过预设公式计算得到舒适度，再根据人流量对前述得到的舒适度进行调整(比如在人流量大的情况下，周围环境嘈杂，舒适度较差，此时需降低舒适度)，得到最终的舒适度。

[0092] 环境声匹配子算法指基于舒适度以及人流量匹配环境声的相关算法。在一些实施例中，环境声匹配子算法的输入可以为设备所处环境的人流量、舒适度，输出可以为模拟环境声。环境声匹配子算法可以选用任意可行的算法。例如，环境声匹配子算法可以以如下方式确定模拟环境声：先根据人流量的大小，匹配一个对应的预设的环境声；再根据舒适度，对前述得到的环境声进行适当的加强或减弱，得到最终的模拟环境声。

[0093] 在一些实施例中，模拟音量确定算法可以基于用户的输入、待调音设备的环境数据，确定模拟音量。在一些实施例中，模拟音量确定子算法的输入可以包括用户的输入、待调音设备所处环境的温度、湿度、人流量，输出可以包括模拟音量。例如，模拟音量确定算法可以根据温度、湿度、人流量对用户输入的音量进行调高或降低(比如当前的温度、湿度、人流量对应的舒适度较低，在这种情况下人会感觉声音较大、较嘈杂，此时需调高音量值)，最终得到输出的模拟音量。模拟音量确定子算法也可以选用其他任意可行的算法。

[0094] 在一些实施例中，模拟音效确定算法可以包括第一预测模型。

[0095] 在一些实施例中，可以基于第一预测模型对待调音设备的环境数据和/或待调音设备的分布数据进行处理，确定模拟音效，第一预测模型为机器学习模型。关于第一预测模型以及确定模拟音效的更多内容可以参见图5及其相关描述。

[0096] 在一些实施例中，远程调音终端可以包括多个扬声器构成的扬声器阵列，处理设备可以基于待调音设备的环境数据和/或待调音设备的分布数据，确定扬声器阵列中的目标扬声位置，以生成模拟音效。

[0097] 目标扬声位置可以指扬声器阵列中需要进行工作(即需要播放音频)的扬声器的所在位置。在一些实施例中，目标扬声位置可以用多种方式(如，数字编号、位置坐标等)表示。以数字编号为例，扬声器阵列中包含10个扬声器，依次编号为1‑10，若最终将5号、6号扬声器确定为需要工作的扬声器，则目标扬声位置为：5，6。

[0098] 在一些实施例中，处理设备可以基于待调音设备的环境数据和/或待调音设备的分布数据确定模拟环绕模式，基于模拟环绕模式确定扬声器阵列中的目标扬声位置，以生成模拟音效。关于确定模拟环绕模式的更多内容可以参见本说明书其他部分，例如模拟环绕模式确定算法、第一预测模型等的说明部分。在一些实施例中，模拟环绕模式中可以包含目标扬声位置，处理设备可以直接从模拟环绕模式中获取目标扬声位置。处理设备可以控制扬声器阵列中的目标扬声位置的扬声器进行播放，以生成模拟音效。示例性的，如图1所示，处理设备可以基于获取到的目标扬声位置，将远程调音头盔150的扬声器阵列150‑1中与目标扬声位置对应的扬声器开启，其余扬声器关闭。

[0099] 在本说明书一些实施例中，通过基于待调音设备的环境数据和/或待调音设备的分布数据，确定扬声器阵列中的目标扬声位置并生成模拟音效，可以使得远程调音设备在播放音频时从物理结构上也充分考虑了模拟环绕模式，从而使得最终用户听到的模拟声音数据对应的音频更加的接近真实环境下的音频。

[0100] 在一些实施例中，模拟音量确定算法可以包括第二预测模型。

[0101] 在一些实施例中，可以基于第二预测模型对用户的输入和待调音设备的环境数据进行处理，确定模拟音量，第二预测模型为机器学习模型。关于第二预测模型以及确定模拟音量的更多内容可以参见图7及其相关描述。

[0102] 步骤320，将模拟声音数据发送给远程调音终端，以使远程调音终端基于模拟声音数据播放音频。

[0103] 在一些实施例中，处理设备还可以基于远程调音终端获取用户的反馈。

[0104] 用户的反馈指用户试听音频后的感受。在一些实施例中，用户的反馈可以用二元(如，“可接受”或“不可接受”)表示。远程调音终端上可以部署用于用户反馈的按钮、开关等结构，用户可以通过触碰按钮、拨动开关等方式来进行相应的反馈。在一些实施例中，用户的反馈还可以是直接对模拟音效或模拟音量的调整，比如，增大或减小音量、切换环绕模式等。可以理解的，未做调整则代表可接受，否则不可接受。

[0105] 在一些实施例中，响应于用户的反馈，处理设备可以控制待调音设备。例如，反馈表示“可接受”时，处理设备可以将当前的模拟声音数据作为待调音设备在所在环境播放音频的声音数据。又例如，反馈表示“不可接受”时，则再基于用户的调整进行新的一轮模拟，并远程播放给用户以获取新的反馈，直至用户反馈为“可接受”。

[0106] 在本说明书一些实施例中，通过引入用户的反馈，使得远程调音的方法可以基于用户反馈形成基准参考，从而更好地对待调音设备进行调音。

[0107] 在本说明书一些实施例中，基于用户的输入、待调音设备的环境数据和待调音设备的分布数据中的至少一种预测模拟声音数据，可以大幅提高声音模拟的精确度，高效地向用户播放模拟声音数据对应的音频。

[0108] 图5是根据本说明书一些实施例所示的基于第一预测模型确定模拟音效的示例性结构示意图。

[0109] 如图5所示，第一预测模型530的输入可以包括待调音设备的环境数据510和/或待调音设备的分布数据520，输出可以包括模拟音效540；其中，待调音设备的环境数据510可以包括待调音设备所处环境的温度510‑1、湿度510‑2、人流量510‑3、空间数据510‑4中的至少一种。第一预测模型可以是深度神经网络(Deep Neural Network，DNN)等。

[0110] 在一些实施例中，第一预测模型530可以由环绕模式确定模型、增益确定模型以及环境声确定模型组成，环绕模式确定模型可以用于确定模拟环绕模式，增益确定模型可以用于确定模拟增益，环境声确定模型可以用于确定模拟环境声。在一些实施例中，模拟环绕模式确定子算法可以包括环绕模式确定模型。在一些实施例中，模拟增益确定子算法可以包括增益确定模型。在一些实施例中，模拟环境声确定子算法可以包括环境声确定模型。关于环绕模式确定模型、增益确定模型以及环境声确定模型的更多内容可以参见图6及其相关描述。

[0111] 在一些实施例中，第一预测模型530可以通过训练得到。例如，可以将训练样本输入初始第一预测模型550中，基于初始第一预测模型550的输出构建损失函数，并基于损失函数迭代更新初始第一预测模型550的参数，直到预设条件被满足训练完成。

[0112] 在一些实施例中，第一训练样本560可以包括样本待调音设备的环境数据和/或样本待调音设备的分布数据，第一训练样本560的标签为样本待调音设备的环境数据和/或样本待调音设备的分布数据对应的模拟音效。第一训练样本和标签可以基于历史数据获取。其中，将历史数据中用户满意度较高的确定为第一训练样本和标签。

[0113] 在本说明书一些实施例中，基于第一预测模型对待调音设备的环境数据和/或待调音设备的分布数据进行处理，确定模拟音效，使得第一预测模型可以基于大量历史数据学习到环境数据、分布数据对应的模拟音效的内在规律，从而更准确地确定模拟音效。

[0114] 图6是根据本说明书一些实施例所示的第一预测模型的示例性结构示意图。

[0115] 如图6所示，第一预测模型530可以由环绕模式确定模型630‑1、增益确定模型630‑2以及环境声确定模型630‑3组成。

[0116] 环绕模式确定模型630‑1可以用于确定模拟环绕模式。如图6所示，环绕模式确定模型630‑1的输入可以包括待调音设备的分布数据520，输出可以包括模拟环绕模式640‑1。在一些实施例中，环绕模式确定模型可以为机器学习模型。例如，环绕模式确定模型可以是DNN等。

[0117] 环绕模式确定模型可以通过与第一预测模型相同的训练方式或其他方式训练得到。

[0118] 增益确定模型630‑2可以用于确定模拟增益。如图6所示，增益确定模型630‑2的输入可以包括待调音设备所处环境的空间数据510‑4，输出可以包括模拟增益640‑2。在一些实施例中，增益确定模型可以为机器学习模型。例如，增益确定模型可以是DNN等。

[0119] 增益确定模型可以通过与第一预测模型相同的训练方式或其他方式训练得到。

[0120] 环境声确定模型630‑3可以用于确定模拟环境声。如图6所示，环境声确定模型630‑3的输入可以包括待调音设备所处环境的温度510‑1、湿度510‑2、人流量510‑3，输出可以包括模拟环境声640‑3。在一些实施例中，环境声确定模型可以为机器学习模型。例如，环境声确定模型可以是DNN等。

[0121] 环境声确定模型可以通过与第一预测模型相同的训练方式或其他方式训练得到。

[0122] 在一些实施例中，可以基于增益确定模型630‑2输出的模拟增益640‑2，以及第一增幅因子650，确定增幅后的模拟增益640‑4，并将模拟增益640‑2替换为增幅后的模拟增益640‑4，以作为最后远程调音终端播放的音频的增益。

[0123] 第一增幅因子可以用于对增益确定模型输出的模拟增益进行增幅。对增益的增幅可以包括对增益的数值的增加或减少。例如，增益确定模型输出的模拟增益为X，第一增幅因子为1.2，则增幅后的模拟增益为1.2X。

[0124] 在一些实施例中，可以基于环境声确定模型输出的模拟环境声640‑3，以及第二增幅因子660，确定增幅后的模拟环境声640‑5，并将模拟环境声640‑3替换为增幅后的模拟环境声640‑5，以作为最后远程调音终端播放的音频的环境声。

[0125] 第二增幅因子可以用于对环境声确定模型输出的模拟环境声进行增幅。对环境声的增幅可以包括加强/减弱环境声的强度。例如，环境声确定模型输出的模拟环境声为声音波形X，第二增幅因子为1.2，则增幅后的模拟环境声对应的声音波形可以为：将声音波形X的每一时刻的幅值拉伸至原来的1.2倍得到的声音波形。

[0126] 在一些实施例中，第一增幅因子可以基于环境声确定模型输出的模拟环境声确定。例如，第一增幅因子可以基于模拟环境声的高频比率，通过预设公式确定，高频比率可以指模拟环境声中的高频声音波形在整个声音波形中的占比。在一些实施例中，第一增幅因子还可以相关于用户的输入中的待调音设备的播放特征。第一增幅因子还可以基于待调音设备的播放特征，通过各种可行的方法确定。例如，可以根据经验制定的预设规则，播放不同的曲目时，根据该曲目的播放时长和播放内容，选用不同的第一增幅因子；又例如，可以基于播放内容中的高频比率与模拟环境声的高频比率的相似度，确定第一增幅因子。

[0127] 在一些实施例中，第二增幅因子可以基于增益确定模型输出的模拟增益确定。例如，第二增幅因子可以基于模拟增益的大小确定，模拟增益越大，第二增幅因子可以越小。

[0128] 在本说明书一些实施例中，通过引入第一增幅因子和第二增幅因子，可以有效体现不同的环境声频率、不同的播放内容等对模拟增益的影响，以及可以体现模拟增益对播放内容进行增益时，对环境声的抑制作用。

[0129] 在本说明书一些实施例中，通过将第一预测模型分为三个单独预测的模型，使得模拟音效的每个部分可以用一个单独训练的模型来预测，可以提高每个部分的预测准确度，从而提高最终模拟音效的预测准确度。

[0130] 图7是根据本说明书一些实施例所示的基于第二预测模型确定模拟音量的示例性结构示意图。

[0131] 如图7所示，第二预测模型730的输入可以包括用户的输入710和待调音设备的环境数据510，输出可以包括模拟音量740；其中，输入第二预测模型730的待调音设备的环境数据510可以包括待调音设备所处环境的温度510‑1、湿度510‑2、人流量510‑3中的至少一种。第二预测模型可以是DNN等。

[0132] 在一些实施例中，第二预测模型730可以通过训练得到。例如，可以将训练样本输入初始第二预测模型750中，基于初始第二预测模型750的输出构建损失函数，并基于损失函数迭代更新初始第二预测模型750的参数，直到预设条件被满足训练完成。

[0133] 在一些实施例中，第二训练样本760可以包括样本用户的输入和样本待调音设备的环境数据，第二训练样本的标签为样本用户的输入和样本待调音设备的环境数据对应的模拟音量。训练样本和标签可以基于历史数据获取。其中，将历史数据中用户满意度较高的确定为第二训练样本和标签。

[0134] 在本说明书一些实施例中，基于第二预测模型对用户的输入和待调音设备的环境数据进行处理，确定模拟音量，使得第二预测模型可以基于大量历史数据学习到用户的输入、环境数据对应的模拟音量的内在规律，从而更准确地确定模拟音量。

[0135] 上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

[0136] 同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

[0137] 此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

[0138] 同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

[0139] 一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

[0140] 针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

[0141] 最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

一种远程调音的方法和系统转让专利

申请号 : CN202211017602.9

文献号 : CN115396784B

文献日 : 2023-12-08

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 马敏 , 陈洋 , 陈玮

申请人 : 汉桑(南京)科技股份有限公司

摘要 :

权利要求 :

说明书 :

一种远程调音的方法和系统

技术领域

背景技术

发明内容

附图说明

具体实施方式