一种视频通话的声音处理方法、存储介质和服务器转让专利

申请号 : CN201811132373.9

文献号 : CN109151366B

文献日 : 2020-09-22

相似专利: 请登录后查看

本发明公开了一种视频通话的声音处理方法，所述方法包括：当终端设备处于视频通话时，实时接收用户输入的第一语音；对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理；将处理后的第一语音播放至视频通话的对端设备。本发明在用户进行视频通话时，通过对通话的声音进行美化处理，使视频通话播出的声音达到用户的需求，给用户使用带来方便。

1.一种视频通话的声音处理方法，其特征在于，其包括：当终端设备处于视频通话时，实时接收用户输入的第一语音；

对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理；

将处理后的第一语音播放至视频通话的对端设备；

所述对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理具体包括：获取视频通话中对端设备的视频画面，并对所述视频画面进行识别以得到视频画面携带的人物图像；

获取识别到的人物图像对应的第二美声方式，并采用所述第二美声方式对所述第一语音进行声音处理；

当获取到人物图像后，获取所述人物图像的性别和年龄，并根据所述性别以及年龄确定所述人物图像对应的第二美声方式。

2.根据权利要求1所述视频通话的声音处理方法，其特征在于，所述当终端设备处于视频通话时，实时接收用户输入的第一语音具体包括：当终端设备处于视频通话时，实时接收用户输入的第一语音；

当接收到用户输入的第一语音时，检测预置的视频通话美声功能是否开启，并在开启时执行对第一语音进行声音处理的操作。

3.根据权利要求1所述视频通话的声音处理方法，其特征在于，所述获取识别到的人物图像对应的第二美声方式，并采用所述第二美声方式对所述第一语音进行声音处理还包括：当未获取到第二美声方式时，接收对端设备发送的第二语音并获取第二语音的声音特征，其中，所述声音特征包括基音频率、共振峰位置、共振峰带宽和音调中的一种或者多种；

根据所述声音特征生成第三美声方式，并采用所述第三美声方式对所述第一语音进行声音处理。

4.根据权利要求1所述视频通话的声音处理方法，其特征在于，所述对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理还包括：当未获取到第二美声方式时，采用默认的美声方式对所述第一语音进行声音处理。

5.根据权利要求1所述视频通话的声音处理方法，其特征在于，所述当终端设备处于视频通话时，实时接收用户输入的第一语音具体包括：当终端设备处于视频通话时，通过预设的拾音器采集所述终端设备使用者输入的第一语音。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～5任意一项所述的视频通话的声音处理方法中的步骤。

7.一种应用服务器，其特征在于，包括：处理器和存储器；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如权利要求

1-5任意一项所述的视频通话的声音处理方法中的步骤。

一种视频通话的声音处理方法、存储介质和服务器

技术领域

[0001] 本发明涉及移动通讯技术领域，特别涉及一种视频通话的声音处理方法。

背景技术

[0002] 随着智能终端的不断发展，各终端设备均配置了摄像头，并可以通过所述摄像头采集用户图像来与外部设备进行视频通话或者进行视频直播等。在视频通话或者视频直播过程中，除了采集到用户所发出的声音意外，通常还会采集到环境声音，使得采集到的用户的声音中携带噪音等。然而现有技术中，在用户进行视频通话或者视频直播时，只能在视频过程中进行人像美颜，而在视频通话或者视频直播的过程中不能对声音进行处理，直接发送携带噪音的语音，进而影响视频通话或者视频直播的效果。

发明内容

[0003] 本发明要解决的技术问题在于，针对现有技术的不足，提供一种视频通话的声音处理方法，以解决现有视频通话或者视频直播过程中不能对声音进行美化的问题。

[0004] 为了解决上述技术问题，本发明所采用的技术方案如下：

[0005] 一种视频通话的声音处理方法，其包括：

[0006] 当终端设备处于视频通话时，实时接收用户输入的第一语音；

[0007] 对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理；

[0008] 将处理后的第一语音播放至视频通话的对端设备。

[0009] 所述视频通话的声音处理方法，其中，所述当终端设备处于视频通话时，实时接收用户输入的第一语音具体包括：

[0010] 当终端设备处于视频通话时，实时接收用户输入的第一语音；

[0011] 当接收到用户输入的第一语音时，检测预置的视频通话美声功能是否开启，并在开启时执行对第一语音进行声音处理的操作。

[0012] 所述视频通话的声音处理方法，其中，所述对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理具体包括：

[0013] 获取终端设备配置的美声标识，根据所述美声标识在预设的美声标识数据库内查收其对应的第一美声方式；

[0014] 根据查找到的第一美声方式对应所述第一语音进行声音处理。

[0015] 所述视频通话的声音处理方法，其中，所述对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理之前还包括：

[0016] 接收用户输入的开启视频通话美声功能的控制指令，其中，所述控制指令携带美声标识；

[0017] 提取所述美声标识，并采用所述美声标识更新终端设备配置的美声标识。

[0018] 所述视频通话的声音处理方法，其中，所述对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理具体包括：

[0019] 获取视频通话的视频画面，并对所述视频画面进行识别以得到视频画面携带的人物图像；

[0020] 获取识别到的人物图像对应的第二美声方式，并采用所述第二美声方式对所述第一语音进行声音处理。

[0021] 所述视频通话的声音处理方法，其中，所述获取识别到的人物图像对应的第二美声方式，并采用所述第二美声方式对所述第一语音进行声音处理还包括：

[0022] 当未获取到第二美声方式时，接收对端设备发送的第二语音并获取第二语音的声音特征，其中，所述声音特征包括基音频率、共振峰位置、共振峰带宽、基音频率和音调中的一种或者多种；

[0023] 根据所述声音特征生成第三美声方式，并采用所述第三美声方式对所述第一语音进行声音处理。

[0024] 所述视频通话的声音处理方法，其中，所述对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理还包括：

[0025] 当未获取到第二美声方式时，采用默认的美声方式对所述第一语音进行声音处理。

[0026] 所述视频通话的声音处理方法，其中，所述当终端设备处于视频通话时，实时接收用户输入的第一语音具体包括：

[0027] 当终端设备处于视频通话时，通过预设的拾音器采集所述终端设备使用者输入的第一语音。

[0028] 一种计算机可读存储介质，其中，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任意一项所述的视频通话的声音处理方法中的步骤。

[0029] 一种应用服务器，其中，包括：处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如上任意一项所述的视频通话的声音处理方法中的步骤。

[0030] 有益效果：与现有技术相比，本发明提供了一种视频通话的声音处理方法，所述方法包括：当终端设备处于视频通话时，实时接收用户输入的第一语音；对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理；将处理后的第一语音播放至视频通话的对端设备。本发明在用户进行视频通话时，通过对通话的声音进行美化处理，使视频通话播出的声音达到用户的需求，给用户使用带来方便。

附图说明

[0031] 图1为本发明提供的视频通话的声音处理方法较佳实施例的流程图。

[0032] 图2为本发明提供的视频通话的声音处理方法中步骤S100的具体流程图。

[0033] 图3为本发明提供的视频通话的声音处理方法中步骤S200较佳实施例的流程图。

[0034] 图4为本发明提供的视频通话的声音处理方法中步骤S200另一实施例的流程图。

[0035] 图5为本发明提供的一种视频通话的声音处理系统较佳实施例的结构原理图。

具体实施方式

[0036] 本发明提供一种视频通话的声音处理方法，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

[0037] 本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

[0038] 本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

[0039] 下面结合附图，通过对实施例的描述，对发明内容作进一步说明。

[0040] 请参照图1，图1为本发明提供的视频通话的声音处理方法的较佳实施例的流程图。所述方法包括：

[0041] S100、当终端设备处于视频通话时，实时接收用户输入的第一语音。

[0042] 具体地，所述终端设备为可以装载视频软件，并通过所述视频软件与外部终端建立视频通话或者进行视频直播的终端设备，例如，手机、平板电脑等。所述第一语音指的是所述终端设备在与外部设备建立视频通话或者进行视频直播时，用户输入的语音。在本实施例中，所述第一语音可以通过终端设备装载的拾音器来获取，即当终端设备处于视频通话时，通过预设的拾音器采集所述终端设备使用者输入的第一语音。

[0043] 同时在本实施例中，在接收到用户的第一语音时，需要判断预先配置的美声功能是否开启，当美声功能开启的情况下执行对第一语音进行美声的操作，当美声功能未开启的情况下，将第一语音发送至视频通话的对端设备。相应的，如图2所示，所述当终端设备处于视频通话时，实时接收用户输入的第一语音具体包括：

[0044] S101、当终端设备处于视频通话时，实时接收用户输入的第一语音；

[0045] S102、当接收到用户输入的第一语音时，检测预置的视频通话美声功能是否开启，并在开启时执行对第一语音进行声音处理的操作。

[0046] 具体地，所述视频通话美声功能为预先配置的，用于对视频通话过程中采集的第一语音进行美化处理的功能，所述视频通话美声功能可以包括实时除噪，改变通话声音的音量，音色，音高等功能。所述视频通话美声功能是否开启可以通过读取终端设备配置的美声功能的开关标识符来确定。也就是说，所述终端设备预设配置美声功能的开关标识符，根据所述开关标识符来确定视频通话美声功能的开启或关闭。在本实施例中，所述开关标识符可以为1和0，当开关标识符为1时，表示视频通话美声功能处于开启状态；当开关标识符为0时，表示视频通话美声功能处于关闭状态。

[0047] S200、对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理。

[0048] 具体地，所述美声方式为预先配置，用于对所述第一语音进行美声处理的方式。所述视频通话美声功能可以预先配置若干美声方式，例如，自动美声、男高音变成男低音以及女生声音变成男生声音等。所述各美声方式预先存储于终端设备内，并且各美声方式均配置有唯一的美声标识，根据所述美声标识唯一确定一种美声方式。在本实施中，所述终端设备预先配置美声标识数据库，所述美声标识数据库内存储有各美声方式与美声标识的对应关系。

[0049] 进一步，在对所述第一语音进行美声识别的方式包括也可以根据终端设备配置的美声标识来确定第一语音对应的美声方式，也可以根据对端设备的视频图像来确定第一语音对应的美声方式。在本实施例中，所述第一语音对应的美声方式根据终端设备配置的美声方式来确定。相应的，如图3所示，所述对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理具体包括：

[0050] S201、获取终端设备配置的美声标识，根据所述美声标识在预设的美声标识数据库内查收其对应的第一美声方式；

[0051] S202、根据查找到的第一美声方式对应所述第一语音进行声音处理。

[0052] 具体地，所述美声标识为终端设备预先配置存储，在移动终端获取到用户输入的第一语音时，可以通过读取终端设备的配置文件来获取终端设备所配置的美声标识。而美声标识与美声方式的对应关系已经存储在预设的美声标识库内，进而可以通过所述美声标识在预设的美声标识库内查找获取到的美声标识所对应的第一美声方式，并采用第一美声方式第一语音进行美声。

[0053] 进一步，所述终端设备配置的美声标识为用户预先配置，也就是说，终端设备接收用户的美声标识配置指令，并根据所述美声标识配置指令配置相应的美声标识。相应的，所述对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理之前还包括：

[0054] S211、接收用户输入的开启视频通话美声功能的控制指令，其中，所述控制指令携带美声标识；

[0055] S212、提取所述美声标识，并采用所述美声标识更新终端设备配置的美声标识。

[0056] 具体地，所述控制指令根据用户操作产生的，用于更新终端设备配置的美声标识，这里将终端设备配置的美声标识记为当前美声标识。也就是说，当接收到控制指令时，采用控制指令携带的美声标识来更新当前美声标识。从而提取到所述美声标识时，可以获取终端设备的当前美声标识，并将所述美声标识与当前美声标识进行比较，若两者相同，则丢弃所述美声标识并提示用户所述美声标识对应的美声方式为当前美声方式，若两者不同，则采用所述美声标识更新当前美声标识。

[0057] 进一步，为了便于用户配置美声方式，所述终端设备可以配置美声功能设置界面，所述美声功能设置界面上有美声方式设置按键，当所述美声方式设置按键被点击时，终端设备界面上显示终端设备配置的所有美声方式，并且各美声方式处于可选中状态。这样当接收到用户选取美声方式的操作时，根据所述操作生成控制指令，控制指令携带被选中的美声方式对应的美声标识，以便于将所述美声标识配置为终端设备的当前美声标识。当然，美声标识的更新还可以采用其他方式进行，例如在视频通话窗口设置有悬浮窗口，所述悬浮窗口隐藏于视频通话窗口后，当用户执行预设操作时，所述悬浮窗口切换至视频通话窗口前，用户可以通过对所述悬浮窗口进行操作而更新美声标识。其中，所述悬浮窗口上可以配置有各美声方式，并各美声放处于可选中状态。所述预设操作可以点击屏幕或者双击屏幕等。

[0058] 在本发明的另一实施例中，所述所述第一语音对应的美声方式为根据对端设备的视频图像来确定第一语音对应的美声方式。相应的，所述对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理具体包括：

[0059] S221、获取视频通话的视频画面，并对所述视频画面进行识别以得到视频画面携带的人物图像；

[0060] S222、获取识别到的人物图像对应的第二美声方式，并采用所述第二美声方式对所述第一语音进行声音处理。

[0061] 具体地，所述视频画面可以为终端设备生成的第一视频图像，也可以是对端设备生成的第二视频图像，还可以包含第一视频图像和第二视频图像的第三视频图像。所述视频画面可以通过截屏的方式获取，仅在接收到第一语音时，自动执行截屏操作以获取视频通话的视频画面。在获取到视频画面后，可以对实时视频画面进行人脸识别与得到其携带的人物图像，并在获取到人物后，通过在人物图像数据库中查找并识别与当前视频通话用户人物图像相匹配的人物图像，如果查找到与当前视频通话用户人物图像相匹配的人物图像，则可以获取识别到与人物图像相匹配的第二美声方式，并采用所述第二美声方式对所述第一语音进行声音处理。其中，人物图像与第二美声方式存在对应关系。

[0062] 进一步，当获取到人物图像后，还可以获取所述人物图像的性别和年龄，并根据所述性别以及年龄确定所述人物图像对应的第二美声方式。也就是说，预先建立了性别和年龄与美声方式的对应关系，例如当检测到视频对方为年长者，则可将对前视频通话的声音调整为成熟稳重的声音；当检测到视频对方为儿童，则可将对前视频通话的声音调整为稚嫩可爱的声音等。从而，在获取到性别和年龄后，可根据所述年龄判断所述人物的所处的人生阶段，例如，老年，中年或者儿童。在确定人生阶段后，根据人人生阶段以及性别来确定其对应的美声方式，使得美声后的语音。这样，不同视频通话用户在使用美声功能时，仅通过人脸识别便可自动的对当前视频通话的声音进行处理，针对不同的用户可以有不同的声音处理方式，从而可以满足不同用户对声音处理的需求，极大的减少用户的操作，方便用户使用。

[0063] 进一步，在获取到人物图像后，可以在预设的人物图像数据库内查收获取的各人物图像，当查收到第一人物图像的第一数量为1时，根据第一人物图像确定第二美声方式，当查收到第一人物图像的第一数量大于1时，判断第一人物图像中是否存属于对端设备的第二视频图像中第二人物图像，若存在在获取第二人物图像的第二数量，当第二数量为1时，则根据第二人物图像确定第二美声方式，当第二数量大于1时，按照预设方式在所有第二人物图像中选取一第二人物图像，并根据选取到第二人物图像确定第二美声方式。其中，所述预设方式可以为随机选取，也可以是选取根据年龄大小选取，例如，选取年龄小或者年龄大等。当然，在实际应用中，还可以间隔预设时间后获取第二视频画面，获取第二视频画面是否包含的第二人物图像，选取第一视频画面和第二视频画面同时包含的第二人物图像，并案子预设方式在同时包含的第二人物图像中选取。此外，当第一人物图像中未存在对端设备的第二人物图像时，可以按照第二人物图像的处理过程来对第一人物图像进行处理，以得到对应的第二美声方式。

[0064] 进一步，当第一人物图像的第一数量为0时，可以根据对端设备发送的第二语音，并根据第二语音确定美声方式。相应的，所述获取识别到的人物图像对应的第二美声方式，并采用所述第二美声方式对所述第一语音进行声音处理还包括：

[0065] S223、当未获取到第二美声方式时，接收对端设备发送的第二语音并获取第二语音的声音特征，其中，所述声音特征包括基音频率、共振峰位置、共振峰带宽、基音频率和音调中的一种或者多种；

[0066] S224、根据所述声音特征生成第三美声方式，并采用所述第三美声方式对所述第一语音进行声音处理。

[0067] 具体地，当没有获取到第二美声方式时，接收当前终端所发送的语音，即第二语音，并获取此时第二语音的声音特征，其包括基音频率、共振峰位置、共振峰带宽、基音频率和音调中的一种或者多种，由于每个用户的通话声音的声音特征会有所不同，从而可以根据所述声音特征生成第三美声方式，并采用所述第三美声方式对所述第一语音进行声音处理。

[0068] 此外，所述对所述第一语音进行美声方式识别，并按照识别到的美声方式对所述第一语音进行声音处理还包括：

[0069] S225、当未获取到第二美声方式时，采用默认的美声方式对所述第一语音进行声音处理。

[0070] 具体地，默认的美声方式其可以是系统默认的一种美声方式，这种方式适用于大多的用户，这样可以极大的减少用户的操作，提升用户的体验。

[0071] S300、将处理后的第一语音播放至视频通话的对端设备。

[0072] 具体地，将处理后的第一语音播放至视频通话的对端设备，也就是说，此时，终端设备视频通话所播放的声音是经过处理过后的效果的声音，可以满足用户的需求，为用户带来方便。

[0073] 本发明还提供了一种终端设备，如图5所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）
23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

[0074] 此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

[0075] 存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器30通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

[0076] 存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

[0077] 此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

[0078] 最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

一种视频通话的声音处理方法、存储介质和服务器转让专利

申请号 : CN201811132373.9

文献号 : CN109151366B

文献日 : 2020-09-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 侯玉娟 , 沈进秋

申请人 : 惠州TCL移动通信有限公司

摘要 :

权利要求 :

说明书 :