一种Web会议声音辅助系统、方法及程序转让专利

申请号 : CN201780092752.7

文献号 : CN110809879B

文献日 : 2021-04-27

相似专利: 请登录后查看

本发明的目的在于提供一种不用设置专用的麦克风就会容易地进行会话的计算机系统、Web会议声音辅助方法及程序。利用在Web会议中使用的终端以外的用户终端的麦克风来进行该Web会议系统的声音辅助的计算机系统将所述Web会议系统和所述用户终端可数据通信地连接，从所述用户终端的麦克风获取声音，将所述Web会议系统的Web会议数据和所述获取到的声音进行合成，输出所述合成后的合成数据。

1.一种Web会议声音辅助系统，所述Web会议声音辅助系统是计算机系统，利用在Web会议中使用的终端以外的用户终端的麦克风来进行Web会议系统的声音辅助，所述Web会议声音辅助系统的特征在于，具备：

连接单元，将所述Web会议系统和所述用户终端可数据通信地连接；

获取单元，从所述用户终端的麦克风获取声音；

合成单元，将所述Web会议系统的Web会议数据和所述获取到的声音的振幅进行比较，提取所述Web会议数据和所述获取到的声音的符合各个用户的声音的波形图案，将所述波形图案中的振幅的大小不同但具有类似的形状的波形图案的部分识别为同一用户的声音，按规定间隔选择振幅大的所述用户终端的振幅的声音并删除振幅小的所述用户终端的振幅的声音，由此进行合成；以及

输出单元，输出所述合成后的合成数据。

2.根据权利要求1所述的Web会议声音辅助系统，其特征在于，所述连接单元通过识别连接的近距离通信，将所述Web会议系统和所述用户终端连接。

3.根据权利要求1所述的Web会议声音辅助系统，其特征在于，所述连接单元利用识别连接的二维码，将所述Web会议系统和所述用户终端连接。

4.根据权利要求1所述的Web会议声音辅助系统，其特征在于，所述连接单元通过输入识别连接的PIN码，将所述Web会议系统和所述用户终端连接。

5.根据权利要求1所述的Web会议声音辅助系统，其特征在于，所述合成单元在将所述Web会议的声音数据和所述获取到的声音进行合成时，通过校正各自获取的时间来进行合成。

6.一种Web会议声音辅助方法，由利用在Web会议中使用的终端以外的用户终端的麦克风来进行Web会议系统的声音辅助的计算机系统执行，所述Web会议声音辅助方法的特征在于，具备以下步骤：

将所述Web会议系统和所述用户终端可数据通信地连接；

从所述用户终端的麦克风获取声音；

将所述Web会议系统的Web会议数据和所述获取到的声音的振幅进行比较，提取所述Web会议数据和所述获取到的声音的符合各个用户的声音的波形图案，将所述波形图案中的振幅的大小不同但具有类似的形状的波形图案的部分识别为同一用户的声音，按规定间隔选择振幅大的所述用户终端的振幅的声音并删除振幅小的所述用户终端的振幅的声音，由此进行合成；以及

输出所述合成后的合成数据。

7.一种计算机可读取的程序，用于使利用在Web会议中使用的终端以外的用户终端的麦克风来进行Web会议系统的声音辅助的计算机系统执行以下步骤：将所述Web会议系统和所述用户终端可数据通信地连接；

从所述用户终端的麦克风获取声音；

输出所述合成后的合成数据。

一种Web会议声音辅助系统、方法及程序

技术领域

[0001] 本发明涉及一种利用在Web会议中使用的终端以外的用户终端的麦克风来进行该Web会议系统的声音辅助的计算机系统、Web会议声音辅助方法及程序。

背景技术

[0002] 近年来，处于远离的场所的人物彼此通过具备显示器、摄像机、麦克风以及扬声器的Web会议系统，经由公共线路网进行Web会议。在这样的Web会议系统中，参加者通过用于
在该Web会议系统中使用的专用的麦克风来输入声音。

[0003] 作为这样的Web会议系统中的声音输入方法的构成，通过在摄像机的附近设置多个麦克风并确定音源的方向，来确定发言人(参照专利文献1)。

[0004] 现有技术文献

[0005] 专利文献

[0006] 专利文献1：日本特开2016－10010号公报

发明内容

[0007] 发明所要解决的问题

[0008] 然而，在专利文献1的构成中，由于设置专用的麦克风的必要性或不一定能确定发言人，恐怕会使会话变困难。

[0009] 本发明的目的在于，提供一种不用设置专用的麦克风就会容易地进行会话的计算机系统、Web会议声音辅助方法及程序。

[0010] 用于解决问题的方案

[0011] 在本发明中，提供以下这样的解决方案。

[0012] 本发明提供一种计算机系统，其是利用在Web会议中使用的终端以外的用户终端的麦克风来进行该Web会议系统的声音辅助的计算机系统，其特征在于，具备：连接单元，将
所述Web会议系统和所述用户终端可数据通信地连接；获取单元，从所述用户终端的麦克风
获取声音；合成单元，将所述Web会议系统的Web会议数据和所述获取到的声音的振幅进行
比较，按规定间隔选择振幅大的一方的振幅的声音并删除振幅小的一方的振幅的声音，由
此进行合成；以及输出单元，输出所述合成后的合成数据。

[0013] 根据本发明，利用在Web会议中使用的终端以外的用户终端的麦克风来进行该Web会议系统的声音辅助的计算机系统将所述Web会议系统和所述用户终端可数据通信地连
接，从所述用户终端的麦克风获取声音，将所述Web会议系统的Web会议数据和所述获取到
的声音的振幅进行比较，按规定间隔选择振幅大的一方的振幅的声音并删除振幅小的一方
的振幅的声音，由此进行合成，输出所述合成后的合成数据。

[0014] 虽然本发明是计算机系统的类别，但在方法及程序等其他类别中也发挥出与其类别相应的同样的作用/效果。

[0015] 发明效果

[0016] 根据本发明，能够提供一种不用设置专用的麦克风就会容易地进行会话的计算机系统、Web会议声音辅助方法及程序。

附图说明

[0017] 图1是表示Web会议声音辅助系统1的概要的图。

[0018] 图2是Web会议声音辅助系统1的整体构成图。

[0019] 图3是计算机10、用户终端100的功能框图。

[0020] 图4是表示计算机10、用户终端100所执行的连接处理的流程图。

[0021] 图5是表示计算机10、用户终端100所执行的声音辅助处理的流程图。

[0022] 图6是示意性地表示对终端侧声音数据和用户声音数据进行比较的状态的一个示例。

具体实施方式

[0023] 以下，参照附图对用于实施本发明的最优的实施方式进行说明。需要说明的是，这些只不过是一个示例，本发明的技术范围并不限定于此。

[0024] [Web会议声音辅助系统1的概要]

[0025] 基于图1对本发明的优选实施方式的概要进行说明。图1是用于说明本发明的优选实施方式的Web会议声音辅助系统1的概要的图。Web会议声音辅助系统1是计算机系统，所
述计算机系统包括计算机10和用户终端100，利用作为在Web会议中使用的终端的计算机10
以外的用户终端100的麦克风来进行该 Web会议系统的声音辅助。

[0026] 需要说明的是，在图1中，计算机10、用户终端100的数量可以适当变更。此外，计算机10、用户终端100并不限定于实际存在的装置，也可以是虚拟的装置。此外，后述的各处理
可以通过计算机10、用户终端100中的任一个或者双方的组合来实现。此外，计算机10和用
户终端100也可以经由具有服务器功能的计算机进行连接。

[0027] 计算机10是构成Web会议系统的计算机装置。该计算机10具有摄像机、麦克风、显示器、扬声器等在Web会议中需要的各种设备。计算机10与用户终端100可数据通信地连接。
计算机10和用户终端100通过近距离通信、利用二维码或者输入PIN(Personal
identification number：个人识别号)码，执行可数据通信的连接。

[0028] 用户终端100是与计算机10可数据通信地连接的终端装置。用户终端100 是Web会议的参加者所携带的终端装置。用户终端100例如除了是便携电话、便携信息终端、平板电
脑终端(tablet terminal)、个人计算机以外，还能是上网本终端、平板终端(slate
terminal)、电子书籍终端、便携式音乐播放器等电器，或者智能眼镜、头戴式显示器等可穿
戴终端，或者其他物品。

[0029] 首先，用户终端100与计算机10可数据通信地连接(步骤S01)。用户终端100通过执行识别连接的近距离通信(由Bluetooth(蓝牙)实现的配对)，与计算机10可数据通信地连
接。此外，用户终端100利用识别连接的二维码，与计算机10可数据通信地连接(计算机10显
示连接用的二维码，通过用户终端100读取该二维码来进行连接)。用户终端100通过输入识
别连接的PIN码，与计算机10可数据通信地连接(计算机10显示连接用的PIN码，通过用户终
端100接受该PIN码的输入来进行连接)。

[0030] 计算机10开始Web会议(步骤S02)。计算机10经由公共线路网等，与未图示的存在于远程位置的Web会议系统进行Web会议数据(拍摄了参加者的动态图像、静止图像等图像
数据以及声音数据)的收发。

[0031] 用户终端100从自身所具有的麦克风获取用户的声音(步骤S03)。用户通过朝向麦克风发出自身的声音，来向用户终端100输入自身的声音。用户终端 100获取该输入的用户
的声音。

[0032] 用户终端100将表示用户的声音的终端侧声音数据发送至计算机10(步骤 S04)。

[0033] 计算机10接收终端侧声音数据，并且获取Web会议数据(步骤S05)。此时，计算机10拍摄参加Web会议的用户的全身、面部的静止图像、动态图像等用户图像，并且获取用户的
声音，获取它们来作为Web会议数据。计算机10 所获取的声音与用户终端100所获取的声音
之间存在一些时差。这是由于距离用户的距离在用户终端100与计算机10之间有差别而产
生的时差。

[0034] 计算机10将自身所获取的Web会议数据和终端侧声音数据进行合成，生成合成后Web会议数据(步骤S06)。计算机10在将自身所获取的Web会议数据和终端侧声音数据进行
合成时，通过校正各自获取到的时间来生成合成后 Web会议数据。计算机10对Web会议数据
所包含的声音数据的振幅和终端侧声音数据的振幅进行比较，并且基于该振幅间的时间
差，在同一用户所发出的声音的情况下，将多个声音数据合成为一个声音数据，由此来生成
合成后Web 会议数据。

[0035] 计算机10将合成后Web会议数据输出至存在于远程位置的连接中的未图示的Web会议系统(步骤S07)。

[0036] 以上是Web会议声音辅助系统1的概要。

[0037] [Web会议声音辅助系统1的系统构成]

[0038] 基于图2，对本发明的优选实施方式的Web会议声音辅助系统1的系统构成进行说明。图2是表示本发明的优选实施方式的Web会议声音辅助系统1的系统构成的图。Web会议
声音辅助系统1是计算机系统，所述计算机系统包括计算机10和用户终端100，利用在Web会
议中使用的终端(计算机10)以外的用户终端100的麦克风来进行Web会议系统的声音辅助。

[0039] 需要说明的是，构成Web会议声音辅助系统1的各装置类的数量及其种类可以适当变更。此外，Web会议声音辅助系统1并不限定于实际存在的装置，也可以通过虚拟的装置类
来实现。此外，后述的各处理也可以通过构成Web会议声音辅助系统1的各装置类中的任一
个或者多个的组合来实现。

[0040] 计算机10是具备后述的功能的上述的计算机装置。

[0041] 用户终端100是具备后述的功能的上述的终端装置。

[0042] [各功能的说明]

[0043] 基于图3，对本发明的优选实施方式的Web会议声音辅助系统1的功能进行说明。图3是表示计算机10、用户终端100的功能框图的图。

[0044] 计算机10作为控制部11，具备CPU(Central Processing Unit：中央处理器)、 RAM(Random Access Memory：随机存储器)、ROM(Read Only Memory：只读存储器)等，作为通信
部12，具备用于能够与其他设备进行通信的设备，例如符合IEEE802.11的Wi―Fi
(Wireless―Fidelity：无线保真)适应型设备、近距离通信设备等。此外，计算机10作为存
储部13，具备由硬盘、半导体存储器、记录介质、存储卡等实现的数据的存储部。此外，计算
机10作为处理部14，具备执行各种计算、处理等的各种设备等。

[0045] 在计算机10中，控制部11通过读入规定的程序，与通信部12协作地实现设备连接模块20、Web会议模块21，声音接收模块22、合成数据输出模块23。此外，在计算机10中，控制
部11通过读取规定的程序，与存储部13协作地实现存储模块30。此外，在计算机10中，控制
部11通过读入规定的程序，与处理部14协作地实现显示模块40、Web会议数据获取模块41、
声音比较模块42、声音合成模块43。

[0046] 用户终端100与计算机10相同，作为控制部110，具备CPU、RAM、ROM 等，作为通信部120，具备用于能够与其他设备进行通信的设备。此外，用户终端100作为输入/输出部140，
具备：通过控制部110控制的输出并显示数据、图像的显示部；接受来自用户的输入的触摸
面板或键盘、鼠标等输入部；收集来自用户的声音的麦克风等收音装置；广播声音的扬声器
等放音装置等各种设备。

[0047] 在用户终端100中，控制部110通过读入规定的程序，与通信部120协作地实现设备注册模块150、声音发送模块151。此外，在用户终端100中，控制部110通过读入规定的程序，
与输入/输出部140协作地实现终端侧声音获取模块170。

[0048] [连接处理]

[0049] 基于图4，对Web会议声音辅助系统1所执行的连接处理进行说明。图4 是表示计算机10、用户终端100所执行的连接处理的流程图的图。对上述的各装置的模块所执行的处理
与本处理一并进行说明。

[0050] 设备注册模块150接受用于与计算机10可数据通信地连接的设备注册，向计算机10发送注册请求(步骤S10)。以下对在步骤S10中设备注册模块150 所执行的处理进行说
明。

[0051] 设备注册模块150通过识别连接的近距离通信，向计算机10发送注册请求。设备注册模块150通过与计算机10执行Bluetooth配对，来发送注册请求。

[0052] 此外，设备注册模块150利用识别连接的二维码，向计算机10发送注册请求。设备连接模块20生成储存了与连接相关的信息的二维码，显示模块40显示该生成的二维码。设
备注册模块150通过读取该二维码，来发送注册请求。

[0053] 此外，设备注册模块150通过接受识别连接的PIN码的输入，来发送注册请求。设备连接模块20生成连接所需的PIN码，显示模块40显示该生成的PIN 码。设备注册模块150通
过接受该PIN码的输入，来向计算机10发送注册请求。

[0054] 需要说明的是，计算机10和用户终端100也可以通过上述的构成以外的方法，来接收用于可数据通信地连接的注册请求。

[0055] 设备连接模块20接收注册请求。设备连接模块20将注册请求的发送方的用户终端100与自身可数据通信地注册(步骤S11)。

[0056] 存储模块30存储接收到设备注册的用户终端100的标识符(步骤S11)。在步骤S11中，作为用户终端100的标识符，存储模块30将MAC地址、电话号码、设备号码等能够唯一确
定用户终端100的信息存储为标识符。

[0057] 需要说明的是，在Web会议声音辅助系统1中，在存在多个用户终端100 的情况下，在各用户终端100中进行这些处理。

[0058] 以上是连接处理。

[0059] [声音辅助处理]

[0060] 基于图5，对Web会议声音辅助系统1所执行的声音辅助处理进行说明。图5是表示计算机10、用户终端100所执行的声音辅助处理的流程图的图。对上述的各装置的模块所执
行的处理与本处理一并进行说明。

[0061] 首先，Web会议模块21与未图示的、存在于远程位置的Web会议系统开始Web会议(步骤S20)。Web会议模块21将参加者的动态图像、静止图像等所拍摄的图像数据和参加者
的声音数据发送至存在于远程位置的Web会议系统，并且接收存在于远程位置的Web会议系
统的图像数据和声音数据。

[0062] 终端侧声音获取模块170获取来自用户的声音(步骤S21)。在步骤S21 中，声音获取模块170从麦克风获取用户的声音。

[0063] 声音发送模块151将获取到的声音作为终端侧声音数据发送至计算机10(步骤S22)。

[0064] 声音接收模块22接收终端侧声音数据。Web会议数据获取模块41获取Web 会议数据(步骤S23)。在步骤S23中，Web会议数据获取模块41所获取的 Web会议数据是将拍摄了参
加Web会议的用户的全身、面部的静止图像、动态图像等用户图像的用户图像数据和收集了
该用户的声音的用户声音数据进行组合后的数据。来自用户的声音是与上述的步骤S21中
的终端侧声音获取模块170 所获取的声音大致相同的声音。步骤S21至步骤S23的处理是指
在一个用户发出声音时，用户终端100的麦克风和计算机10的麦克风分别获取声音的处理。

[0065] 声音比较模块42对接收到的终端侧声音数据和获取到的Web会议数据所包含的用户声音数据进行比较(步骤S24)。在步骤S24中，声音比较模块42提取终端侧声音数据和用
户声音数据的符合各个用户的声音的波形图案。声音比较模块42将该波形图案中的振幅的
大小不同但具有类似的形状的波形图案的部分识别为同一用户的声音，将振幅大的一方判
断为输出的声音数据。

[0066] 基于图6，对声音比较模块42所执行的处理进行说明。图6是示意性地表示对终端侧声音数据和用户声音数据进行比较的状态的一个示例。

[0067] 在图6中，用户200朝向用户终端100发出声音，并且计算机10也获取朝向用户终端100发出的声音。用户终端100将此时的声音作为终端侧声音数据发送至计算机10。计算机
10接收终端侧声音数据，声音比较模块42对该终端侧声音数据和用户声音数据进行比较。

[0068] 声音比较模块42从终端侧声音数据提取振幅210。此外，声音比较模块42 从用户声音数据提取振幅220。由于振幅210和振幅220的大小不同但波形图案大致相同，因此，判
断为振幅210和振幅220是同一用户200所发出的声音。此时，对于振幅210和振幅220，虽然
是同一用户200所发出的声音，但在声音到达用户终端100的时间与声音到达计算机10的时
间之间存在时间差S。

[0069] 声音合成模块43将Web会议数据和终端侧声音数据进行合成(步骤S25)。在步骤S25中，声音合成模块43将Web会议数据所包含的用户声音数据和终端侧声音数据进行合
成。此时，声音合成模块43校正存在于用户声音数据与终端侧声音数据之间的时间差S，并
进行合成。例如，声音合成模块43选择终端侧声音数据或者用户声音数据中的、按规定间隔
(例如，1秒间隔或到会话中断为止)振幅大的一方的声音，删除振幅小的一方的声音。这是
声音合成模块43 通过在规定间隔校正时间差S(例如，在1秒间隔的情况下，将在1秒间隔加
上时间差S得到的间隔作为规定间隔。此外，在到会话中断为止的情况下，将在会话中断时
加上时间差S得到的定时作为规定间隔)，选择振幅大的一方的声音，删除振幅小的一方的
声音。由此，例如，在10秒左右的声音中，在用户200 离开用户终端100并向计算机10的附近
移动时，首先获取用户终端100的声音，比较振幅，由于用户终端100的声音的振幅大，因此
选择用户终端100的声音。然后，由于计算机10所获取的声音的振幅比用户终端100的声音
的振幅大，因此选择计算机10所获取的声音。这样，结果是将计算机10所获取的声音和用户
终端100所获取的声音进行合成。

[0070] 合成数据输出模块23将合成了Web会议数据和终端侧声音数据的合成后Web会议数据输出至存在于远程位置的连接中的未图示的Web会议系统(步骤 S26)。

[0071] 需要说明的是，在上述的处理中，将Web会议数据和终端侧声音数据进行合成的处理并不限于由计算机10执行，也可以由用户终端100执行。此外， Web会议系统经由未图示
的具有服务器功能的计算机进行的情况下，也可以由该计算机执行。

[0072] 以上是声音辅助处理。

[0073] 上述的方法、功能通过由计算机(包括CPU、信息处理装置、各种终端) 读入并执行规定的程序来实现。程序例如以经由网络由计算机提供的(SaaS：软件即服务)方式被提供。
此外，程序例如以记录于软盘、CD(CD－ROM等)、 DVD(DVD－ROM、DVD－RAM等)等计算机可读
取的记录介质的方式被提供。在该情况下，计算机从该记录介质读取程序，传送至内部存储
装置或者外部存储装置进行存储，并执行。此外，也可以预先将该程序记录于例如磁盘、光
盘、磁光盘等存储装置(记录介质)，从该存储装置经由通信线路提供给计算机。

[0074] 以上，对本发明的实施方式进行了说明，但本发明并不限定于上述的这些实施方式。此外，本发明的实施方式所记载的效果只不过是举例示出由本发明产生的最佳效果，本
发明的效果并不限定于本发明的实施方式所记载的效果。

[0075] 附图标记说明

[0076] 1：Web会议声音辅助系统；10：计算机；100：用户终端。

一种Web会议声音辅助系统、方法及程序转让专利

申请号 : CN201780092752.7

文献号 : CN110809879B

文献日 : 2021-04-27

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 菅谷俊二

申请人 : 株式会社OPTIM

摘要 :

权利要求 :

说明书 :