通话数据管理系统转让专利

申请号 : CN201580012625.2

文献号 : CN106068641B

文献日 : 2018-05-29

相似专利: 请登录后查看

提供能更简单地监视多个IP电话的通话内容的通话录音服务器。通话录音服务器(410)包括：语音记录控制单元(414)，依次获取通过IP电话网传输的通话的语音数据，并将该语音数据记录至存储器；通话开始获取单元(415)，基于所获取的语音数据中附带的控制信息，获取开始通话的通话开始时序；以及语音辨识控制单元(416)，在所获取的通话开始时序之后，立即开始对所记录的语音数据进行语音辨识处理。

1.一种通话数据管理系统，包括：通话录音服务器、语音辨识服务器、管理服务器、以及监视装置，其中，所述通话录音服务器从互联网协议电话网依次获取通过所述互联网协议电话网传输的通话的语音数据，并将所述语音数据记录至存储器，并且基于所获取的所述语音数据中附带的控制信息，获取开始所述通话的通话开始时序，所述通话录音服务器根据来自所述监视装置的请求，向所述监视装置输出所记录的所述语音数据，所述语音辨识服务器在获取到所述通话开始时序时，开始对所记录的所述语音数据的语音辨识处理和作为所述语音辨识处理的结果的文本数据的记录，所述语音辨识服务器根据来自所述监视装置的请求，向所述监视装置输出所记录的所述文本数据，所述管理服务器在开始所述语音数据的记录和所述文本数据的记录时，对所述监视装置进行通知，该通知表示已能够获取所述通话的所述语音数据和所述文本数据，所述管理服务器从所述通话录音服务器获取所述通话开始时序，并基于所获取的所述通话开始时序，对所述通话录音服务器、所述语音辨识服务器及所述监视装置各自的动作时序进行控制，所述监视装置通过拖拽动作获取并提示所记录的所述语音数据和所述文本数据。

2.如权利要求1所述的通话数据管理系统，其中，

所述通话录音服务器从所述互联网协议电话网接收信息包，所述信息包存储有所述语音数据且被赋予了包含有所述通话的识别信息的所述控制信息，所述管理服务器基于所述控制信息，对每次所述通话控制所述通话录音服务器、所述语音辨识服务器及所述监视装置各自的动作时序。

3.如权利要求1所述的通话数据管理系统，其中，

所述管理服务器基于所述控制信息，决定是否对所述通话录音服务器所记录的通话的所述语音数据进行所述语音辨识处理。

通话数据管理系统

技术领域

[0001] 本发明涉及记录并管理IP(Internet Protocol，互联网协议)电话网中的通话的语音数据的通话录音服务器、通话数据管理系统及通话数据管理方法。

背景技术

[0002] 以往，确认或监控(以下称为“监视”)通话内容，以实现各种目的例如提高呼叫中心的服务质量。另外，近年来，使用了VoIP(Voice over Internet Protocol，互联网语音协议)技术的IP电话正在普及。因此，已存在用于记录并管理IP电话网中的通话的语音数据的各种技术(例如参照专利文献1)。

[0003] 在专利文献1所记载的技术(以下称为“以往技术”)中，呼叫中心的话务员终端将在电话应答结束后由话务员制成的业务履历信息、和对于通话语音的语音数据的语音辨识处理的结果即语音辨识信息发送至服务器。管理者的终端获取业务履历信息及语音辨识信息，并提示管理者。

[0004] 根据上述现有技术，管理者能够在通话结束后，确认对IP电话网中的通话语音的语音辨识结果。即，能够通过使用现有技术来监视IP电话的通话内容。

[0005] 现有技术文献

[0006] 专利文献

[0007] 专利文献1：日本特开2008-211271号公报

发明内容

[0008] 发明要解决的问题

[0009] 但是，以下的作业会耗费工夫，该作业是指在各通话结束后，找到需要确认的通话，检索所找到的通话的语音数据，并对所存储的语音辨识结果或语音数据进行确认。在像大规模呼叫中心这样的IP电话的个数多的情况下，服务器所存储的上述业务履历信息及语音辨识信息的量也会增大，上述作业会变得非常繁杂。因此，现有技术难以适用于作为监视对象的IP电话的个数多的情况。

[0010] 本发明的目的在于提供能更简单地监视多个IP电话的通话内容的通话录音服务器、通话数据管理系统及通话数据管理方法。

[0011] 解决问题的方案

[0012] 本发明的通话录音服务器包括：语音记录控制单元，依次获取通过IP电话网传输的通话的语音数据，并将所述语音数据记录至存储器；通话开始获取单元，基于所获取的所述语音数据中附带的控制信息，获取开始所述通话的通话开始时序；以及语音辨识控制单元，在所获取的所述通话开始时序之后，立即开始对所记录的所述语音数据进行语音辨识处理。

[0013] 本发明的通话数据管理系统包括：通话录音服务器、语音辨识服务器、管理服务器、以及监视装置，其中，所述通话录音服务器从互联网协议电话网依次获取通过所述互联网协议电话网传输的通话的语音数据，并将所述语音数据记录至存储器，并且基于所获取的所述语音数据中附带的控制信息，获取开始所述通话的通话开始时序，所述通话录音服务器根据来自所述监视装置的请求，向所述监视装置输出所记录的所述语音数据，所述语音辨识服务器在获取到所述通话开始时序时，开始对所记录的所述语音数据的语音辨识处理和作为所述语音辨识处理的结果的文本数据的记录，所述语音辨识服务器根据来自所述监视装置的请求，向所述监视装置输出所记录的所述文本数据，所述管理服务器在开始所述语音数据的记录和所述文本数据的记录时，对所述监视装置进行通知，该通知表示已能够获取所述通话的所述语音数据和所述文本数据，所述管理服务器从所述通话录音服务器获取所述通话开始时序，并基于所获取的所述通话开始时序，对所述通话录音服务器、所述语音辨识服务器及所述监视装置各自的动作时序进行控制，所述监视装置通过拖拽动作获取并提示所记录的所述语音数据和所述文本数据。

[0014] 本发明的通话数据管理方法包括以下步骤：依次获取通过IP电话网传输的通话的语音数据，并将所述语音数据记录至存储器的步骤；基于所获取的所述语音数据中附带的控制信息，获取开始所述通话的通话开始时序的步骤；以及在所获取的所述通话开始时序之后，立即开始对所记录的所述语音数据进行语音辨识处理的步骤。

[0015] 发明的效果

[0016] 根据本发明，在通话开始时序之后，立即开始对通过IP电话网传输的通话的语音数据进行语音辨识处理，因此，能够在通话过程中基本实时地提示语音辨识结果。因此，根据本发明，能更简单地监视多个IP电话的通话内容。

附图说明

[0017] 图1是表示本发明的一实施方式的包含通话数据管理系统的通信系统的结构的一例的系统结构图。

[0018] 图2是表示本实施方式的通话录音服务器的结构的一例的方框图。

[0019] 图3是表示本实施方式的通话录音服务器的动作的一例的流程图。

[0020] 图4是表示本实施方式的通信系统的动作流程的一例的序列图。

[0021] 附图标记说明

[0022] 100：通信系统

[0023] 200：外部网

[0024] 300：内部网

[0025] 310：电话

[0026] 320：网络设备

[0027] 330：PBX装置

[0028] 400：通话管理网

[0029] 410：通话录音服务器

[0030] 411：电话网通信单元

[0031] 412：管理网通信单元

[0032] 413：存储器

[0033] 414：语音记录控制单元

[0034] 415：通话开始获取单元

[0035] 416：语音辨识控制单元

[0036] 420：管理服务器

[0037] 430：语音辨识服务器

[0038] 440：监视装置

具体实施方式

[0039] 以下，参照附图详细地说明本发明的一实施方式。本实施方式是将本发明应用于设置有多个IP电话的呼叫中心的通话监视系统时的具体方式的一例。

[0040] ＜系统结构＞

[0041] 首先，说明本实施方式的包含通话数据管理系统的通信系统的结构。

[0042] 图1是表示本实施方式的包含通话数据管理系统的通信系统的结构的一例的系统结构图。

[0043] 图1中，通信系统100包括外部网200、内部网300及通话管理网400。

[0044] 外部网200是互联网等公共网，且是连接着呼叫中心的顾客所使用的IP终端(未图示)的通信网络。即，外部网200构成由呼叫中心形成的IP电话网的一部分。

[0045] 内部网300是构建在呼叫中心中的LAN(Local Area Network，局域网)等通信网络的一部分。内部网300包括第一电话3101～第N电话310N、网络设备320及PBX(Private Branch eXchange，用户交换机)装置330。

[0046] 各电话310是进行顾客应答的话务员所使用的IP电话。第一电话3101～第N电话310N经由网络设备320分别连接于PBX装置330。

[0047] 网络设备320是在各电话310与PBX装置330之间转发IP信息包的中继装置，例如是交换式集线器、TAP(Test Access Point，分路器)盒或路由器。但是，网络设备320是通过端口镜像等功能，向通话管理网400发送转发的IP信息包的副本。

[0048] PBX装置330是用户交换机，其连接于外部网200。PBX装置330从外部网200接收发往第一电话3101～第N电话310N的IP信息包，并转发给网络设备320。另外，PBX装置330从网络设备320接收发往外部网200的IP电话(未图示)的IP信息包，并转发给外部网200。

[0049] 即，内部网300构成IP电话网的一部分，传输由呼叫中心进行的多个通话的IP信息包，并且向通话管理网400发送传输的IP信息包的副本。

[0050] 通话管理网400例如是构建在呼叫中心中的LAN等通信网络的一部分，且是与本发明的通话数据管理系统对应的部分。通话管理网400包括通话录音服务器410、管理服务器420、语音辨识服务器430及监视装置440。

[0051] 此外，各装置的连接关系并不限定于图1所示的连接线。各装置例如分别连接于LAN，能在任何装置之间进行通信。

[0052] 通话录音服务器410连接于内部网300的网络设备320。通话录音服务器410接收网络设备320所发送的IP信息包，从接收到的IP信息包中提取并记录通话的语音数据。即，通话录音服务器410记录通过IP电话网传输的通话的语音数据。

[0053] 图2是表示通话录音服务器410的结构的一例的方框图。

[0054] 图2中，通话录音服务器410包括电话网通信单元411、管理网通信单元412、存储器413、语音记录控制单元414、通话开始获取单元415及语音辨识控制单元416。

[0055] 电话网通信单元411是用于与内部网300的通信网络连接的通信接口，其连接于网络设备320。电话网通信单元411接收网络设备320所发送的IP信息包，并依次向语音记录控制单元414及通话开始获取单元415输出接收到的IP信息包。

[0056] 管理网通信单元412是用于与通话管理网400的通信网络连接的通信接口，其连接于管理服务器420、语音辨识服务器430及监视装置440。

[0057] 存储器413是硬盘等记录介质，其可读取地保持由语音记录控制单元414存储的信息。

[0058] 语音记录控制单元414对所输入的IP信息包进行分析，从各个IP信息包中提取语音数据(通话语音信号)及控制信息(通信控制信号)。接着，语音记录控制单元414将提取到的语音数据与控制信息等用于确定语音数据的信息相对应地依次存储至存储器413。即，语音记录控制单元414从IP电话网依次获取语音数据，并将该语音数据记录至存储器413。

[0059] 语音数据是包含通话双方的说话人的发声语音的声音数据。控制信息是语音数据附带的信息，其包含通话识别信息、说话人识别信息及时刻信息。通话识别信息是用于对通话进行识别的信息(例如双方的电话号码)。说话人识别信息是用于对语音数据中所含的发声语音的说话人(IP电话)进行识别的信息。时刻信息是表示语音数据所对应的时刻的信息。控制信息既可以从IP信息包的标头部分获取，也可以从IP信息包的负载部分获取。

[0060] 通话开始获取单元415对所输入的IP信息包进行分析，从各个IP信息包中提取包含通话识别信息的控制信息。通话开始获取单元415基于提取到的控制信息，对每次通话确定电话网通信单元411最初接收到该通话的IP信息包时的时序。通话开始获取单元415获取已确定的上述时序作为该通话开始的时序(以下称为“通话开始时序”)。接着，通话开始获取单元415每当获取通话开始时序时，将通话开始时序与对应通话的控制信息一起通知语音辨识控制单元416。

[0061] 此外，在控制信息中包含表示通话开始时刻的信息等直接表示通话开始时序的信息的情况下，通话开始获取单元415也可以从该信息获取通话开始时序。

[0062] 另外，还可以由电话网通信单元411从IP信息包中提取语音数据及控制信息。

[0063] 语音辨识控制单元416在被通知了通话开始时序后，经由管理网通信单元412对管理服务器420发送表示通话开始时序的通话开始通知。通话开始通知中例如包含控制信息。

[0064] 另外，语音辨识控制单元416在经由管理网通信单元412接收语音数据的发送请求(以下称为“语音发送请求”)后，向请求方回复存储器413所记录的作为请求对象的语音数据。语音发送请求中包含控制信息等确定语音数据的信息。另外，语音发送请求例如由语音辨识服务器430及监视装置440发送。语音发送请求例如是以下的内容，该内容指定通话识别信息，并请求一旦存储对应通话的语音数据，就依次回复该语音数据。

[0065] 如后述那样，在发送通话开始通知后，语音辨识服务器430会通过管理服务器420的管理功能，向通话录音服务器410请求语音数据，并开始对回复的语音数据进行语音辨识处理。

[0066] 即，语音辨识控制单元416发送通话开始通知的结果是，向语音辨识服务器430输出所记录的语音数据，在通话开始时序之后，立即使语音辨识服务器430开始对存储器413所记录的语音数据进行语音辨识处理。

[0067] 图1的管理服务器420通过接收通话录音服务器410所发送的通话开始通知来获取通话开始时序。接着，管理服务器420基于获取的通话开始时序，对通话录音服务器410、语音辨识服务器430及监视装置440各自的动作时序进行控制。

[0068] 更具体来说，管理服务器420在接收通话开始通知后，基于通话开始通知中所含的控制信息，决定是否对通话开始通知所示的通话的语音数据进行语音辨识处理。

[0069] 接着，管理服务器420在判断为进行语音辨识的情况下，对语音辨识服务器430发送开始对通话录音服务器410所记录的语音数据进行语音辨识处理的请求(以下称为“辨识开始请求”)。辨识开始请求中包含控制信息等确定语音数据的信息。

[0070] 另外，管理服务器420在判断为进行语音辨识的情况下，对监视装置440转发通话开始通知。而且，管理服务器420在从语音辨识服务器430接收表示语音辨识处理已开始的通知(以下称为“辨识开始通知”)后，向监视装置440转发该辨识开始通知。辨识开始通知中包含控制信息等确定语音数据的信息。

[0071] 语音辨识服务器430在接收辨识开始请求后，对通话录音服务器410发送以与辨识开始请求相同的语音数据为对象的语音发送请求。接着，语音辨识服务器430对通话录音服务器410所回复的语音数据进行语音辨识处理，生成作为语音辨识处理的结果的文本数据，并将该文本数据存储至语音辨识服务器430的存储器(未图示)。

[0072] 语音辨识服务器430进行利用公知的语音辨识技术的语音辨识处理。例如，语音辨识服务器包括语音辨识数据库、声音分析单元及辨识解码单元(均未图示)。

[0073] 语音辨识数据库预先存储有声音模型、字典及语言模型。声音模型是将语音特征量与发音记号之间的概率性对应关系数据化所得的模型。字典记述有多个文本阵列作为语音辨识处理的语音辨识结果的候选组。语言模型是对于字典所记述的各个文本阵列，将出现概率或连接概率数据化所得的模型。

[0074] 声音分析单元对语音信号进行帧处理，并对每一帧进行包含傅里叶分析的规定处理，从而提取语音特征量。接着，声音分析单元根据分析结果，检测出包含发声语音的语音区间，生成仅基于语音区间的语音特征量的时间序列数据。

[0075] 辨识解码单元基于声音分析单元所生成的语音特征量的时间序列数据，并参照语音辨识数据库的声音模型、字典及语言模型来决定语音辨识结果。

[0076] 此外，在语音辨识已成功的情况下，语音辨识结果中包含将发声语音文本化所得的文本数据。即，语音辨识服务器430对通话录音服务器410所记录的语音数据进行语音辨识处理，生成作为语音辨识处理的结果的文本数据。

[0077] 另外，语音辨识服务器430在从监视装置440接收发送文本数据的请求(以下称为“辨识结果发送请求”)后，向监视装置440回复所保存的作为请求对象的语音数据的语音辨识结果。辨识结果发送请求中包含基础语音数据的控制信息等确定语音数据的信息。辨识结果发送请求例如是以下的内容，该内容指定通话识别信息，并请求一旦生成对应通话的语音辨识结果，就依次回复该语音辨识结果。

[0078] 监视装置440是监视呼叫中心的各通话的管理者所使用的个人电脑中的作为网页浏览器发挥功能的部分。监视装置440在从管理服务器420接收通话开始通知后，对通话录音服务器410发送语音发送请求，并对语音辨识服务器430发送辨识结果发送请求。

[0079] 接着，监视装置440将通话录音服务器410所回复的语音数据、与语音辨识服务器430所回复的语音辨识结果中的至少文本数据对应地显示在液晶显示器等显示单元中。即，监视装置440在通话开始时序之后，立即对管理者对应地提示语音数据与其语音辨识结果(文本数据)。

[0080] 此外，通话录音服务器410、管理服务器420、语音辨识服务器430及监视装置440各自包括未图示的例如CPU(Central Processing Unit，中央处理器)、存储有控制程序的ROM(Read Only Memory，只读存储器)等存储媒体、RAM(Random Access Memory，随机存取存储器)等作业用存储器及通信电路等。在此情况下，上述各装置及各单元的功能通过由CPU执行控制程序来实现。

[0081] 在如上所述的通信系统100中，通话录音服务器410能够利用流式传输，向语音辨识服务器430提供通过IP电话网传输的通话的语音数据。而且，语音辨识服务器430能够利用流式传输，向监视装置440提供对于语音数据的语音辨识结果。

[0082] 即，通信系统100能够在通话开始时序之后，立即开始提示语音辨识处理及语音辨识结果，因此，能够在通话过程中基本实时地提示语音辨识结果。

[0083] ＜通话录音服务器的动作＞

[0084] 其次，说明通话录音服务器的动作。

[0085] 图3是表示通话录音服务器410的动作的一例的流程图。

[0086] 首先，在步骤S1100中，电话网通信单元411判断是否从外部网200接收到了IP信息包。电话网通信单元411在接收到了IP信息包的情况下(S1100：是)，使处理向步骤S1200前进。另外，电话网通信单元411在尚未接收到IP信息包的情况下(S1100：否)，使处理向后述的步骤S1500前进。

[0087] 在步骤S1200中，语音记录控制单元414从IP信息包中提取语音数据，将语音数据与控制信息等确定语音数据的信息相对应地记录至存储器413。另外，通话开始获取单元415从IP信息包中提取控制信息。

[0088] 接着，在步骤S1300中，通话开始获取单元415基于控制信息，判断是否为通话开始时序。通话开始获取单元415在是通话开始时序的情况下(S1300：是)，使处理向步骤S1400前进。另外，通话开始获取单元415在并非通话开始时序的情况下(S1300：否)，使处理向后述的步骤S1500前进。

[0089] 在步骤S1400中，语音辨识控制单元416经由管理网通信单元412向管理服务器420发送通话开始通知。

[0090] 接着，在步骤S1500中，语音辨识控制单元416判断是否经由管理网通信单元412接收到了语音发送请求。语音辨识控制单元416在接收到了语音发送请求的情况下(S1500：是)，使处理向步骤S1600前进。另外，语音辨识控制单元416在尚未接收到语音发送请求的情况下(S1500：否)，使处理向后述的步骤S1700前进。

[0091] 在步骤S1600中，语音辨识控制单元416开始向语音发送请求的发送方(请求方)转发语音数据。

[0092] 接着，在步骤S1700中，语音辨识控制单元416判断是否通过管理者的操作等指示了结束对通话数据进行监视的处理。语音辨识控制单元416在尚未指示结束处理的情况下(S1700：否)，使处理返回步骤S1100。另外，语音辨识控制单元416在指示了结束处理的情况下(S1700：是)，结束一系列的处理。

[0093] 通过如上所述的动作，通话录音服务器410能够获取通过IP电话网传输的通话的通话开始时序，并在通话开始时序之后，立即开始对通过IP电话网传输的通话的语音数据进行语音辨识处理。

[0094] ＜整个系统的动作＞

[0095] 其次，说明整个通信系统100的动作流程的一例。

[0096] 图4是表示通信系统100的动作流程的一例的序列图。

[0097] 首先，监视装置440向管理服务器420发送作为语音辨识处理对象的语音数据的条件，并预先设定该条件(S2010)。该条件例如是指在说话人识别信息、通话时段、通话中包含规定的单词。即，监视装置440预先将语音辨识处理对象注册在管理服务器420中。接着，在通话开始后，网络设备320开始向通话录音服务器410发送IP信息包(S2020)。

[0098] 通信录音服务器410开始进行从发送来的各个IP信息包中提取语音数据及控制信息的处理与语音数据的记录(S2030)，并且向管理服务器420发送通话开始通知(S2040)。在该时序，通话录音服务器410中至少存储有通话的最初部分的语音数据。

[0099] 管理服务器420基于通话开始通知中所含的控制信息与S2010所设定的条件，判断是否对语音数据进行语音辨识(S2050)。管理服务器420在判断为进行语音辨识的情况下，向语音辨识服务器430发送辨识开始请求(S2060)，并且向监视装置440发送通话开始通知(S2070)。语音辨识服务器430接受辨识开始请求，并向通话录音服务器410发送语音发送请求(S2080)。

[0100] 如上所述，通话录音服务器410中至少存储有通话的最初部分的语音数据。因此，通话录音服务器410接受语音发送请求，并向语音辨识服务器430回复所存储的语音数据(S2090)。此外，为了获得高精度的语音辨识结果，优选向语音辨识服务器430发送的语音数据维持从IP信息包中提取到的语音数据的质量。

[0101] 这样，语音辨识服务器430开始对通话录音服务器410所存储的语音数据进行语音辨识处理(S2100)。在该时序，语音辨识服务器430中至少存储有通话的最初部分的语音辨识结果。另外，语音辨识服务器430向管理服务器420发送辨识开始通知(S2110)。

[0102] 通过进行上述辨识开始通知，即使像网页浏览器这样通过拖拽动作获取显示对象的监视装置440也能实时地获取并显示语音数据及语音辨识结果。

[0103] 管理服务器420向监视装置440转发从语音辨识服务器430接收到的辨识开始通知(S2120)。此外，优选在该辨识开始通知或步骤S2070所发送的通话开始通知中，包含语音辨识服务器430的识别信息作为表示语音辨识结果的获取源的信息。监视装置440接受辨识开始通知，并向语音辨识服务器430发送辨识结果发送请求(S2130)。

[0104] 如上所述，语音辨识服务器430中至少存储有通话的最初部分的语音辨识结果。因此，语音辨识服务器430接受辨识结果发送请求，并向监视装置440发送所存储的语音辨识结果(S2140)。

[0105] 监视装置440还向通话录音服务器410发送语音发送请求(S2150)，并从通话录音服务器410接收语音数据(S2160)。此外，优选通话录音服务器410在语音辨识控制单元416中，将向监视装置440发送的语音数据转换成网页浏览器所能输出的形式的语音数据。接着，监视装置440对应地显示接收到的语音数据及语音辨识结果(S2170)。

[0106] 例如在多个作为监视对象的通话同时进行的情况下，监视装置440能够基于各语音数据的控制信息中所含的通话识别信息或说话人识别信息，对每次通话获取与上述多个通话相关的语音辨识结果。在此情况下，优选监视装置440将与上述多个通话相关的语音辨识结果同时显示在一个网页浏览器画面中。

[0107] 通过如上所述的动作，通信系统100能够将语音辨识对象缩小到必需的的范围内，并且能够在通话开始时序之后，立即提示语音辨识处理及语音辨识结果。另外，通信系统100能够在网页浏览器中实时地显示通话的语音数据及语音辨识结果。

[0108] 此外，对于通信系统100所发送的各种请求，既可通过一次请求来请求对整个通话的数据进行处理，也可将信息包、帧或汇总的语音辨识结果等作为单位，对每次通话的一部分的数据请求进行处理。在后者的情况下，例如能够将帧编号或语音辨识结果的事件编号等用作指定处理对象的识别信息。

[0109] ＜本实施方式的效果＞

[0110] 如上所述，根据本实施方式的包含通话数据管理系统的通信系统100，在通话开始时序之后，立即开始对通过形成IP电话网的内部网300传输的通话的语音数据进行语音辨识处理。由此，通信系统100能够在通话过程中基本实时地提示对IP电话网的通话的语音数据的语音辨识结果。

[0111] 如上所述，在IP电话的个数庞大的情况下，以下的作业会变得非常繁杂，该作业是指在各通话结束后，找到需要确认的通话，检索通话的语音数据，对所存储的语音辨识结果或语音数据进行确认。

[0112] 在上述方面，本实施方式的通信系统100实时地对管理者提示各通话的内容，因此，能避免如上所述的繁杂的作业，并且能高效地监视各通话。因此，根据本实施方式的通信系统100，能够更简单地实时监视多个IP电话的通话内容。

[0113] 另外，在进行管理者对话务员提出建议等的动作的情况下，若像现有技术那样，在通话结束后确定通话内容，则会导致上述动作比适当的时序晚。在此方面，本实施方式的通信系统100能够实时地监视各IP电话的通话内容，因此，能以准确的时序进行对应于通话内容的动作。

[0114] 另外，本实施方式的通信系统100是由管理服务器420基于控制信息，对每次通话对通话录音服务器410、语音辨识服务器430及监视装置440各自的动作时序进行控制。由此，即使通话录音服务器410、语音辨识服务器430及监视装置440为独立的装置，本实施方式的通信系统100也能够通过最小限度地改变这些装置，使这些装置联合地进行动作，取得上述效果。

[0115] 另外，在本实施方式的通信系统100中，监视装置440从语音辨识服务器430获取语音辨识服务器430所存储的语音辨识结果，并提示该语音辨识结果。因此，即使在存在多个监视装置440的情况下，本实施方式的通信系统100也能够利用各监视装置440独立地提示语音辨识结果。

[0116] 另外，本实施方式的通信系统100能够动态地选择作为语音辨识对象的语音数据(通话、IP电话或说话人等)，因此，能更高效地监视多个IP电话的通话内容。

[0117] 另外，本实施方式的通信系统100从IP电话网获取通话的语音数据，因此，能够高质量且高效地获取各通话的语音数据。例如，与在各IP电话中设置用于获取语音数据的设备的情况相比，本实施方式的通信系统100能够减少必需的设备成本及设备空间。另外，本实施方式的通信系统100能够获取完全分离地对呼出语音与接听语音进行录音所得的高质量的语音数据，因此，能够获得精度高的文本数据作为语音辨识结果，从而能够实现更高的可靠性。

[0118] 此外，通过IP电话网传输的通话的语音数据的获取方式并不限定于上述例子。例如，通话录音服务器410在设置在各通话的语音数据的传输路径上的情况下，也可以在转发语音数据时获取该语音数据的副本。

[0119] 另外，管理服务器420、语音辨识服务器430及监视装置440三者的功能的一部分或全部也可以设置在通话录音服务器410中。

[0120] 例如，通话录音服务器410还可以包括处理对象决定单元，该处理对象决定单元基于所获取的控制信息，决定是否对所记录的语音数据进行语音辨识处理。在此情况下，能够由通话录音服务器410缩小语音辨识对象的范围，从而能够减少通话开始通知的发送次数。

[0121] 另外，本发明的应用并非限定于呼叫中心。本发明能应用于政府机关或企业的接待及营业等的各种窗口电话总机、或公司内部电话网等可进行多个通话的各种IP电话网。

[0122] 本发明的通话录音服务器包括：语音记录控制单元，依次获取通过IP电话网传输的通话的语音数据，并将上述语音数据记录至存储器；通话开始获取单元，基于所获取的上述语音数据附带的控制信息，获取开始上述通话的通话开始时序；以及语音辨识控制单元，在所获取的上述通话开始时序之后，立即开始对所记录的上述语音数据进行语音辨识处理。

[0123] 此外，上述通话录音服务器也可以包括处理对象决定单元，基于所获取的上述控制信息，决定是否对所记录的上述语音数据进行上述语音辨识处理。

[0124] 另外，上述通话录音服务器也可以包括电话网通信单元，从上述IP电话网接收信息包，上述信息包存储有上述语音数据且被赋予了包含上述通话的识别信息的上述控制信息，上述通话开始获取单元基于上述控制信息，确定上述电话网通信单元最初接收到上述通话的上述信息包时的时序，并获取所确定的上述时序作为上述通话开始时序。

[0125] 另外，在上述通话录音服务器中，上述语音辨识控制单元也可以基于上述控制信息，对每次上述通话，与所记录的上述语音数据相对应地管理作为上述语音辨识处理的结果的文本数据。

[0126] 本发明的通话数据管理系统也可以包括：通话录音服务器，记录通过IP电话网传输的通话的语音数据；语音辨识服务器，对所记录的上述语音数据进行语音辨识处理，并生成作为上述语音辨识处理的结果的文本数据；以及监视装置，对应地提示所记录的上述语音数据与所生成的上述文本数据，其中，上述通话录音服务器包括：语音记录控制单元，从IP电话网依次获取上述语音数据，并将上述语音数据记录至存储器；通话开始获取单元，基于所获取的上述语音数据附带的控制信息，获取开始上述通话的通话开始时序；以及语音辨识控制单元，向上述语音辨识服务器输出所记录的上述语音数据，使上述语音辨识服务器在所获取的上述通话开始时序之后，立即开始对上述语音数据进行语音辨识处理。

[0127] 此外，在上述通话数据管理系统中也可以，上述语音辨识控制单元根据来自上述监视装置的请求，向上述监视装置输出所记录的上述语音数据，上述语音辨识服务器根据来自上述监视装置的请求，向上述监视装置输出所生成的上述文本数据，上述通话数据管理系统包括管理服务器，从上述通话录音服务器获取上述通话开始时序，并基于所获取的上述通话开始时序，对上述通话录音服务器、上述语音辨识服务器及上述监视装置各自的动作时序进行控制。

[0128] 另外，在上述通话数据管理系统中，上述通话录音服务器也可以包括电话网通信单元，从上述IP电话网接收信息包，上述信息包存储有上述语音数据且被赋予了包含上述通话的识别信息的上述控制信息，上述管理服务器基于上述控制信息，对每次上述通话控制上述通话录音服务器、上述语音辨识服务器及上述监视装置各自的动作时序。

[0129] 另外，在上述通话数据管理系统中，上述管理服务器也可以基于上述控制信息，决定是否对上述通话录音服务器所记录的通话的上述语音数据进行上述语音辨识处理。

[0130] 本发明的通话数据管理方法也可以包括以下步骤：依次获取通过IP电话网传输的通话的语音数据，并将上述语音数据记录至存储器的步骤；基于所获取的上述语音数据附带的控制信息，获取开始上述通话的通话开始时序的步骤；以及在所获取的上述通话开始时序之后，立即开始对所记录的上述语音数据进行语音辨识处理的步骤。

[0131] 在2014年3月17日申请的特愿第2014-053355号的日本专利申请所包含的说明书、附图和说明书摘要的公开内容全部引用于本申请。

[0132] 工业实用性

[0133] 本发明作为能更简单地监视多个IP电话的通话内容的通话录音服务器、通话数据管理系统及通话数据管理方法是有用的。

通话数据管理系统转让专利

申请号 : CN201580012625.2

文献号 : CN106068641B

文献日 : 2018-05-29

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 新井政悟 , 堤满 , 森肋健

申请人 : 日商先进媒体公司

摘要 :

权利要求 :

说明书 :