一种视频数据处理方法、装置、电子设备及存储介质转让专利

申请号 : CN202010938303.3

文献号 : CN111797820B

文献日 : 2021-02-19

本申请提供一种视频数据处理方法、装置、电子设备及存储介质，该方法包括：获得视频数据，视频数据是对多个商品进行视频直播获得的；对视频数据中的目标媒体数据进行识别，获得多个商品中的每个商品的商品信息和每个商品的评论信息，目标媒体数据包括图像数据、语音数据和以及文字数据中的至少一项；将商品信息与评论信息进行关联，获得商品信息关联的评论信息；对商品信息关联的评论信息进行分析，获得分析结果。在上述的实现过程中，对商品信息和评论信息进行关联分析，从而让视频数据中的评论信息有效地被提取、利用和分析，提高了视频数据中的评论信息的利用率。

1.一种视频数据处理方法，其特征在于，包括：

获得视频数据，所述视频数据是对多个商品进行视频直播获得的；

对所述视频数据中的目标媒体数据进行识别，获得所述多个商品中的每个商品的商品信息和所述每个商品的评论信息，所述目标媒体数据包括图像数据、语音数据和以及文字数据中的至少一项；

将所述商品信息与所述评论信息进行关联，获得所述商品信息关联的评论信息；

对所述商品信息关联的评论信息进行分析，获得分析结果；

其中，所述对所述视频数据中的目标媒体数据进行识别，获得所述多个商品中的每个商品的商品信息和所述每个商品的评论信息，包括：从所述视频数据中提取出视频图像，并对所述视频图像进行目标识别，然后截取出所述视频图像中的字幕区域图像和弹幕区域图像；对所述字幕区域图像进行文字识别，获得字幕文本，并提取所述字幕文本中的商品信息；对所述弹幕区域图像进行文字识别，获得弹幕文本，并提取所述弹幕文本中的评论信息；

所述对所述视频数据中的目标媒体数据进行识别，获得所述多个商品中的每个商品的商品信息和所述每个商品的评论信息，还包括：从所述视频数据中提取出语音数据，并对所述语音数据进行声纹识别，获得当前声纹特征；判断所述当前声纹特征是否为目标商家的声纹特征；若是，则对所述语音数据进行语音识别，获得第一文本，并提取所述第一文本中的商品信息；若否，则对所述语音数据进行语音识别，获得第二文本，并提取所述第二文本中的评论信息；

其中，所述判断所述当前声纹特征是否为目标商家的声纹特征包括：计算所述当前声纹特征与所述目标商家的声纹特征的相似度值，若所述当前声纹特征与所述目标商家的声纹特征的相似度值超过预设阈值，则确定所述当前声纹特征是所述目标商家的声纹特征；

若所述当前声纹特征与所述目标商家的声纹特征的相似度值没有超过所述预设阈值，则确定所述当前声纹特征不是所述目标商家的声纹特征。

2.根据权利要求1所述的方法，其特征在于，所述对所述视频数据中的目标媒体数据进行识别，获得所述多个商品中的每个商品的商品信息和所述每个商品的评论信息，还包括：从所述视频数据中提取出文字数据，并对所述文字数据进行断句获得多个文本语句；

识别出所述多个文本语句中的每个文本语句的出现位置；

若所述文本语句的出现位置在字幕区域中，则提取所述文本语句中的商品信息；

若所述文本语句的出现位置在弹幕区域中，则提取所述文本语句中的评论信息。

3.根据权利要求1所述的方法，其特征在于，所述对所述视频数据中的目标媒体数据进行识别，获得所述多个商品中的每个商品的商品信息和所述每个商品的评论信息，包括：从所述视频数据中的语音数据或者文字数据识别出所述商品信息，并从所述视频数据中的视频图像识别出所述评论信息；或者从所述视频数据中的视频图像或者语音数据识别出所述商品信息，并从所述视频数据中的文字数据识别出所述评论信息；或者从所述视频数据中的文字数据或者视频图像识别出所述商品信息，并从所述视频数据中的语音数据识别出所述评论信息。

4.根据权利要求1所述的方法，其特征在于，所述将所述商品信息与所述评论信息进行关联，包括：若商品出现时刻和评论出现时刻之间的时长小于预设时长，则将所述商品信息与所述评论信息进行关联，所述商品出现时刻是商品信息在所述视频数据中出现的时刻，所述评论出现时刻是评论信息在所述视频数据中的出现时刻；或者若所述商品信息和所述评论信息均出现在预设时间范围内，则将所述商品信息与所述评论信息进行关联；或者若所述商品信息与所述评论信息的相关度值超过预设阈值，则将所述商品信息与所述评论信息进行关联。

5.根据权利要求1所述的方法，其特征在于，所述分析结果包括：商品排序信息；所述对所述商品信息关联的评论信息进行分析，获得分析结果，包括：对所述商品信息关联的评论信息进行情感倾向分析，获得所述评论信息中的好评次数和差评次数；

根据所述商品信息在所述评论信息中出现的次数、所述好评次数和所述差评次数对所述商品信息进行排序，获得商品排序信息。

6.一种视频数据处理装置，其特征在于，包括：

视频数据获得模块，用于获得视频数据，所述视频数据是对多个商品进行视频直播获得的；

目标数据识别模块，用于对所述视频数据中的目标媒体数据进行识别，获得所述多个商品中的每个商品的商品信息和所述每个商品的评论信息，所述目标媒体数据包括图像数据、语音数据和以及文字数据中的至少一项；

商品评论关联模块，用于将所述商品信息与所述评论信息进行关联，获得所述商品信息关联的评论信息；

分析结果获得模块，用于对所述商品信息关联的评论信息进行分析，获得分析结果；

若所述当前声纹特征与所述目标商家的声纹特征的相似度值没有超过所述预设阈值，则确定所述当前声纹特征不是所述目标商家的声纹特征。

7.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的方法。

8.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5任一所述的方法。

一种视频数据处理方法、装置、电子设备及存储介质

技术领域

[0001] 本申请涉及视频处理、图像识别、语音识别和文字识别的技术领域，具体而言，涉及一种视频数据处理方法、装置、电子设备及存储介质。

背景技术

[0002] 在目前的视频直播过程中，直播用户会评价直播商家的商品试吃、商品试用和商品推荐等活动，直播商家通过直播视频与直播用户交流后，获得的视频数据中存储着很多用户评论信息。由于有些评论信息是将音频和文字以硬字幕的方式嵌入视频文件中的，导致视频数据中的评论信息很难被有效分析和利用。

发明内容

[0003] 本申请实施例的目的在于提供一种视频数据处理方法、装置、电子设备及存储介质，用于提高视频数据中的评论信息的利用率。

[0004] 本申请实施例提供了一种视频数据处理方法，包括：获得视频数据，视频数据是对多个商品进行视频直播获得的；对视频数据中的目标媒体数据进行识别，获得多个商品中的每个商品的商品信息和每个商品的评论信息，目标媒体数据包括图像数据、语音数据和以及文字数据中的至少一项；将商品信息与评论信息进行关联，获得商品信息关联的评论信息；对商品信息关联的评论信息进行分析，获得分析结果。在上述的实现过程中，从直播获得的视频数据中提取出多个商品对应的商品信息和评论信息，并对商品信息和评论信息进行关联分析，从而让视频数据中的评论信息有效地被提取、利用和分析，提高了视频数据中的评论信息的利用率。

[0005] 可选地，在本申请实施例中，对视频数据中的目标媒体数据进行识别，获得多个商品中的每个商品的商品信息和每个商品的评论信息，包括：从视频数据中提取出语音数据，并对语音数据进行声纹识别，获得当前声纹特征；判断当前声纹特征是否为目标商家的声纹特征；若是，则对语音数据进行语音识别，获得第一文本，并提取第一文本中的商品信息；若否，则对语音数据进行语音识别，获得第二文本，并提取第二文本中的评论信息。在上述的实现过程中，通过判断当前声纹特征是否为目标商家的声纹特征，来确定语音数据的商品信息和评论信息；根据声纹特征的判断结果，能够有效的提取出商家为直播用户介绍的商品信息以及直播用户通过语音评论的信息，有效地提高了获得商品信息和评论信息的准确率。

[0006] 可选地，在本申请实施例中，对视频数据中的目标媒体数据进行识别，获得多个商品中的每个商品的商品信息和每个商品的评论信息，包括：从视频数据中提取出视频图像，并对视频图像进行目标识别，然后截取出视频图像中的字幕区域图像和弹幕区域图像；对字幕区域图像进行文字识别，获得字幕文本，并提取字幕文本中的商品信息；对弹幕区域图像进行文字识别，获得弹幕文本，并提取弹幕文本中的评论信息。在上述的实现过程中，通过对视频数据中提取出的视频图像进行目标识别，然后截取出视频图像中的字幕区域图像和弹幕区域图像，并分别提取字幕文本中的商品信息和弹幕文本中的评论信息；从而克服了难以从嵌入式视频提取出商品信息或评论信息的难题，有效地提高了获得商品信息和评论信息的准确率。

[0007] 可选地，在本申请实施例中，对视频数据中的目标媒体数据进行识别，获得多个商品中的每个商品的商品信息和每个商品的评论信息，包括：从视频数据中提取出文字数据，并对文字数据进行断句获得多个文本语句；识别出多个文本语句中的每个文本语句的出现位置；若文本语句的出现位置在字幕区域中，则提取文本语句中的商品信息；若文本语句的出现位置在弹幕区域中，则提取文本语句中的评论信息。在上述的实现过程中，通过对视频数据中提取的文字数据进行断句获得多个文本语句；根据每个文本语句的出现位置，来提取文本语句中的商品信息或者评论信息；从而克服了难以确定视频数据中的文本语句是商品信息还是评论信息的难题，有效地提高了获得商品信息和评论信息的准确率。

[0008] 可选地，在本申请实施例中，对视频数据中的目标媒体数据进行识别，获得多个商品中的每个商品的商品信息和每个商品的评论信息，包括：从视频数据中的语音数据或者文字数据识别出商品信息，并从视频数据中的视频图像识别出评论信息；或者从视频数据中的视频图像或者语音数据识别出商品信息，并从视频数据中的文字数据识别出评论信息；或者从视频数据中的文字数据或者视频图像识别出商品信息，并从视频数据中的语音数据识别出评论信息。在上述的实现过程中，通过从视频数据中的语音数据、文字数据和视频图像这三种数据中的其中一种数据中获取商品信息，且从另一种数据中获取评论信息；从而有效地增大了获取商品信息和评论信息的途径，减少了获取不到商品信息和评论信息的概率，从而有效地保证了后续对商品信息和评论信息进行分析能够正常进行。

[0009] 可选地，在本申请实施例中，将商品信息与评论信息进行关联，包括：若商品出现时刻和评论出现时刻之间的时长小于预设时长，则将商品信息与评论信息进行关联，商品出现时刻是商品信息在视频数据中出现的时刻，评论出现时刻是评论信息在视频数据中的出现时刻；或者若商品信息和评论信息均出现在预设时间范围内，则将商品信息与评论信息进行关联；或者若商品信息与评论信息的相关度值超过预设阈值，则将商品信息与评论信息进行关联。在上述的实现过程中，通过商品出现时刻和评论出现时刻之间的时长，预设时间范围内是否同时出现商品信息与评论信息，或者商品信息与评论信息的相关度值超过预设阈值，来确定是否将商品信息与评论信息进行关联；从而改善了多个商品信息与多个评论信息不知如何关联的情况，有效地提高了商品信息与评论信息进行关联的正确率。

[0010] 可选地，在本申请实施例中，分析结果包括：商品排序信息；对商品信息关联的评论信息进行分析，获得分析结果，包括：对商品信息关联的评论信息进行情感倾向分析，获得评论信息中的好评次数和差评次数；根据商品信息在评论信息中出现的次数、好评次数和差评次数对商品信息进行排序，获得商品排序信息。在上述的实现过程中，通过对商品信息关联的评论信息进行情感倾向分析获得评论信息中的好评次数和差评次数；根据商品信息在评论信息中出现的次数、好评次数和差评次数对商品信息进行排序，获得商品排序信息；从而能够为直播商家提供最受好评或者最受欢迎的商品信息，以便直播商家安排后续的直播商品及直播商品的顺序，根据好评次数和差评次数来确定分析结果，有效地提高了获得最受好评或者最受欢迎的商品信息的正确率。

[0011] 本申请实施例还提供了一种视频数据处理装置，包括：视频数据获得模块，用于获得视频数据，视频数据是对多个商品进行视频直播获得的；目标数据识别模块，用于对视频数据中的目标媒体数据进行识别，获得多个商品中的每个商品的商品信息和每个商品的评论信息，目标媒体数据包括图像数据、语音数据和以及文字数据中的至少一项；商品评论关联模块，用于将商品信息与评论信息进行关联，获得商品信息关联的评论信息；分析结果获得模块，用于对商品信息关联的评论信息进行分析，获得分析结果。

[0012] 可选地，在本申请实施例中，目标数据识别模块，包括：语音提取识别模块，用于从视频数据中提取出语音数据，并对语音数据进行声纹识别，获得当前声纹特征；声纹特征判断模块，用于判断当前声纹特征是否为目标商家的声纹特征；第一文本提取模块，用于若当前声纹特征是目标商家的声纹特征，则对语音数据进行语音识别，获得第一文本，并提取第一文本中的商品信息；第二文本提取模块，用于若当前声纹特征不是目标商家的声纹特征，则对语音数据进行语音识别，获得第二文本，并提取第二文本中的评论信息。

[0013] 可选地，在本申请实施例中，目标数据识别模块，包括：图像识别截取模块，用于从视频数据中提取出视频图像，并对视频图像进行目标识别，然后截取出视频图像中的字幕区域图像和弹幕区域图像；第一文字识别模块，用于对字幕区域图像进行文字识别，获得字幕文本，并提取字幕文本中的商品信息；第二文字识别模块，用于对弹幕区域图像进行文字识别，获得弹幕文本，并提取弹幕文本中的评论信息。

[0014] 可选地，在本申请实施例中，目标数据识别模块，包括：文字提取断句模块，用于从视频数据中提取出文字数据，并对文字数据进行断句获得多个文本语句；出现位置识别模块，用于识别出多个文本语句中的每个文本语句的出现位置；第一信息提取模块，用于若文本语句的出现位置在字幕区域中，则提取文本语句中的商品信息；第二信息提取模块，用于若文本语句的出现位置在弹幕区域中，则提取文本语句中的评论信息。

[0015] 可选地，在本申请实施例中，目标数据识别模块，包括：信息识别模块，用于从视频数据中的语音数据或者文字数据识别出商品信息，并从视频数据中的视频图像识别出评论信息；或者，从视频数据中的视频图像或者语音数据识别出商品信息，并从视频数据中的文字数据识别出评论信息；或者，从视频数据中的文字数据或者视频图像识别出商品信息，并从视频数据中的语音数据识别出评论信息。

[0016] 可选地，在本申请实施例中，商品评论关联模块，包括：信息关联模块，用于若商品出现时刻和评论出现时刻之间的时长小于预设时长，则将商品信息与评论信息进行关联，商品出现时刻是商品信息在视频数据中出现的时刻，评论出现时刻是评论信息在视频数据中的出现时刻；或者，若商品信息和评论信息均出现在预设时间范围内，则将商品信息与评论信息进行关联；或者，若商品信息与评论信息的相关度值超过预设阈值，则将商品信息与评论信息进行关联。

[0017] 可选地，在本申请实施例中，分析结果包括：商品排序信息；分析结果获得模块，包括：情感倾向分析模块，用于对商品信息关联的评论信息进行情感倾向分析，获得评论信息中的好评次数和差评次数；排序信息获得模块，用于根据商品信息在评论信息中出现的次数、好评次数和差评次数对商品信息进行排序，获得商品排序信息。

[0018] 本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

[0019] 本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

[0020] 为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

[0021] 图1示出的本申请实施例提供的视频数据处理方法的流程示意图；

[0022] 图2示出的本申请实施例提供的语音识别过程的示意图；

[0023] 图3示出的本申请实施例提供的视频数据处理装置的结构示意图；

[0024] 图4示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

[0025] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

[0026] 在介绍本申请实施例提供的视频数据处理方法之前，先介绍本申请实施例中所涉及的一些概念：

[0027] 文本分类（text classification），又称文本归类(text categorization)，是指基于给定的分类体系和方法，自动判别文本内容的类别并给文本赋以类别标识的过程、技术和方法；具体例如：在给定的分类体系下，利用计算机根据文本的内容自动判别文本类型，这里的自动判别文本类型具体例如：判断该文本的感情色彩，感情色彩例如：评论信息是好评，还是差评。

[0028] 语音识别（Voice Recognition），是指与机器进行语音交流相关的技术或者学科，即让机器明白人类说的话；语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、前端处理等等。

[0029] 目标检测网络，是指对图像中的目标对象进行检测的网络，即检测出图像中的目标对象，并给出目标对象在图像中的位置范围、分类和概率，位置范围具体可以为检测框的形式标注，分类是指目标对象的具体类别，概率是指检测框中的目标对象为具体类别的概率。

[0030] 字符识别，是指对包括字符的图像进行分析处理，获取版面信息并识别其中的字符，从而将文本图像转换为电子文本的过程。

[0031] 需要说明的是，本申请实施例提供的视频数据处理方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器，设备终端例如：智能手机、个人电脑（personal computer，PC）、平板电脑、个人数字助理（personal digital assistant，PDA）、移动上网设备（mobile Internet device，MID）、网络交换机或网络路由器等。

[0032] 在介绍本申请实施例提供的视频数据处理方法之前，先介绍该视频数据处理方法适用的应用场景，这里的应用场景包括但不限于：使用该视频数据处理方法对直播网络视频、录播网络视频、直播电视节目或者录播电视节目等场景中包括评论信息的视频数据进行分析，或者使用该视频数据处理方法对任何包括文字信息或者评论信息的视频进行分析，获得的分析结果可以帮助主播、直播商家或节目制作者安排下一场直播或节目。

[0033] 请参见图1示出的本申请实施例提供的视频数据处理方法的流程示意图；该视频数据处理方法的主要思路是，通过从直播获得的视频数据中提取出多个商品对应的商品信息和评论信息，并对商品信息和评论信息进行关联分析，从而让视频数据中的评论信息有效地被提取、利用和分析，提高了视频数据中的评论信息的利用率，上述的视频数据处理方法可以包括：

[0034] 步骤S110：获得视频数据，视频数据是对多个商品进行视频直播获得的。

[0035] 上述步骤S110中的视频数据的获得方式包括：第一种获得方式，使用摄像机、录像机或彩色照相机等采集设备对目标商品进行拍摄，获得视频数据，可以是拍摄完成一件商品的直播讲解后，再拍摄另一件商品，也可以是相互关联的两件商品同时拍摄；然后该终端设备向电子设备发送视频数据，然后电子设备接收采集设备发送的视频数据；第二种获得方式，从视频服务器上获取视频数据，具体例如：从视频服务器的文件系统中获取视频数据，或者从视频服务器的数据库中获取视频数据，或者从视频服务器的移动存储设备中获取视频数据；第三种获得方式，直接拦截视频服务器发送给终端设备的视频数据，或者，接收拦截设备拦截的视频数据，该视频数据是视频服务器发送给终端设备的；第四种获得方式，使用浏览器等软件获取互联网上的视频数据，或者使用其它应用程序访问互联网获得视频数据；具体例如：访问直播服务器提供的直播视频接口、录播视频接口或者点播视频接口，即可获得视频数据。

[0036] 在步骤S110之后，执行步骤S120：对视频数据中的目标媒体数据进行识别，获得多个商品中的每个商品的商品信息和每个商品的评论信息。

[0037] 其中，目标媒体数据包括图像数据、语音数据和以及文字数据中的至少一项数据，可以是其中的一种数据，也可以是其中的两种数据，也可以是全部的三种数据。

[0038] 由于上述步骤S120的实施方式太多，具体分为三种情况：第一种情况，从三种数据中的其中一种数据中同时获取商品信息和评论信息，这种情况有三种实施方式；第二种情况，从三种数据中的其中一种数据中获取商品信息，且从另一种数据中获取评论信息，这种情况有六种实施方式；第三种情况，与第二种情况类似的，从三种数据中的其中两种数据中共同获取商品信息，且从剩余的一种数据中获取评论信息，或者，从三种数据中的其中两种数据中共同获取评论信息，且从剩余的一种数据中获取商品信息，这种情况有六种实施方式；因此，将步骤S120的实施方式的描述放在获得分析结果之后，再对上述的三种情况进行详细地说明。

[0039] 在步骤S120之后，执行步骤S130：将商品信息与评论信息进行关联，获得商品信息关联的评论信息。

[0040] 上述步骤S130的实施方式有很多种，包括但不限于如下几种：

[0041] 第一种实施方式，根据商品出现时刻和评论出现时刻之间的时长，将商品信息和评论信息进行关联，该实施方式包括：

[0042] 步骤S131：若商品出现时刻和评论出现时刻之间的时长小于预设时长，则将商品信息与评论信息进行关联。

[0043] 其中，商品出现时刻是商品信息在视频数据中出现的时刻，评论出现时刻是评论信息在视频数据中的出现时刻。

[0044] 上述步骤S131的实施方式例如：假设预设时长为3分钟，且商品出现时刻为第1分钟，评论出现时刻为第2分钟，那么商品出现时刻和评论出现时刻之间的时长为1分钟，容易得知，商品出现时刻和评论出现时刻之间的时长是小于预设时长的，因此，此时应当将商品信息与评论信息进行关联。当然，如果商品出现时刻和评论出现时刻之间的时长大于预设时长，则不能将商品信息与评论信息进行关联，此时可以不做任何操作。

[0045] 第二种实施方式，根据预设时间范围内是否均出现，将商品信息和评论信息进行关联，该实施方式包括：

[0046] 步骤S132：若商品信息和评论信息均出现在预设时间范围内，则将商品信息与评论信息进行关联。

[0047] 上述步骤S132的实施方式有两种情况：第一种情况是不知道每个时间段对应的直播商品，时间段是指预设时间范围；那么以10分钟为一个时间范围为例，具体例如：若9：00至9：10中，牙刷信息出现在9：03，而用户A的评论信息出现在9：06，那么可以将牙刷信息和用户A的评论信息进行关联。第二种情况是知道每个时间段对应的直播商品，时间段是指预设时间范围；假设直播商家预先知道预设时间范围的直播的商品，例如9点到9点半之间直播商家介绍的是牙刷，而9点半到10点之间介绍的是牙膏，那么将9点到9点半之间的评论信息直接和牙刷关联，而将9点半到10点之间的评论信息直接和牙膏关联。

[0048] 第三种实施方式，根据商品信息与评论信息的相关度值，将商品信息和评论信息进行关联，该实施方式包括：计算商品信息与评论信息的相关度值，将相关度值大于预设阈值的商品信息和对应的评论信息进行关联。

[0049] 步骤S133：若商品信息与评论信息的相关度值超过预设阈值，则将商品信息与评论信息进行关联。

[0050] 上述步骤S133的实施方式例如：计算商品信息与评论信息的相关度值，具体地，可以根据商品信息和评论信息之间的相似度、商品出现时刻和评论出现时刻之间的时长和/或商品信息和评论信息是否是从同一种数据中提取等等因素，使用这些因素乘以对应的权重，获得相关度值；假设预设阈值设为2，商品信息和评论信息之间的相似度为1，商品出现时刻和评论出现时刻之间的时长为1，相似度和时长的权重分别为1.1和1.2，那么根据相似度和时长计算出的相关度值为2.3，因此，相似度值2.3是大于预设阈值2的，应当将商品信息和评论信息进行关联。

[0051] 在步骤S130之后，执行步骤S140：对商品信息关联的评论信息进行分析，获得分析结果。

[0052] 上述步骤S140的实施方式有很多种，包括但不限于如下几种：

[0053] 第一种实施方式，根据评论信息中的商品出现次数、好评次数和差评次数对商品排序，获得商品排序信息的分析结果，该实施方式包括：

[0054] 步骤S141：对商品信息关联的评论信息进行情感倾向分析和统计，获得评论信息中的好评次数和差评次数。

[0055] 上述步骤S141的实施方式例如：使用神经网络模型对商品信息关联的评论信息进行情感倾向分析和统计，获得评论信息中的好评次数和差评次数，此处的神经网络模型包括但不限于：文本分类模型、长短期记忆（Long Short-Term Memory，LSTM）网络和双向长短记忆（Bidirectional Long Short-Term Memor，Bi-LSTM）网络；其中，此处的文本分类模型又被称为文本分类神经网络模型，是指对神经网络进行训练后获得的用于文本分类的神经网络模型，即将文本语料作为文本分类模型的输入获得概率列表的输出，可以使用的文本分类神经网络模型例如：卷积神经网络（Convolutional neural network ，CNN）和深度神经网络（Deep Neural Networks，DNN）等等。

[0056] 步骤S142：根据商品信息在评论信息中出现的次数、好评次数和差评次数对商品信息进行排序，获得商品排序信息。

[0057] 上述步骤S142的实施方式例如：将商品信息中的商品名称在评论信息中的出现次数、好评次数和差评次数各赋予对应的权重，假设对应权重分别为1：1：-1，当然权重也可以根据具体情况进行设置；若第一商品的名称出现次数为3、好评次数为10且差评次数为0，那么商品排序信息中的排序系数为3×1+10×1+0×(-1)=13；若第二商品的名称出现次数为5、好评次数为3且差评次数为10，那么商品排序信息中的排序系数为5×1+3×1+10×(-1)=-2，那么可以理解的，根据排序系数对商品信息从大到小进行排序，商品排序信息依次为：
第一商品和第二商品；其中，评论信息包括好评或差评，评论信息中可以出现商品名称，也可以不出现商品名称。

[0058] 通过对商品信息关联的评论信息进行情感倾向分析获得评论信息中的好评次数和差评次数；根据商品信息（如商品名称）在评论信息中出现的次数、好评次数和差评次数对商品信息进行排序，获得商品排序信息；从而能够为直播商家提供最受好评或者最受欢迎的商品信息，以便直播商家安排后续的直播商品及直播商品的顺序，根据好评次数和差评次数来确定分析结果，有效地提高了获得最受好评或者最受欢迎的商品信息的正确率。

[0059] 第二种实施方式，从多种商品信息中筛选出热度最高的预设数量个商品，该实施方式包括：

[0060] 步骤S143：统计多个商品信息中的每个商品信息在评论信息中出现的次数。

[0061] 上述步骤S143的实施方式例如：假设多个商品信息是三个商品信息，分别为：第一商品信息、第二商品信息和第三商品信息；统计后的第一商品信息、第二商品信息和第三商品信息在评论信息中出现的次数分别为89、93和99。

[0062] 步骤S144：根据商品信息在评论信息中出现的次数进行排序，获得排序后的多个商品信息。

[0063] 上述步骤S144的实施方式例如：假设统计后的第一商品信息、第二商品信息和第三商品信息在评论信息中出现的次数分别为89、93和99，那么按照商品信息在评论信息中出现的次数进行排序，获得排序后的多个商品信息依次为：第三商品信息、第二商品信息和第一商品信息；其中，第三商品信息、第二商品信息和第一商品信息在评论信息中出现的次数分别为99、93和89。

[0064] 步骤S145：在排序后的多个商品信息中筛选出预设数量商品信息。

[0065] 上述步骤S145的实施方式例如：上述的预设数量可以根据具体情况进行设置，具体例如2、3、5和10等等；为了便于理解和说明，这里以预设数量是2为例进行数目，那么筛选后的商品信息依次为第三商品信息和第二商品信息。可以理解的是，上述的第一实施方式和第二实施方式也可以相互借鉴和结合，各个步骤的实施方式也可以相互参照。

[0066] 在上述的实现过程中，先对视频数据中的图像数据、语音数据和以及文字数据中的至少一项数据进行识别，获得商品信息和评论信息，然后将商品信息与评论信息进行关联，获得商品信息关联的评论信息，最后对商品信息关联的评论信息进行分析，获得分析结果；也就是说，通过从直播获得的视频数据中提取出多个商品对应的商品信息和评论信息，并对商品信息和评论信息进行关联分析，从而让视频数据中的评论信息有效地被提取、利用和分析，提高了视频数据中的评论信息的利用率。

[0067] 上述步骤S120的实施方式有很多种情况，包括如下三种情况：

[0068] 第一种情况，从三种数据中的其中一种数据中同时获取商品信息和评论信息，这种情况可以包括如下三种实施方式。

[0069] 第一种实施方式，仅仅从视频数据中的语音数据提取出商品信息和评论信息，在直播视频中，商家与用户通过语音交流的信息存储在视频数据中的音频数据中，也就是说，该音频数据包括：商家介绍商品信息和用户评论该商品的评论信息，可以通过提取出音频，并对音频进行声纹识别和语音识别的方式来提取商品信息和评论信息，该实施方式可以包括：

[0070] 步骤S1211：从视频数据中提取出语音数据，并对语音数据进行声纹识别，获得当前声纹特征。

[0071] 上述步骤S1211的实施方式例如：使用基于相关性大小设计的语音增强自适应算法或者基于WaveNet神经网络模型，从视频数据中提取出语音数据，并对语音数据进行声纹识别，获得当前声纹特征。

[0072] 步骤S1212：判断当前声纹特征是否为目标商家的声纹特征。

[0073] 上述步骤S1212的实施方式例如：计算当前声纹特征与目标商家的声纹特征的相似度值，若当前声纹特征与目标商家的声纹特征的相似度值超过预设阈值，则确定当前声纹特征是目标商家的声纹特征；若当前声纹特征与目标商家的声纹特征的相似度值没有超过预设阈值，则确定当前声纹特征不是目标商家的声纹特征。

[0074] 步骤S1213：若当前声纹特征是目标商家的声纹特征，则对语音数据进行语音识别，获得第一文本，并提取第一文本中的商品信息。

[0075] 请参见图2示出的本申请实施例提供的语音识别过程的示意图；上述步骤S1213的实施方式例如：若当前声纹特征是目标商家的声纹特征，则可使用LSTM网络模型、Bi-LSTM网络模型、VGG网络模型、Resnet网络模型、Wide Resnet网络模型或Inception网络模型等神经网络模型对语音数据进行语音识别，获得第一文本，并使用正则表达式提取第一文本中的商品信息。

[0076] 当然在语音识别的实施过程中，也可以采用语音切片、数据处理、梅尔频率倒谱系数（Mel Frequency Cepstrum Coefficient, MFCC）和WaveNet神经网络处理过程后，获得语音识别结果，即获得第一文本的内容；其中，MFCC是在Mel标度频率域提取出来的倒谱系数，Mel标度描述了人耳对频率感知的非线性特性；数据处理的过程包括：数据前处理（又被称为数据预处理）、去除杂讯、移动窗函数（Widnow Function）和高频信号加强等处理步骤；其中，此处的数据前处理是指将语音切片进行帧切割，切割成一小段一小段的帧数据，相邻两帧数据之间有一定时间段的重叠；具体例如：一般是25ms取一帧，然后移动10ms再取一帧，也就是每两帧之间有15ms的重叠。两帧数据重叠是因为语音信号是时变的，在短时范围内特征变化较小，所以作为稳态来处理；但超出这短时范围语音信号就有变化了；移动窗函数具体可以使用汉明窗（Hanmming Window）函数，该函数在某一区间有非零值，而在其他区间的值为0，于是相当于每次都只取得非零区间内的语音；高频信号加强是指对输入的数字语音信号进行预加重，其目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。

[0077] 步骤S1214：若当前声纹特征不是目标商家的声纹特征，则对语音数据进行语音识别，获得第二文本，并提取第二文本中的评论信息。

[0078] 其中，该步骤S1214的实施原理和实施方式与步骤S1213的实施原理和实施方式是类似的，区别仅在于本步骤是，在不是目标商家的声纹特征时，提取的是第二文本中的评论信息，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S1213的描述。

[0079] 在上述的实现过程中，通过判断当前声纹特征是否为目标商家的声纹特征，来确定语音数据的商品信息和评论信息；根据声纹特征的判断结果，能够提取出商家为直播用户介绍的商品信息以及直播用户通过语音评论的信息，有效地提高了获得商品信息和评论信息的准确率。

[0080] 第二种实施方式，仅仅从视频数据中的视频图像提取出商品信息和评论信息，针对嵌入视频的硬字幕或硬弹幕，可以采用图像识别和文字识别的方式获得商品信息和评论信息，该实施方式可以包括：

[0081] 步骤S1221：从视频数据中提取出视频图像。

[0082] 上述步骤S1221的实施方式例如：视频数据中包括很多帧视频图像，使用程序或软件提取出视频数据中的其中一帧视频图像，其中每帧图像都可以进行下面的处理过程。

[0083] 步骤S1222：对视频图像进行目标识别，并根据目标识别的结果截取出视频图像中的字幕区域图像和弹幕区域图像。

[0084] 可以理解的是，字幕区域和弹幕区域主要区别在于，第一区别，两者出现的区域位置不同，商品直播视频的字幕区域通常是在视频图像的下方，然而弹幕区域在商品直播视频中，通常是在视频图像的上方；第二区别，两者播放的动画形式不同，为了被直播用户方便认清字幕，字幕通常是以固定位置的动画播放的，然而不固定位置的弹幕是滑动的，从视频画面的右上方滑动至视频画面的左上方，或者，从视频画面的左上方滑动至视频画面的右上方。

[0085] 上述步骤S1222的实施方式例如：使用支持向量机或目标检测网络模型对视频图像进行目标识别，先识别出视频图像中的字幕区域图像和弹幕区域图像，然后再根据目标识别的结果截取出视频图像中的字幕区域图像和弹幕区域图像；其中，此处可以使用的目标检测网络模型包括但不限于：RCNN、fast RCNN和faster RCNN等等。

[0086] 步骤S1223：对字幕区域图像进行文字识别，获得字幕文本，并提取字幕文本中的商品信息。

[0087] 上述步骤S1223的实施方式例如：使用文本卷积网络层（Text-CNN）对字幕区域图像进行文字识别，获得字幕文本，并使用正则表达式或神经网络模型提取字幕文本中的商品信息；其中，文本卷积网络层（Text-CNN）是一种利用卷积神经网络对文本进行分类的算法。

[0088] 步骤S1224：对弹幕区域图像进行文字识别，获得弹幕文本，并提取弹幕文本中的评论信息。

[0089] 其中，该步骤S1224的实施原理和实施方式与步骤S1223的实施原理和实施方式是类似的，区别仅在于，本步骤是从弹幕区域图像中识别出弹幕文本，再使用正则表达式或神经网络模型提取出弹幕文本中的评论信息，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S1223的描述。

[0090] 在上述的实现过程中，通过对视频数据中提取出的视频图像进行目标识别，然后截取出视频图像中的字幕区域图像和弹幕区域图像，并分别提取字幕文本中的商品信息和弹幕文本中的评论信息；从而克服了难以从嵌入式视频提取出商品信息或评论信息的难题，有效地提高了获得商品信息和评论信息的准确率。

[0091] 第三种实施方式，仅仅从视频数据中的文字数据提取出商品信息和评论信息，有些外挂式的字幕文件是和视频文件打包在一起的，因此，只需要按照视频文件格式读取字幕文件即可获得文字数据，该实施方式可以包括：

[0092] 步骤S1231：从视频数据中提取出文字数据，并对文字数据进行断句获得多个文本语句。

[0093] 上述步骤S1231的实施方式例如：根据视频文件格式从视频数据中提取出文字数据，并对文字数据进行断句，获得多个文本语句；其中，对文字数据进行断句的具体方式有很多种：第一种，根据预设标签进行断句，例如：换行符标记、制表符和手段换行符等等；第二种，根据预设标点符号进行断句，例如：句号、逗号、感叹号和分号等等；第三种，使用自然语言处理（NLP）技术对文字数据进行断句。

[0094] 步骤S1232：识别出多个文本语句中的每个文本语句的出现位置。

[0095] 步骤S1233：若文本语句的出现位置在字幕区域中，则提取文本语句中的商品信息。

[0096] 步骤S1234：若文本语句的出现位置在弹幕区域中，则提取文本语句中的评论信息。

[0097] 上述步骤S1232至步骤S1234的实施方式例如：第一种，若文字数据中标记了该文字数据均为字幕文件，那么可以确定文字数据中的每个文本语句的出现位置均为字幕区域；第二种，若文字数据中标记了该文字数据均为弹幕文件，那么可以确定文字数据中的每个文本语句的出现位置均为弹幕区域；第三种，若每个文本语句对应格式标签标记文本语句的出现位置和动画形式，那么可以从格式标签中提取出现位置，并根据出现位置执行步骤S1233至步骤S1234。

[0098] 在上述的实现过程中，通过对视频数据中提取的文字数据进行断句获得多个文本语句；根据每个文本语句的出现位置，来提取文本语句中的商品信息或者评论信息；从而克服了难以确定视频数据中的文本语句是商品信息还是评论信息的难题，有效地提高了获得商品信息和评论信息的准确率。

[0099] 第二种情况，从三种数据中的其中一种数据中获取商品信息，且从另一种数据中获取评论信息，其中，每种数据获取信息的方式与第一种情况类似，不清楚的地方可以参考上面第一种情况中的描述，下面便不再赘述。

[0100] 下面仅描述第二种情况的六种不同实施方式：第一种实施方式，从视频数据中的语音数据识别出商品信息，并从视频数据中的视频图像识别出评论信息；第二种实施方式，从视频数据中的文字数据识别出商品信息，并从视频数据中的视频图像识别出评论信息；第三种实施方式，从视频数据中的视频图像识别出商品信息，并从视频数据中的文字数据识别出评论信息；第四种实施方式，从视频数据中的语音数据识别出商品信息，并从视频数据中的文字数据识别出评论信息；第五种实施方式，从视频数据中的文字数据识别出商品信息，并从视频数据中的语音数据识别出评论信息；第六种实施方式，从视频数据中的视频图像识别出商品信息，并从视频数据中的语音数据识别出评论信息；

[0101] 第三种情况，从三种数据中的其中两种数据中共同获取商品信息，且从剩余的一种数据中获取评论信息，或者，从三种数据中的其中两种数据中共同获取评论信息，且从剩余的一种数据中获取商品信息，其中，每种数据获取信息的方式与第一种情况类似，不清楚的地方可以参考上面第一种情况中的描述，下面便不再赘述。

[0102] 下面仅描述第三种情况的六种不同实施方式：第一种实施方式，从视频数据中的语音数据和文字数据识别并汇总商品信息，并从视频数据中的视频图像识别出评论信息；第二种实施方式，从视频数据中的视频图像和语音数据识别并汇总商品信息，并从视频数据中的文字数据识别出评论信息；第三种实施方式，从视频数据中的文字数据和视频图像识别并汇总商品信息，并从视频数据中的语音数据识别出评论信息；第四种实施方式，从视频数据中的语音数据和文字数据识别并汇总评论信息，并从视频数据中的视频图像识别出商品信息；第五种实施方式，从视频数据中的视频图像和语音数据识别并汇总评论信息，并从视频数据中的文字数据识别出商品信息；第六种实施方式，从视频数据中的文字数据和视频图像识别并汇总评论信息，并从视频数据中的语音数据识别出商品信息；

[0103] 在上述的实现过程中，通过从视频数据中的语音数据、文字数据和视频图像这三种数据中的其中一种数据中获取商品信息，且从另一种数据中获取评论信息；从而有效地增大了获取商品信息和评论信息的途径，减少了获取不到商品信息和评论信息的概率，从而有效地保证了后续对商品信息和评论信息进行分析能够正常进行。

[0104] 请参见图3示出的本申请实施例提供的视频数据处理装置的结构示意图；本申请实施例提供了一种视频数据处理装置200，包括：

[0105] 视频数据获得模块210，用于获得视频数据，视频数据是对多个商品进行视频直播获得的。

[0106] 目标数据识别模块220，用于对视频数据中的目标媒体数据进行识别，获得多个商品中的每个商品的商品信息和每个商品的评论信息，目标媒体数据包括图像数据、语音数据和以及文字数据中的至少一项。

[0107] 商品评论关联模块230，用于将商品信息与评论信息进行关联，获得商品信息关联的评论信息。

[0108] 分析结果获得模块240，用于对商品信息关联的评论信息进行分析，获得分析结果。

[0109] 可选地，在本申请实施例中，目标数据识别模块，可以包括：

[0110] 语音提取识别模块，用于从视频数据中提取出语音数据，并对语音数据进行声纹识别，获得当前声纹特征。

[0111] 声纹特征判断模块，用于判断当前声纹特征是否为目标商家的声纹特征。

[0112] 第一文本提取模块，用于若当前声纹特征是目标商家的声纹特征，则对语音数据进行语音识别，获得第一文本，并提取第一文本中的商品信息。

[0113] 第二文本提取模块，用于若当前声纹特征不是目标商家的声纹特征，则对语音数据进行语音识别，获得第二文本，并提取第二文本中的评论信息。

[0114] 可选地，在本申请实施例中，目标数据识别模块，还包括：

[0115] 图像识别截取模块，用于从视频数据中提取出视频图像，并对视频图像进行目标识别，然后截取出视频图像中的字幕区域图像和弹幕区域图像。

[0116] 第一文字识别模块，用于对字幕区域图像进行文字识别，获得字幕文本，并提取字幕文本中的商品信息。

[0117] 第二文字识别模块，用于对弹幕区域图像进行文字识别，获得弹幕文本，并提取弹幕文本中的评论信息。

[0118] 可选地，在本申请实施例中，目标数据识别模块，还可以包括：

[0119] 文字提取断句模块，用于从视频数据中提取出文字数据，并对文字数据进行断句获得多个文本语句。

[0120] 出现位置识别模块，用于识别出多个文本语句中的每个文本语句的出现位置。

[0121] 第一信息提取模块，用于若文本语句的出现位置在字幕区域中，则提取文本语句中的商品信息。

[0122] 第二信息提取模块，用于若文本语句的出现位置在弹幕区域中，则提取文本语句中的评论信息。

[0123] 可选地，在本申请实施例中，目标数据识别模块还可以包括：

[0124] 信息识别模块，用于从视频数据中的语音数据或者文字数据识别出商品信息，并从视频数据中的视频图像识别出评论信息；或者，从视频数据中的视频图像或者语音数据识别出商品信息，并从视频数据中的文字数据识别出评论信息；或者，从视频数据中的文字数据或者视频图像识别出商品信息，并从视频数据中的语音数据识别出评论信息。

[0125] 可选地，在本申请实施例中，商品评论关联模块，包括：

[0126] 信息关联模块，用于若商品出现时刻和评论出现时刻之间的时长小于预设时长，则将商品信息与评论信息进行关联，商品出现时刻是商品信息在视频数据中出现的时刻，评论出现时刻是评论信息在视频数据中的出现时刻；或者，若商品信息和评论信息均出现在预设时间范围内，则将商品信息与评论信息进行关联；或者，若商品信息与评论信息的相关度值超过预设阈值，则将商品信息与评论信息进行关联。

[0127] 可选地，在本申请实施例中，分析结果包括：商品排序信息；分析结果获得模块，包括：

[0128] 情感倾向分析模块，用于对商品信息关联的评论信息进行情感倾向分析，获得评论信息中的好评次数和差评次数。

[0129] 排序信息获得模块，用于根据商品信息在评论信息中出现的次数、好评次数和差评次数对商品信息进行排序，获得商品排序信息。

[0130] 应理解的是，该装置与上述的视频数据处理方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件（firmware）的形式存储于存储器中或固化在装置的操作系统（operating system，OS）中的软件功能模块。

[0131] 请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300，包括：处理器310和存储器320，存储器320存储有处理器310可执行的机器可读指令，机器可读指令被处理器310执行时执行如上的方法。

[0132] 本申请实施例还提供了一种存储介质330，该存储介质330上存储有计算机程序，该计算机程序被处理器310运行时执行如上的方法。

[0133] 其中，存储介质330可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

[0134] 本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以使用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

[0135] 另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

[0136] 在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

[0137] 以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

一种视频数据处理方法、装置、电子设备及存储介质转让专利

申请号 : CN202010938303.3

文献号 : CN111797820B

文献日 : 2021-02-19

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王志慧 , 李晓宇 , 李明 , 张月鹏 , 姜秋宇 , 裴广超

申请人 : 北京神州泰岳智能数据技术有限公司

摘要 :

权利要求 :

说明书 :