一种会议视频检索方法、装置及存储介质转让专利

申请号 : CN202211090010.X

文献号 : CN115168650B

文献日 : 2023-06-02

本申请涉及视频检索的领域，尤其是涉及一种会议视频检索方法、装置及存储介质，其包括获取视频源；根据预设的第一逻辑定义规则从视频源中获得图像语义结果，并在图像语义结果中添加相对应的第一时间戳；获取视频源中的音频源，并将音频源进行解析以得到音频文字；根据预设的第二逻辑定义规则从音频源中获取音频语义结果，并在音频语义结果中添加相对应的第二时间戳；将图像语义结果和音频语义结果保存至检索引擎库；基于检索关键信息获得检索引擎库内相应的图像语义结果和/或音频语义结果；根据图像语义结果和/或音频语义结果内的第一时间戳和/或第二时间戳得到相对应的视频源片段。本申请具有提高会议过程中对视频的检索效果。

1.一种会议视频检索方法，其特征在于，包括以下步骤：获取视频源，并获取所述视频源中的实体；

根据预设的第一逻辑定义规则从所述视频源中获得图像语义结果，第一逻辑定义规则至少包括位置关系、逻辑关系、动作关系、知识关系，并在所述图像语义结果中添加相对应的第一时间戳，其中，从所述视频源中获得图像语义，包括：根据所述视频源中的实体识别出所有实体名称；

根据各所述实体之间的逻辑关系获得逻辑评价，所述逻辑关系表征为图像中的实体通过一些行为逻辑上的推测关系；

根据各所述实体的知识关系获得延伸知识评价，所述知识关系指代图像中的实体在人的感知上、大数据的背景下所具有或被定义的关联知识内容；

根据各所述实体之间的位置关系获得位置评价，所述位置评价表征为通过位置关系定义后，体现若干实体之间在前后左右上下的相互关系和与相互关系得到的结果相关联的近似评价；

根据各所述实体之间的动作关系获得动作评价，所述动作评价表征为通过动作关系定义后得到的实体之间的动作词和与动作词相关联的近似评价；

结合所述逻辑评价、延伸知识、位置评价和动作评价评价获得图像语义结果；

获取所述视频源中的音频源，并将所述音频源进行解析以得到音频文字；

根据预设的第二逻辑定义规则从所述音频源中获取音频语义结果，第二逻辑定义规则至少包括性别关系、语言方言关系、背景音乐关系，并在所述音频语义结果中添加相对应的第二时间戳；

获取录音源，所述录音源表征为会议中现场录制的声源中剔除视频源中的音频源后得到的参会人声源；

将所述录音源进行解析以得到录音文字；

根据预设的第二逻辑定义规则从所述录音源中获取录音语义结果，并在所述录音语义结果中添加相对应的第三时间戳；

将所述图像语义结果、所述音频语义结果和录音语义结果保存至检索引擎库；

基于检索引擎中被输入的检索关键信息获得所述检索引擎库内相应的图像语义结果、音频语义结果和/或录音语义结果，所述检索关键信息包括检索词信息和检索句信息；

具体的；

获取检索关键词信息；

判断所述检索引擎库中是否存在与所述关键词信息的关联度大于第一预设值的图像语义结果、音频语义结果和/或录音语义结果；

若存在，则获得相对应的图像语义结果、音频语义结果和/或录音语义结果；

获取检索关键句信息；

根据预设的选词方法对所述检索关键句信息进行选词以获取若干关键句字段信息，所述关键句字段信息包括名词字段信息、描述词字段信息和辅助词字段信息；

判断所述检索引擎库内中是否存在与所述名词字段信息、描述词字段信息和辅助词字段信息的关联度大于第二预设值的图像语义结果、音频语义结果和/或录音语义结果；

若存在，则获得相对应的图像语义结果、音频语义结果和/或录音语义结果；

根据图像语义结果、音频语义结果和/或录音语义结果内的第一时间戳、第二时间戳和/或第三时间戳得到相对应的视频源片段。

2.根据权利要求1所述的一种会议视频检索方法，其特征在于：根据第二逻辑定义规则从所述音频源中获取音频语义结果，包括：根据所述音频源中的人声获取所述人声的性别，并生成相应的性别标签；

根据所述音频源中的人声获取所述人声的语言、方言，并生成相应的语言方言标签；

根据所述音频源中的背景音获取所述背景音中的背景音乐，并生成相应的背景音乐标签；

将所述性别标签、语言方言标签和背景音乐标签添加至相对应的所述音频文字中以获得音频语义结果。

3.根据权利要求1所述的一种会议视频检索方法，其特征在于：在所述图像语义结果中添加相对应的第一时间戳，在所述音频语义结果中添加相对应的第二时间戳，包括以下步骤：以预设时间为间隔获取视频源中的相关帧图像，获取所述相关帧图像在所述视频源中所处的第一时间，并根据第一时间生成相应的第一时间戳；

获取若干所述相关帧图像所对应的图像语义结果，并将所述第一时间戳添加至所述图像语义结果中；

以预设长度为间隔对所述音频文字进行打断，以获取相应的文字段，获取所述若干文字段在所述音频源中所处的第二时间，并根据第二时间生成相应的第二时间戳；

获取若干所述文字段所对应的音频语义结果，并将所述第二时间戳添加至所述音频语义结果中。

4.根据权利要求1所述的一种会议视频检索方法，其特征在于：根据图像语义结果和/或音频语义结果内的第一时间戳和/或第二时间戳得到相对应的视频源片段，包括：判断所述图像语义结果和/或音频语义结果的个数；

若所述图像语义结果和/或音频语义结果的个数小于1，则输出异常信息；

若所述图像语义结果和/或音频语义结果的个数等于1，则选择该第一时间戳或第二时间戳提前预设秒数后的帧图像至该视频源最后一帧之间的视频长度作为视频源片段；

若所述图像语义结果和/或音频语义结果的个数大于1，则选择所有第一时间戳和/或第二时间戳提前预设秒数后的帧图像至该视频源最后一帧之间的视频长度作为备选视频源片段，并基于选择获取相应的视频源片段。

5.一种会议视频检索装置，用于实现如权利要求1‑4中任意一项权利要求所述的会议视频检索方法，其特征在于，包括：服务器，用于获取视频源，并获取所述视频源中的实体；

根据预设的第一逻辑定义规则从所述视频源中获得图像语义结果，第一逻辑定义规则至少包括位置关系、逻辑关系、动作关系、知识关系，并在所述图像语义结果中添加相对应的第一时间戳；

获取所述视频源中的音频源，并将所述音频源进行解析以得到音频文字；

获取录音源，所述录音源表征为会议中现场录制的声源中剔除视频源中的音频源后得到的参会人声源，将所述录音源进行解析以得到录音文字；

根据预设的第二逻辑定义规则从所述录音源中获取录音语义结果，并在所述录音语义结果中添加相对应的第三时间戳；

检索引擎库，用于存储所述图像语义结果、所述音频语义结果和录音语义结果；

检索引擎，用于输入检索关键信息以获得所述检索引擎库内相应的图像语义结果和/或音频语义结果和/或录音语义结果；

所述服务器还用于根据图像语义结果和/或音频语义结果和/或录音语义结果内的第一时间戳和/或第二时间戳和/或第三时间戳得到相对应的视频源片段。

6.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的会议视频检索方法。

一种会议视频检索方法、装置及存储介质

技术领域

[0001] 本申请涉及视频检索的领域，尤其是涉及一种会议视频检索方法、装置及存储介质。

背景技术

[0002] 在企业对员工、客户等对象进行会议、宣讲等过程中，会使用到视频进行辅助，视频内容可能包括会议内容、展示内容、讲解等，而在通过播放视频的方式进行会议讲解时，有时需要主持人将视频进度条移动至想要播出的时间点上。

[0003] 而当会议视频时长较长时，主持人无法记住某些片段所处的准确时间点，当参会人想到会看某一时间点中的视频内容时，就需要主持人反复调节进度条以将视频调整至相关位置。

[0004] 相关技术中，存在使用图片去检索视频相关位置的方法，根据图片中的特征点与视频进行逐帧比对，判断图片中的特征点和视频帧中的特征点的相似程度搜索相关的视频位置，或直接使用文本内容对视频中的实体或音频中的内容进行识别。

[0005] 使用这种方法时，检索手法较为单一，且在会议过程中也很难使用图片或有限的文本信息对会议视频进行精准的识别。

发明内容

[0006] 为了提高会议过程中对视频的检索效果，本申请提供一种会议视频检索方法、装置及存储介质。

[0007] 第一方面本申请提供的一种会议视频检索方法，采用如下的技术方案：

[0008] 一种会议视频检索方法，包括以下步骤：

[0009] 获取视频源，并获取所述视频源中的实体；

[0010] 根据预设的第一逻辑定义规则从所述视频源中获得图像语义结果，第一逻辑定义规则至少包括位置关系、逻辑关系、动作关系、知识关系，并在所述图像语义结果中添加相对应的第一时间戳；

[0011] 获取所述视频源中的音频源，并将所述音频源进行解析以得到音频文字；

[0012] 根据预设的第二逻辑定义规则从所述音频源中获取音频语义结果，第二逻辑定义规则至少包括性别关系、语言方言关系、背景音乐关系，并在所述音频语义结果中添加相对应的第二时间戳；

[0013] 将所述图像语义结果和所述音频语义结果保存至检索引擎库；

[0014] 基于检索引擎中被输入的检索关键信息获得所述检索引擎库内相应的图像语义结果和/或音频语义结果；

[0015] 根据图像语义结果和/或音频语义结果内的第一时间戳和/或第二时间戳得到相对应的视频源片段。

[0016] 优选的，根据第一逻辑定义规则从所述视频源中获得图像语义结果，包括：

[0017] 根据所述视频源中的实体识别出所有实体名称；

[0018] 根据各所述实体之间的位置关系获得位置评价；

[0019] 根据各所述实体之间的逻辑关系获得逻辑评价；

[0020] 根据各所述实体之间的动作关系获得动作评价；

[0021] 根据各所述实体的知识关系获得延伸知识评价；

[0022] 结合所述位置评价、逻辑评价、动作评价和延伸知识评价获得图像语义结果。

[0023] 优选的，根据第二逻辑定义规则从所述音频源中获取音频语义结果，包括：

[0024] 根据所述音频源中的人声获取所述人声的性别，并生成相应的性别标签；

[0025] 根据所述音频源中的人声获取所述人声的语言、方言，并生成相应的语言方言标签；

[0026] 根据所述音频源中的背景音获取所述背景音中的背景音乐，并生成相应的背景音乐标签；

[0027] 将所述性别标签、语言方言标签和背景音乐标签添加至相对应的所述音频文字中以获得音频语义结果。

[0028] 优选的，在所述图像语义结果中添加相对应的第一时间戳，在所述音频语义结果中添加相对应的第二时间戳，包括以下步骤：

[0029] 以预设时间为间隔获取视频源中的相关帧图像，获取所述相关帧图像在所述视频源中所处的第一时间，并根据第一时间生成相应的第一时间戳；

[0030] 获取若干所述相关帧图像所对应的图像语义结果，并将所述第一时间戳添加至所述图像语义结果中；

[0031] 以预设长度为间隔对所述音频文字进行打断，以获取相应的文字段，获取所述若干文字段在所述音频源中所处的第二时间，并根据第二时间生成相应的第二时间戳；

[0032] 获取若干所述文字段所对应的音频语义结果，并将所述第二时间戳添加至所述音频语义结果中。

[0033] 优选的，所述检索关键信息包括检索关键词信息，基于检索引擎中被输入的检索关键信息获得所述检索引擎库内相应的图像语义结果和/或音频语义结果，包括：

[0034] 获取检索关键词信息；

[0035] 判断所述检索引擎库中是否存在与所述关键词信息的关联度大于第一预设值的图像语义结果和/或音频语义结果；

[0036] 若存在，则获得相对应的图像语义结果和/或音频语义结果。

[0037] 优选的，所述检索关键信息还包括检索关键句信息，基于检索引擎中被输入的检索关键信息获得所述检索引擎库内相应的图像语义结果和/或音频语义结果，还包括：

[0038] 获取检索关键句信息；

[0039] 根据预设的选词方法对所述检索关键句信息进行选词以获取若干关键句字段信息，所述关键句字段信息包括名词字段信息、描述词字段信息和辅助词字段信息；

[0040] 判断所述检索引擎库内中是否存在与所述名词字段信息、描述词字段信息和辅助词字段信息的关联度大于第二预设值的图像语义结果和/或音频语义结果。

[0041] 优选的，根据图像语义结果和/或音频语义结果内的第一时间戳和/或第二时间戳得到相对应的视频源片段，包括：

[0042] 判断所述图像语义结果和/或音频语义结果的个数；

[0043] 若所述图像语义结果和/或音频语义结果的个数小于1，则输出异常信息；

[0044] 若所述图像语义结果和/或音频语义结果的个数等于1，则选择该第一时间戳或第二时间戳提前预设秒数后的帧图像至该视频源最后一帧之间的视频长度作为视频源片段；

[0045] 若所述图像语义结果和/或音频语义结果的个数大于1，则选择所有第一时间戳和/或第二时间戳提前预设秒数后的帧图像至该视频源最后一帧之间的视频长度作为备选视频源片段，并基于选择获取相应的视频源片段。

[0046] 优选的，还包括以下步骤：

[0047] 获取录音源，所述录音源表征为会议中现场录制的声源中剔除视频源中的音频源后得到的参会人声源；

[0048] 将所述录音源进行解析以得到录音文字；

[0049] 根据预设的第二逻辑定义规则从所述录音源中获取录音语义结果，第二逻辑定义规则至少包括性别关系、语言方言关系、背景音乐关系，并在所述录音语义结果中添加相对应的第三时间戳；

[0050] 将所述录音语义结果保存至检索引擎库；

[0051] 基于检索引擎中被输入的检索关键信息获得所述检索引擎库内相应的录音语义结果；

[0052] 根据录音语义结果内的第三时间戳得到相对应的视频源片段。

[0053] 第二方面，本申请提供一种会议视频检索装置，采用如下的技术方案：

[0054] 一种会议视频检索装置，包括：

[0055] 服务器，用于获取视频源，并获取所述视频源中的实体；

[0056] 根据预设的第一逻辑定义规则从所述视频源中获得图像语义结果，第一逻辑定义规则至少包括位置关系、逻辑关系、动作关系、知识关系，并在所述图像语义结果中添加相对应的第一时间戳；

[0057] 获取所述视频源中的音频源，并将所述音频源进行解析以得到音频文字；

[0058] 根据预设的第二逻辑定义规则从所述音频源中获取音频语义结果，第二逻辑定义规则至少包括性别关系、语言方言关系、背景音乐关系，并在所述音频语义结果中添加相对应的第二时间戳；

[0059] 检索引擎库，用于存储所述图像语义结果和所述音频语义结果；

[0060] 检索引擎，用于输入检索关键信息以获得所述检索引擎库内相应的图像语义结果和/或音频语义结果；

[0061] 所述服务器还用于根据图像语义结果和/或音频语义结果内的第一时间戳和/或第二时间戳得到相对应的视频源片段。

[0062] 第三方面，本申请提供一种计算机存储介质，采用如下的技术方案：

[0063] 一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的会议视频检索方法。

[0064] 综上所述，本申请包括以下有益技术效果：

[0065] 通过对视频源进行语义定义获得图像语义结果，并对视频源中的音频源进行提取，再对音频源进行解析得到音频文字，对音频源进行语义定义获得音频语义结果，以此检索人员无需输入具体的实物名称才能进行检索，只需要输入印象中的画面或音频信息就可以检索到相应的视频片段，有效的将视频图像检索，音频检索和检索引擎进行结合，提高对会议过程中快速地进行检索，同时避免会议中因视频长度较长，会议人员无法记住相关的特征而无法进行检索的情况发生。

附图说明

[0066] 图1是本申请实施例中会议视频检索方法的整体流程示意图；

[0067] 图2是本申请实施例中根据第一逻辑定义规则获得图像语义结果的流程示意图；

[0068] 图3是本申请实施例中根据第二逻辑定义规则获得音频语义结果的流程示意图；

[0069] 图4是本申请实施例中根据第二逻辑定义规则获得录音语义结果的流程示意图；

[0070] 图5是本申请实施例中会议视频检索装置的模块示意图。

具体实施方式

[0071] 以下结合附图对本申请作进一步详细说明。

[0072] 本申请实施例公开一种会议视频检索方法。

[0073] 如图1所示，一种会议视频检索方法包括：

[0074] S100，获取视频源，并获取视频源中的实体。

[0075] 视频源为企业端自行上传的，企业端可以将会议上需要使用的视频进行上传。

[0076] 接收到视频源后，通过图像识别技术将视频源中任意一帧中出现的实体进行识别，其中，图像识别技术可以使用现有的神经网络识别技术。

[0077] S200，根据预设的第一逻辑定义规则从视频源中获得图像语义结果，并在图像语义结果中添加相对应的第一时间戳。

[0078] 第一逻辑定义规则至少包括位置关系、逻辑关系、动作关系、知识关系等。

[0079] 其中，位置关系指代两个或多个实体之间在图像的二维画面中所体现出来的上下左右前后中单个或组合出的相互位置关系，具体的，可以通过实体间的特征点在画面中通过基点做出的三维坐标系中的坐标位置、实体间在图像中的大小关系、遮挡关系、与选定参考点之间的位置等方法进行判断。

[0080] 逻辑关系指代图像中的实体通过一些行为逻辑上的推测关系，例如图像上有A和B两个人，其中，A和B的面部朝向皆朝向图像的左侧，且A位于B的左侧，则经过逻辑推测后，可以认定为A跑/走的比B快；例如，图像中存在体育场、人群、舞台、灯光，则经过逻辑推测后认定为此图像表征为一个演唱会/演出/表演。需要注意的是，在进行逻辑关系的定义规则时，所得到的结果不是唯一的，是根据装置经过多次训练后基于神经网络库中的历史结果推导出的合理或具有可能性的若干结果，通过较为模糊的定义方法，将结果阈值调高，以此提高后续进行语义检索时通过较为模糊的描述也可以获得结果的可能性，提高检索人员的检索误差。

[0081] 动作关系指代图像中的实体在动作上的关系定义，如“拿”、“挂”、“跑”等动作，也可以是“通话”、“钓鱼”、“开车”等具体动作，其中动作关系的定义可以通过对图像中的实体之间的位置、逻辑进行结合判断，如一个图像中存在人、鱼竿、湖水，且人手握鱼竿，杆朝向湖中，这时便定义为人正在“钓鱼”；例如图像中有挂钩、衣服，衣服一端与挂钩存在部分重合，且在图像中衣服位于半空中，这时便可以定义为衣服“挂”在挂钩上。

[0082] 知识关系指代图像中的实体在人的感知上、网络大数据的背景下所具有或被定义的关联知识内容，如图像中为一个手机，通过对大数据的比对分析后，获得该手机的具体型号参数，如苹果牌、A5型号、6.7寸、后置双摄像头等等，并将这些内容作为第一逻辑定义规则中的知识关系进行定义；又如图像中是一幅美术作品，而通过对大数据的比对分析后，获得该美术作品的关联信息，莫奈、法国画家、法国巴黎马尔莫坦美术馆藏等等。通过这种方式，可以应对当一个会议视频中存在大量的相同物件，如竞争企业历年发布的手机，而会议中的参会人无法记住数量庞大的手机外观，而可以只根据部分特殊知识关系进行检索，如2020年发布的手机、拥有后置双摄的手机等，这样就可以提高检索效率。

[0083] 需要注意的是，当使用预设的第一逻辑定义规则进行语义定义时，所得到的图像语义结果是存在允许误差阈值的，也就是得到的结果可以包含有一系列合理范围内的近义解释，如通过第一逻辑定义规则进行定义后的图像语义结果为“穿红色衣服的男孩左手拿着手提袋右手吃苹果”，那么一些关键词，如“红色衣服”、“拿着”、“手提袋”、“吃”、“苹果”，这些词可以与相近意思的词语相关联替换，如红色衣服‑红色上衣‑红色短袖、拿着‑提着‑握着、吃‑啃、苹果‑水果等等，以此在检索过程中不会因为相近词而影响检索的结果。

[0084] 第一逻辑定义规则由工作人员预先调教并定义，通过神经网络算法进行多次训练，直至模型的识别定义效果达到预期并开始使用，后期工作人员可以对模型及算法进行相关调节。

[0085] 如图2所示，具体包括以下步骤：

[0086] S210，根据视频源中的实体识别出所有实体名称。

[0087] S220，根据各实体之间的位置关系获得位置评价。

[0088] S230，根据各实体之间的逻辑关系获得逻辑评价。

[0089] S240，根据各实体之间的动作关系获得动作评价。

[0090] S250，根据各实体的知识关系获得延伸知识评价。

[0091] S260，结合位置评价、逻辑评价、动作评价和延伸知识评价获得图像语义结果。

[0092] 实体名称通过图像识别技术进行识别，位置评价指代通过位置关系定义后，体现若干实体之间在前后左右上下的相互关系和与相互关系得到的结果相关联的近似评价，逻辑评价指代通过逻辑关系定义后得到的实体之间的逻辑关系词和与逻辑关系词相关联的近似评价，动作评价指代通过动作关系定义后得到的实体之间的动作词和与动作词相关联的近似评价，延伸知识评价指代实体通过知识关系定义后得到的延伸知识词和与延伸知识词相关联的近似评价。

[0093] 位置评价、逻辑评价、动作评价、延伸知识评价中皆存在若干结果，每个评价中的结果又具有相关联性。

[0094] 将位置评价、逻辑评价、动作评价、延伸知识评价结合后得到若干具有关联性的图像语义结果，如：“型号为Z3的红色XX牌车从左向右行驶”、“书名为《XXX》的书在XX大学的发布会”等等。

[0095] 且添加第一时间戳具体包括以下步骤：

[0096] S270，以预设时间为间隔获取视频源中的相关帧图像，获取相关帧图像在视频源中所处的第一时间，并根据第一时间生成相应的第一时间戳。

[0097] 预设时间为人为指定的时间，一般为1s，将视频源沿1s的时间长度进行采集以获得若干相关帧图像，一个相关帧图像代表一帧，而这一帧相关帧图像所处于的时间为第一时间，并根据这一第一时间生成相应的第一时间戳。

[0098] 也就是说，每过1s就获取一个相关帧图像，并通过预设的第一逻辑定义规则获得这一相关帧中的图像语义结果，并将这一帧的时间生成的第一时间戳添加至图像语义结果中。

[0099] 进一步的，当一个视频源的长度较长的时候，每隔1s选取一个相关帧图像后可能会得到数量较为放大的数目，为了方便存储和检索，可以采用筛选方法。

[0100] 具体的，当获取若干相关帧图像后，判断一个相关帧图像与前一个相关帧图像之间的相似度是否超过阈值，若超过阈值，则说明该相关帧图像与前一个相关帧图像的相似度较高，这时就可以将这个相关帧图像删除，而再过1s进行相关帧图像的选取。

[0101] 其中这个阈值可以根据实际使用进行适当调节。

[0102] S280，获取若干相关帧图像所对应的图像语义结果，并将第一时间戳添加至图像语义结果中。

[0103] 每个相关帧图像皆对应于一个相对应的图像语义结果和一个相对应的第一时间戳，将这一第一时间戳添加至该相关帧图像所对应的图像语义结果中。

[0104] S300，获取视频源中的音频源，并将音频源进行解析以获得音频文字。

[0105] 通过对视频源进行解析以得到视频源中的音频源，并通过ASR技术将音频源解析成相应的音频文字。

[0106] ASR技术为自动语音识别，一种允许计算机将语音转换为文本的技术，其具有高准确的识别率、灵活的接入方式、低延时识别速度、专业的业余领域和智能文本纠错能力。

[0107] S400，根据预设的第二逻辑定义规则从音频源中获取音频语义结果，并在音频语义结果中添加相对应的第二时间戳。

[0108] 如图1和图3所示，第二逻辑定义规则包括性别关系、语言方言关系、背景音乐关系。

[0109] 其中，性别关系指代通过对音频源中的人声进行分析以定义该人声是男性人声还是女性人声，语言方言指代对音频源中的人声进行分析以判断该人声的语言、方言，背景音乐关系指代对音频源中的背景音进行分析以定义该段音频源中的背景音乐名称。

[0110] 通过第二逻辑定义规则，对音频源进行语义定义，如一段音频的音频语义结果可以为：“该产品由A、B、C构成，于2022年7月全面上市，男性、国语、普通话、《XXX》（背景音乐名称）”。由此相关人员可以通过音频文字内容、人声性别、人声语言方言或背景音乐进行检索。

[0111] 具体包括以下步骤：

[0112] S410，根据音频源中的人声获取人声的性别，并生成相应的性别标签。

[0113] S420，根据音频源中的人声获取人声的语言、方言，并生成相应的语言方言标签。

[0114] S430，根据音频源中的背景音获取背景音中的背景音乐，并生成相应的背景音乐标签。

[0115] S440，将性别标签、语言方言标签和背景音乐标签添加至相应的音频文字中以获得音频语义结果。

[0116] 性别标签、语言方言标签和背景音乐标签都为使用第二逻辑定义规则对一段音频源进行定义后得到的语义结果，将若干标签进行结合后获得相应的音频语义结果。

[0117] 第二逻辑定义规则由工作人员预先调教并定义，通过神经网络算法进行多次训练，直至模型的识别定义效果达到预期并开始使用，后期工作人员可以对模型及算法进行相关调节。

[0118] 添加第二时间戳包括以下步骤：

[0119] S450，以预设长度为间隔对音频文字进行打断，以获取相应的文字段，获取若干文字段再音频源中所处的第二时间，并根据第二时间生成相应的第二时间戳。

[0120] S460，获取若干文字段所对应的音频语义结果，并将第二时间戳添加至音频语义结果中。

[0121] 以预设长度将音频文字进行打断，获取这段文字段在整段音频源中所处的位置，并根据这个位置生成相应的第二时间戳。根据第二逻辑定义规则获取每段文字段所对应的音频语义结果，并将每个第二时间戳相应添加至对应的音频语义结果中。

[0122] S500，将图像语义结果和音频语义结果保存至检索引擎库。

[0123] 检索引擎库为一单独设立的存储库，用于对图像语义结果和音频语义结果进行保存存储，其具有分类功能，每一个视频源皆对应有一个文件夹，其检索引擎库与服务器相连接，工作人员可以手动对检索引擎库中的内容进行查看。检索引擎库还可以定期对库内的图像语义结果和音频语义结果进行整理和删除。

[0124] 其中，每个视频源对应的文件夹可以通过人工命名或自动命名的方法进行分类命名，其中自动命名后的文件夹名称格式为：时间+标记，标记可以通过判断该视频源出现频率最高的实体或出现频率最高的词语命名，可以通过历史被检索次数最多的关键词命名。

[0125] S600，基于检索引擎中被输入的检索关键信息获得检索引擎库内相应的图像语义结果和/或音频语义结果。

[0126] 检索关键信息包括检索关键词信息和检索关键句信息。

[0127] 其中，当输入的检索关键信息为检索关键词信息时，S600包括以下步骤：

[0128] S610，获取检索关键词信息。

[0129] S620，判断检索引擎库中是否存在与关键词信息的关联度大于第一预设值的图像语义结果和/或音频语义结果。

[0130] S630，若存在，则获得相对应的图像语义结果和/或音频语义结果。

[0131] 关键词信息为一个或多个单独的词，如“苹果”、“汽车”、“供电箱”等等，用户将这些单独的词输入至检索引擎中，服务器将一个或多个词与检索引擎库中的图像语义结果和/或音频语义结果进行对比，若关联度大于第一预设值，那么就将这个图像语义结果和/或音频语义结果进行输出显示。

[0132] 其中，关联度包括“相同”和“相似”两个对比概念，如一个装满各种水果的篮子，那么其图像语义结果可以为：“一个篮子里有水果”，若在检索引擎中输入的是苹果，那么苹果和水果之间为相似词语，那么其关联度是大于第一预设值的，如果检索引擎中输入的是蔬菜，那么蔬菜和水果之间是不相同且不相似的，那么就不存在关联性，同理，若输入的是竹篮、果篮、筐，那么这些词与篮子之间都存在相似的关联性，而如果输入的是箱子、盆子、缸，那么这与篮子之间是不相同且不相似的，那么这些关键词信息与图像语义结果之间的关联度必定小于第一预设值。

[0133] 而当检索人员一次性输入数量较多的关键词信息时，会比较每个关键词信息与图像语义结果和/或音频语义结果之间的关联度，并将关联度进行结合再次分析。例如，图像语义结果为：“左侧黑色皮质沙发上坐着一个穿蓝色上衣黑色裤子的男子，右侧黑色皮质沙发上坐着一个穿黄色连衣裙的女子，二人中间有一个褐色茶几，后面的白墙上挂了一幅毕加索的《格尔尼卡》”。这时检索人员经过会议，在检索引擎上输入：“男、女、沙发、画、绿色连衣裙、黑色茶几”。将若干关键词信息与图像语义结果中的特征进行比较，比较后得知男、女、沙发、连衣裙、茶几为与图像语义消息相同的特征，画与毕加索的《格尔尼卡》是经过知识关系分析后相关联的特征，而连衣裙中的绿色和茶几中的黑色因为记忆的错误与图像语义结果中的颜色不同，而结合整体分析后，发现大部分特征都是相同或具有极高关联度的，之后两个颜色关键词是不同的，整体来看，输入的若干关键词皆与这一段图像语义结果相关联。

[0134] 当输入的检索关键信息为检索关键句信息时，S600包括以下步骤：

[0135] S640，获取检索关键句信息。

[0136] S650，根据预设的选词方法对检索关键句信息进行选词以获取若干关键句字段信息，其中，关键句字段信息包括名词字段信息、描述词字段信息和辅助词字段信息。

[0137] S660，判断检索引擎库中是否存在与名词字段信息、描述词字段信息和辅助词字段信息的关联度大于第二预设值的图像语义结果和/或音频语义结果。

[0138] 关键句信息为由若干词语组成的句子。

[0139] 选词方法是基于各语言中常用的选词方法将一句话中的名词、动词、形容词、辅助词等词语挑选出来，名词字段信息包括名词，描述词字段信息包括动词、形容词，辅助词字段信息包括常用的辅助词和用于进行描述的连接词。

[0140] 如一句话：“男人左手拿着绿色的盘子，盘子上放着被剥皮的苹果”，这句话中，“男人”、“左手”、“盘子”、“苹果”为名词字段信息，“拿着”、“绿色”、“剥皮”、“放着”为描述词字段信息，而“上”、“被”、“的”这些词则为辅助词字段信息。

[0141] 辅助词字段信息主要用于定义词与词之间的关系，以此减少歧义，如检索人员输入：“男人穿红色的衣服，拿着蓝色的手机”，如果不对“的”这一辅助词字段信息进行提取，那么就只会得到红色、衣服、蓝色、手机这几个关键句字段信息，无法得知是红色的衣服还是蓝色的衣服，是蓝色的手机还是红色的手机，而通过“的”这一辅助词字段信息，可以将颜色和其相近的名词进行关联，减少歧义而导致的计算量增大。

[0142] S700，根据图像语义结果和/或音频语义结果内的第一时间戳和/或第二时间戳得到相对应的视频源片段。

[0143] 具体包括：

[0144] S710，判断图像语义结果和/或音频语义结果的个数。

[0145] S720，若图像语义结果和/或音频语义结果的个数小于1，则输出异常信息。

[0146] S730，若图像语义结果和/或音频语义结果的个数等于1，则选择该第一时间戳或第二时间戳提前预设秒数后的帧图像至该视频源最后一帧之间的视频长度作为视频源片段。

[0147] S740，若图像语义结果和/或音频语义结果的个数大于1，则选择所有第一时间戳和/或第二时间戳提前预设秒数后的帧图像至该视频源最后一帧之间的视频长度作为备选视频源片段，并基于选择获取相应的视频源片段。

[0148] 若经过在搜索引擎中输入检索关键信息进行检索后，若得到的图像语义结果和/或音频语义结果的个数小于1，那么就说明通过现有的检索关键信息无法检索到具有关联度的结果，那么就输出相应的异常信息，提示检索人员更换相关检索关键信息。

[0149] 若得到的结果的个数等于1，则根据这个结果所对应的第一时间戳或第二时间戳所在的帧图像提前一定长度开始播放视频，并将这段视频作为相应的视频源片段，预设秒数一般设置为5s。例如，当得到的图像语义结果所对应的第一时间戳为第47s，则提前5s，从第42s开始播放视频，并将第42s至视频最后这一段视频作为输出的视频源结果。

[0150] 若得到的结果的个数大于1，则选择所有第一时间戳和/或第二时间戳提前5s后的帧图像至该视频最后一帧之间的视频长度作为备选视频源片段。而检索人员可以通过选择来获得正确的视频源片段。

[0151] 如图4所示，进一步的，有时在会议上播放视频以进行会议时，会对播放的视频源进行录屏，而在现场录频过程中会对现场交流、交底、沟通进行录制，这时新的会议视频会包括视频源、视频源中的音频源和现场录音的录音源，在这种情况下，后期再对该视频源进行检索时，还可以同时对会议现场录制的录音源进行检索，具体包括以下步骤：

[0152] S800，获取录音源，录音源表征为会议中现场录制的声源中剔除视频源中的音频源后得到的参会人声源。

[0153] S810，将录音源进行解析以得到录音文字。

[0154] 与音频源的解析方式相同，通过ASR技术进行解析处理得到相应的录音文字。

[0155] S820，根据预设的第二逻辑定义规则从录音源中获得录音语义结果，并在录音语义结果中添加相对应的第三时间戳。

[0156] 因录音源本质上也是音频，故可以使用与音频源相同的语义定义规则，也就是第二逻辑定义规则进行定义，以此得到相关的录音语义结果。

[0157] 第三时间戳的生成方法与第二时间戳的生成方法相同。

[0158] S830，将录音语义结果保存至检索引擎库。

[0159] S840，基于检索引擎中被输入的检索关键信息获得检索引擎库内相对应的录音语义结果。

[0160] S850，根据录音语义结果内的第三时间戳得到相对应的视频源片段。

[0161] 由此，检索人员可以通过输入检索关键信息对视频中的图像语义结果进行检索，可以对音频源中的音频语义结果进行检索，也可以对录音源中的录音语义结果进行检索，检索范围更大。例如一个参会人员，会议视频中的画面或音频均无法记起，但是记得视频播放时提出的一个问题，则可以通过检索提出的这个问题来获得这一段的视频源片段内容。

[0162] 如图5所示，在另一个实施例中，还公开了一种会议视频检索装置，包括服务器、检索引擎库和检索引擎。

[0163] 服务器，用于获取企业端上传的视频源，并获取视频源中的实体；根据预设的第一逻辑定义规则从视频源中获得图像语义结果，第一逻辑定义规则至少包括位置关系、逻辑关系、动作关系、知识关系，并在图像语义结果中添加相对应的第一时间戳；获取视频源中的音频源，并将音频源进行解析以得到音频文字；根据预设的第二逻辑定义规则从音频源中获取音频语义结果，第二逻辑定义规则至少包括性别关系、语言方言关系、背景音乐关系，并在音频语义结果中添加相对应的第二时间戳。

[0164] 检索引擎库，用于存储图像语义结果和音频语义结果。

[0165] 检索引擎，用于输入检索关键信息以获得检索引擎库内相应的图像语义结果和/或音频语义结果。

[0166] 服务器还用于根据图像语义结果和/或音频语义结果内的第一时间戳和/或第二时间戳得到相对应的视频源片段。

[0167] 其中，服务器、检索引擎库和检索引擎皆可以集成在一个会议检索盒中，其中，服务器与后台云端联网，后台人员可以对服务器参数进行更新、维护，可以将会议检索盒发放至企业中，企业端自行将会议视频上传至会议检索盒中的服务器中，服务器自动对视频源进行处理，将会议检索盒与相关的移动设备或联网设备连接，连接后检索引擎以检索框的形式显示在移动设备或联网设备中，会议人员可以自行通过外部输入设备输入相应的检索关键信息。

[0168] 在另一个实施例中，公开了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的会议视频检索方法。

[0169] 实施原理为：

[0170] 通过对视频源进行语义定义获得图像语义结果，并对视频源中的音频源进行提取，再对音频源进行解析得到音频文字，对音频源进行语义定义获得音频语义结果，以此检索人员无需输入具体的实物名称才能进行检索，只需要输入印象中的画面或音频信息就可以检索到相应的视频片段，有效的将视频图像检索，音频检索和检索引擎进行结合，提高对会议过程中快速地进行检索，同时避免会议中因视频长度较长，会议人员无法记住相关的特征而无法进行检索的情况发生。

[0171] 以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

一种会议视频检索方法、装置及存储介质转让专利

申请号 : CN202211090010.X

文献号 : CN115168650B

文献日 : 2023-06-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 张明 , 张伟伟

申请人 : 杭州笔声智能科技有限公司

摘要 :

权利要求 :

说明书 :