一种信息处理方法、装置及存储介质转让专利

申请号 : CN201910878129.5

文献号 : CN110598651B

文献日 : 2021-03-12

本发明提供了一种信息处理方法，包括：获取目标视频，并对所述目标视频进行解析以实现获取所述目标视频的视频参数；根据所述目标视频的视频参数，提取所述目标视频的图像特征向量和语音特征向量；基于所述图像特征向量和所述语音特征向量，对所述目标视频进行内容识别，得到与所述目标视频相匹配的文本信息。本发明还提供了信息处理装置、电子设备及存储介质。本发明能够实现及时准确的将视频信息内容转换为相应的自然语言的文本进行输出，有效提升视频信息内容的分享速度，扩大了视频信息内容的分享场景，解决了传统技术中无法通过机器处理实现利用自然语言对视频信息内容进行描述的问题。

1.一种信息处理方法，其特征在于，所述方法包括：获取目标视频，并对所述目标视频进行解析以实现获取所述目标视频的视频参数；

根据所述目标视频的视频参数，提取所述目标视频的图像特征向量和语音特征向量；

通过图像语义识别网络对所述图像特征向量进行语义识别处理，形成与图像特征向量相匹配的图像语义识别结果，其中，所述图像语义识别网络包括基于注意力机制的循环卷积神经网络和基于记忆机制的卷积神经网络；

通过语音语义识别网络对所述语音特征向量进行语义识别处理，形成与语音特征向量相匹配的语音语义识别结果；

对所述图像语义识别结果和所述语音语义识别结果进行语义整合处理，形成与所述目标视频相匹配的文本信息，其中，所述文本信息用于通过自然语言对所述目标视频的内容进行描述；

输出与所述目标视频相匹配的文本信息。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标视频进行解析以实现获取所述目标视频的视频参数，包括：对所述目标视频进行解析，获取所述目标视频的时序信息；

根据所述目标视频的时序信息，对所述目标视频所对应的视频信息进行解析，获取与所述目标视频相对应的播放时长参数与存储位置参数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标视频的视频参数，提取所述目标视频的图像特征向量和语音特征向量，包括：响应于所述目标视频的时序信息，根据与所述目标视频相对应的播放时长参数与存储位置参数，通过图像分类网络对所述目标视频所包括的图像帧进行处理，形成与所述目标视频的时序信息相匹配的图像特征向量；

响应于所述目标视频的时序信息，根据与所述目标视频相对应的播放时长参数与存储位置参数，通过语音分类的卷积神经网络对所述目标视频所包括的音频信息进行处理，形成与所述目标视频的时序信息相匹配的语音特征向量。

4.根据权利要求1所述的方法，其特征在于，所述通过图像语义识别网络对所述图像特征向量进行语义识别处理，形成与图像特征向量相匹配的图像语义识别结果，包括：通过基于注意力机制的循环卷积神经网络，对所述图像特征向量进行语义识别处理，形成相应的第一图像语义识别结果；

通过基于记忆机制的卷积神经网络，对所述图像特征向量进行语义识别处理，形成相应的第二图像语义识别结果；

对所述第一图像语义识别结果和所述第二图像语义识别结果进行语义整合处理，形成与图像特征向量相匹配的图像语义识别结果。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：提取所述目标视频中的相应视频样本，其中，所述视频样本包括至少两帧视频图像帧；

提取所述视频样本中每一帧视频图像帧的至少两个局部特征；

根据每一帧视频图像帧中各个局部特征所对应的权重参数，对每一帧视频图像帧中的局部特征进行特征整合处理，得到每一帧视频图像帧的局部特征向量；

根据每一帧视频图像帧的局部特征向量、以及所述视频样本中图像的时序信息，对所述视频样本进行内容识别，得到所述目标视频的视频内容信息，所述视频内容信息包括视频内容描述以及所述视频内容描述的词性信息；

根据所述视频内容信息以及所述视频样本的真实视频内容信息，更新所述图像语义识别网络的参数。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：将所述目标视频及对应的与所述目标视频相匹配的文本信息发送至区块链网络，以使所述区块链网络的节点将目标视频及对应的与所述目标视频相匹配的文本信息填充至新区块，且当对所述新区块共识一致时，将所述新区块追加至区块链的尾部。

7.一种信息处理装置，其特征在于，所述装置包括：信息传输模块，用于获取目标视频；

信息处理模块，用于对所述目标视频进行解析以实现获取所述目标视频的视频参数；

所述信息处理模块，用于根据所述目标视频的视频参数，提取所述目标视频的图像特征向量和语音特征向量；

所述信息处理模块，用于通过图像语义识别网络对所述图像特征向量进行语义识别处理，形成与图像特征向量相匹配的图像语义识别结果，其中，所述图像语义识别网络包括基于注意力机制的循环卷积神经网络和基于记忆机制的卷积神经网络；

所述信息处理模块，用于通过语音语义识别网络对所述语音特征向量进行语义识别处理，形成与语音特征向量相匹配的语音语义识别结果；

所述信息处理模块，用于对所述图像语义识别结果和所述语音语义识别结果进行语义整合处理，形成与所述目标视频相匹配的文本信息，其中，所述文本信息用于通过自然语言对所述目标视频的内容进行描述；

所述信息传输模块，用于输出与所述目标视频相匹配的文本信息。

8.根据权利要求7所述的装置，其特征在于，所述信息处理模块，用于对所述目标视频进行解析，获取所述目标视频的时序信息；

所述信息处理模块，用于根据所述目标视频的时序信息，对所述目标视频所对应的视频信息进行解析，获取与所述目标视频相对应的播放时长参数与存储位置参数。

9.根据权利要求7所述的装置，其特征在于，所述信息处理模块，用于响应于所述目标视频的时序信息，根据与所述目标视频相对应的播放时长参数与存储位置参数，通过图像分类网络对所述目标视频所包括的图像帧进行处理，形成与所述目标视频的时序信息相匹配的图像特征向量；

所述信息处理模块，用于响应于所述目标视频的时序信息，根据与所述目标视频相对应的播放时长参数与存储位置参数，通过语音分类的卷积神经网络对所述目标视频所包括的音频信息进行处理，形成与所述目标视频的时序信息相匹配的语音特征向量。

10.根据权利要求9所述的装置，其特征在于，所述信息处理模块，用于通过基于注意力机制的循环卷积神经网络，对所述图像特征向量进行语义识别处理，形成相应的第一图像语义识别结果；

所述信息处理模块，用于通过基于记忆机制的卷积神经网络，对所述图像特征向量进行语义识别处理，形成相应的第二图像语义识别结果；

所述信息处理模块，用于对所述第一图像语义识别结果和所述第二图像语义识别结果进行语义整合处理，形成与图像特征向量相匹配的图像语义识别结果。

11.根据权利要求9所述的装置，其特征在于，所述信息处理模块，用于提取所述目标视频中的相应视频样本，其中，所述视频样本包括至少两帧视频图像帧；

所述信息处理模块，用于提取所述视频样本中每一帧视频图像帧的至少两个局部特征；

所述信息处理模块，用于根据每一帧视频图像帧中各个局部特征所对应的权重参数，对每一帧视频图像帧中的局部特征进行特征整合处理，得到每一帧视频图像帧的局部特征向量；

所述信息处理模块，用于根据每一帧视频图像帧的局部特征向量、以及所述视频样本中图像的时序信息，对所述视频样本进行内容识别，得到所述目标视频的视频内容信息，所述视频内容信息包括视频内容描述以及所述视频内容描述的词性信息；

所述信息处理模块，用于根据所述视频内容信息以及所述视频样本的真实视频内容信息，更新所述图像语义识别网络的参数。

12.一种电子设备，其特征在于，所述电子设备包括：存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至6任一项所述的信息处理方法。

13.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至6任一项所述的信息处理方法。

一种信息处理方法、装置及存储介质

技术领域

[0001] 本发明涉及信息处理技术，尤其涉及信息处理方法、装置及存储介质。

背景技术

[0002] 传统技术条件下，多媒体信息的需求量呈现爆发式增长，传统的信息处理技术已无法应对多媒体数据在标注、描述等任务上的需求。用自然语言对视频、图像等进行描述，
对于人类来说非常简单，但对机器来说却是一项很难的任务，这需要机器能够跨越对图像
理解的语义鸿沟，正确融合计算机视觉和自然语言处理这两项技术。近年来，很多基于深度
学习的方法和系统被开发出来处理混合语音信号的分离和识别，如深度吸引网络。为此，人
工智能技术(AI，Artificial Intelligence)提供了训练适当的语音识别网络来支持上述
应用的方案。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩
展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统
人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策
的功能，在语音处理领域中，也就是通过利用数字计算机或者数字计算机控制的机器实现
对语音的识别。目前，该方向的研究收到了广泛的关注，能够实现在安防、家居、医疗、教学
等领域得到有效应用，但是这一过程中，视频文件的传播也存在着播放时间长、单位时间传
递信息量少、内容分享效率低的缺点。

发明内容

[0003] 有鉴于此，本发明实施例提供一种信息处理方法、装置及存储介质，能够解决传统技术中无法通过机器处理实现利用自然语言对视频信息内容进行描述的问题，及时准确的
将视频信息内容转换为相应的自然语言的文本进行输出。

[0004] 本发明实施例的技术方案是这样实现的：

[0005] 本发明实施例提供了一种信息处理方法，包括：

[0006] 获取目标视频，并对所述目标视频进行解析以实现获取所述目标视频的视频参数；

[0007] 根据所述目标视频的视频参数，提取所述目标视频的图像特征向量和语音特征向量；

[0008] 基于所述图像特征向量和所述语音特征向量，对所述目标视频进行内容识别，得到与所述目标视频相匹配的文本信息，其中，所述文本信息用于通过自然语言对所述目标
视频的内容进行描述；

[0009] 输出与所述目标视频相匹配的文本信息。

[0010] 本发明实施例还提供了一种信息处理装置，包括：

[0011] 信息传输模块，用于获取目标视频；

[0012] 信息处理模块，用于对所述目标视频进行解析以实现获取所述目标视频的视频参数；

[0013] 所述信息处理模块，用于根据所述目标视频的视频参数，提取所述目标视频的图像特征向量和语音特征向量；

[0014] 所述信息处理模块，用于基于所述图像特征向量和所述语音特征向量，对所述目标视频进行内容识别，得到与所述目标视频相匹配的文本信息，其中，所述文本信息用于通
过自然语言对所述目标视频的内容进行描述；

[0015] 所述信息传输模块，用于输出与所述目标视频相匹配的文本信息。

[0016] 上述方案中，

[0017] 所述信息传输模块，用于将所述目标视频及对应的与所述目标视频相匹配的文本信息发送至区块链网络，以使

[0018] 所述区块链网络的节点将目标视频及对应的与所述目标视频相匹配的文本信息所述填充至新区块，且当对所述新区块共识一致时，将所述新区块追加至区块链的尾部。

[0019] 本发明实施例还提供了一种电子设备，所述电子设备包括：

[0020] 存储器，用于存储可执行指令；

[0021] 处理器，用于运行所述存储器存储的可执行指令时，实现前序的信息处理方法。

[0022] 本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前序的信息处理方法。

[0023] 本发明实施例具有以下有益效果：通过获取目标视频，并对所述目标视频进行解析以实现获取所述目标视频的视频参数；根据所述目标视频的视频参数，提取所述目标视
频的图像特征向量和语音特征向量；基于所述图像特征向量和所述语音特征向量，对所述
目标视频进行内容识别，得到与所述目标视频相匹配的文本信息，其中，所述文本信息用于
通过自然语言对所述目标视频的内容进行描述；输出与所述目标视频相匹配的文本信息，
实现了及时准确的将视频信息内容转换为相应的自然语言的文本进行输出，有效提升视频
信息内容的分享速度，扩大了视频信息内容的分享场景，解决了传统技术中无法通过机器
处理实现利用自然语言对视频信息内容进行描述的问题。

附图说明

[0024] 图1为本发明实施例提供的信息处理方法的使用场景示意图；

[0025] 图2为本发明实施例提供的信息处理装置的组成结构示意图；

[0026] 图3为本发明实施例提供的信息处理方法一个可选的流程示意图；

[0027] 图4为本发明实施例提供的信息处理方法一个可选的流程示意图；

[0028] 图5为本发明实施例中图像语义识别网络一个可选的处理过程示意图；

[0029] 图6为本发明实施例中语音语义识别网络一个可选的处理过程示意图；

[0030] 图7为本发明实施例语义整合处理一个可选的处理过程示意图；

[0031] 图8是本发明实施例提供的信息处理装置100的架构示意图；

[0032] 图9是本发明实施例提供的区块链网络200中区块链的结构示意图；

[0033] 图10是本发明实施例提供的区块链网络200的功能架构示意图；

[0034] 图11为本发明实施例中信息处理方法一个可选的使用环境示意图；

[0035] 图12为本发明实施例中信息处理方法的架构示意图；

[0036] 图13为本发明实施例中信息处理方法的使用过程示意图；

[0037] 图14为本发明实施例中信息处理方法的使用过程示意图。

具体实施方式

[0038] 为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有
做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

[0039] 在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突
的情况下相互结合。

[0040] 对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

[0041] 1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说
明的情况下，所执行的多个操作不存在执行先后顺序的限制。

[0042] 2)目标视频，互联网中可获取的各种形式的视频信息，如客户端或者智能设备中呈现的视频文件、多媒体信息等。

[0043] 3)隐马尔科夫模型(HMM Hidden Markov Model)是一种统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中，状态并不是直接可见的，但受
状态影响的某些变量则是可见的。HMM中的状态是HMM的基本组成部分；HMM的转移概率表示
HMM的状态之间发生转换的概率；而每一个状态在可能输出的符号上都有一概率分布，即
HMM的输出概率。其中，马尔可夫过程是一个不具备记忆特质的随机过程。该随机过程在给
定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态。

[0044] 4)混合高斯模型(DNN Gaussian Mixture Model)是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数(正态分布曲
线)形成的模型。

[0045] 5)卷积神经网络(CNN Convolutional Neural Networks)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep
learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能
力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariant
classification)。

[0046] 6)模型训练，对图像数据集进行多分类学习。该模型可采用TensorFlow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为
图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过
softmax等算法最终输出网页类别。在训练时，模型通过交叉熵等目标函数向正确趋势逼
近。

[0047] 7)交易(Transaction)，等同于计算机术语“事务”，交易包括了需要提交到区块链网络执行的操作，并非单指商业语境中的交易，鉴于在区块链技术中约定俗成地使用了“交
易”这一术语，本发明实施例遵循了这一习惯。

[0048] 8)区块链(Blockchain)，是由区块(Block)形成的加密的、链式的交易的存储结构。

[0049] 9)区块链网络(Blockchain Network)，通过共识的方式将新区块纳入区块链的一系列的节点的集合。

[0050] 10)账本(Ledger)，是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。

[0051] 11)智能合约(Smart Contracts)，也称为链码(Chaincode)或应用代码，部署在区块链网络的节点中的程序，节点执行接收的交易中所调用的智能合约，来对状态数据库的
键值对数据进行更新或查询的操作。

[0052] 12)共识(Consensus)，是区块链网络中的一个过程，用于在涉及的多个节点之间对区块中的交易达成一致，达成一致的区块将被追加到区块链的尾部，实现共识的机制包
括工作量证明(PoW，Proof of Work)、权益证明(PoS，Proof of Stake)、股份授权证明
(DPoS，Delegated Proof-of-Stake)、消逝时间量证明(PoET，Proof of Elapsed Time)等。

[0053] 图1为本发明实施例提供的信息处理方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有能够显示相应目标视频的软件的客户端，例如视频播放的
客户端或插件，用户通过相应的客户端可以获得目标视频并进行展示；终端通过网络300连
接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现
数据传输。

[0054] 作为一个示例，服务器200用于布设所述信息处理装置以实现本发明所提供的信息处理方法，以通过获取目标视频，并对所述目标视频进行解析以实现获取所述目标视频
的视频参数；根据所述目标视频的视频参数，提取所述目标视频的图像特征向量和语音特
征向量；基于所述图像特征向量和所述语音特征向量，对所述目标视频进行内容识别，得到
与所述目标视频相匹配的文本信息，其中，所述文本信息用于通过自然语言对所述目标视
频的内容进行描述，并通过终端(终端10-1和/或终端10-2)展示输出与所述目标视频相匹
配的文本信息。当然，本发明所提供的信息处理装置可以应用于视频播放，在视频播放中通
常会对不同数据来源的目标视频进行处理，最终在用户界面(User Interface，UI)上呈现
出与相应的目标视频相匹配的文本信息，文本信息的准确性与及时性直接影响了用户体
验。视频播放的后台数据库每天都会收到大量不同来源的视频数据，所得到与所述目标视
频相匹配的文本信息还可以供其他应用程序调用。

[0055] 当然在通过信息处理装置对目标视频处理以得到与所述目标视频相匹配的文本信息，具体包括：获取目标视频，并对所述目标视频进行解析以实现获取所述目标视频的视
频参数；根据所述目标视频的视频参数，提取所述目标视频的图像特征向量和语音特征向
量；基于所述图像特征向量和所述语音特征向量，对所述目标视频进行内容识别，得到与所
述目标视频相匹配的文本信息，其中，所述文本信息用于通过自然语言对所述目标视频的
内容进行描述；输出与所述目标视频相匹配的文本信息

[0056] 下面对本发明实施例的信息处理装置的结构做详细说明，信息处理装置可以各种形式来实施，如带有信息处理装置处理功能的专用终端，也可以为设置有信息处理装置处
理功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的信息处理装置的
组成结构示意图，可以理解，图2仅仅示出了信息处理装置的示例性结构而非全部结构，根
据需要可以实施图2示出的部分结构或全部结构。

[0057] 本发明实施例提供的信息处理装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。信息处理装置中的各个组件通过总线系统205耦合在一起。
可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线
之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种
总线都标为总线系统205。

[0058] 其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

[0059] 可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的
操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和
应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现
各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

[0060] 在一些实施例中，本发明实施例提供的信息处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的信息处理装置可以是采用硬件译码处理器形式的处
理器，其被编程以执行本发明实施例提供的信息处理方法。例如，硬件译码处理器形式的处
理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated
Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件
(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-
ProgrammableGate Array)或其他电子元件。

[0061] 作为本发明实施例提供的信息处理装置采用软硬件结合实施的示例，本发明实施例所提供的信息处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可
以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的
可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成
本发明实施例提供的信息处理方法。

[0062] 作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分
立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常
规的处理器等。

[0063] 作为本发明实施例提供的信息处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个
应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑
器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex
Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate
Array)或其他电子元件执行实现本发明实施例提供的信息处理方法。

[0064] 本发明实施例中的存储器202用于存储各种类型的数据以支持信息处理装置的操作。这些数据的示例包括：用于在信息处理装置上操作的任何可执行指令，如可执行指令，
实现本发明实施例的从信息处理方法的程序可以包含在可执行指令中。

[0065] 在另一些实施例中，本发明实施例提供的信息处理装置可以采用软件方式实现，图2示出了存储在存储器202中的信息处理装置，其可以是程序和插件等形式的软件，并包
括一系列的模块，作为存储器202中存储的程序的示例，可以包括信息处理装置，信息处理
装置中包括以下的软件模块信息传输模块2081和信息处理模块2082。当信息处理装置中的
软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的信息处理方法，
其中，信息处理装置中各个软件模块的功能，包括：

[0066] 信息传输模块2081，用于获取目标视频；

[0067] 信息处理模块2082，用于对所述目标视频进行解析以实现获取所述目标视频的视频参数；

[0068] 所述信息处理模块2082，用于根据所述目标视频的视频参数，提取所述目标视频的图像特征向量和语音特征向量；

[0069] 所述信息处理模块2082，用于基于所述图像特征向量和所述语音特征向量，对所述目标视频进行内容识别，得到与所述目标视频相匹配的文本信息，其中，所述文本信息用
于通过自然语言对所述目标视频的内容进行描述；

[0070] 所述信息传输模块2081，用于输出与所述目标视频相匹配的文本信息。

[0071] 结合图2示出的信息处理装置说明本发明实施例提供的信息处理方法，参见图3，图3为本发明实施例提供的信息处理方法一个可选的流程示意图，可以理解地，图3所示的
步骤可以由运行信息处理装置的各种电子设备执行，例如可以是如带有信息处理装置的服
务器或者服务器集群，其中，带有信息处理装置的专用终端可以封装于图1所示的服务器
中，以执行前序图2所示的信息处理装置中的相应软件模块。下面针对图3示出的步骤进行
说明。

[0072] 步骤301：获取目标视频，并对目标视频进行解析以实现获取目标视频的视频参数。

[0073] 在本发明的一些实施例中，对所述目标视频进行解析以实现获取所述目标视频的视频参数，可以通过以下方式实现：

[0074] 对所述目标视频进行解析，获取所述目标视频的时序信息；根据所述目标视频的时序信息，对所述目标视频所对应的视频信息进行解析，获取与所述目标视频相对应的播
放时长参数与存储位置参数。其中，所获取的时序信息可以用于对目标视频的视频图像帧
和对应的音频文件进行分解，由于目标视频的来源具有不确定性(可以是互联网中的视频
资源，也可以是电子设备所保存的本地视频文件)，通过获取与所述目标视频相对应的播放
时长参数与存储位置参数，能够在相应的区块链网络中保存原始的目标视频时，同时将与
所述目标视频相对应的播放时长参数与存储位置参数保存在区块链网络中，以实现对目标
视频的溯源。

[0075] 步骤302：根据所述目标视频的视频参数，提取所述目标视频的图像特征向量和语音特征向量。

[0076] 在本发明的一些实施例中，根据所述目标视频的视频参数，提取所述目标视频的图像特征向量和语音特征向量，可以通过以下方式实现：

[0077] 根据所述目标视频的时序信息，响应于所述目标视频的时序信息，根据与所述目标视频相对应的播放时长参数与存储位置参数，通过图像分类网络对所述目标视频所包括
的图像帧进行处理，形成与所述目标视频的时序信息相匹配的图像特征向量；响应于所述
目标视频的时序信息，根据与所述目标视频相对应的播放时长参数与存储位置参数，通过
语音分类的卷积神经网络对所述目标视频所包括的音频信息进行处理，形成与所述目标视
频的时序信息相匹配的语音特征向量。其中，由于目标视频由至少一帧图像帧组成，通过图
像分类网络对目标视频所包括的图像帧进行处理，能够获得待识别的图像特征向量，通过
语音分类的卷积神经网络对目标视频所包括的音频信息进行处理，能够获得待识别的语音
特征向量。进一步地，由于目标视的不仅可以为保存在本地终端的存储介质中的视频，还以
为采用分布式存储的方式存储于不同网络中不同服务器中的视频(或者采用流媒体形式，
需要终端对分段式流媒体视频进行拼接以形成完整的目标视频)，因此，图像分类网络响应
于目标视频的时序信息，根据与所述目标视频相对应的播放时长参数与存储位置参数，对
目标视频进行处理，可以分别形成与所述目标视频的时序信息相匹配的图像特征向量和语
音特征向量，避免由于缺少目标视频的时序信息所造成的目标视频的视频帧丢失所造成的
图像特征向量和语音特征向量的缺失。

[0078] 其中，语音特征向量提取可包括声强和声强级、响度、音高、基音周期、基音频率、信噪比、谐噪比等。声强是指单位时间内通过垂直于声波传播方向的单位面积的平均声能。
声强用I表示，单位为瓦/平米。声强采用声强级来表示。声强级的常用单位为分贝(dB)。响
度是表示声音强弱程度。响度采用响度级表示。音高是人类听觉系统对于声音频率高低的
感觉。音高的单位是美尔。基音周期反映了声门相邻两次开闭之间的时间间隔或开闭的频
率。信噪比是信号和噪声的功率之间比值计算得到的。其中，谐躁比用于表征语音中谐波成
分和噪声成分的比率。

[0079] 步骤303：基于所述图像特征向量和所述语音特征向量，对所述目标视频进行内容识别，得到与所述目标视频相匹配的文本信息。

[0080] 其中，所述文本信息用于通过自然语言对所述目标视频的内容进行描述。

[0081] 结合图2示出的信息处理装置说明本发明实施例提供的信息处理方法，参见图4，图4为本发明实施例提供的信息处理方法一个可选的流程示意图，可以理解地，图4所示的
步骤可以由运行信息处理装置的电子设备执行，例如可以是如带有信息处理功能的服务器
或者服务器集群，其中，带有信息处理装置的专用终端可以封装于图1所示的服务器中，以
执行前序图2所示的信息处理装置中的相应软件模块；以实现用于基于图像特征向量和所
述语音特征向量，对目标视频进行内容识别，得到与目标视频相匹配的文本信息，具体包括
以下步骤：

[0082] 步骤3031：通过图像语义识别网络对所述图像特征向量进行语义识别处理，形成与图像特征向量相匹配的图像语义识别结果。

[0083] 其中，服务器可以分别接收来自于终端A和终端B的相应请求，以实现请求相应的文本信息。

[0084] 在本发明的一些实施例中，通过图像语义识别网络对所述图像特征向量进行语义识别处理，形成与图像特征向量相匹配的图像语义识别结果，可以通过以下方式实现：

[0085] 通过基于注意力机制的循环卷积神经网络，对所述图像特征向量进行语义识别处理，形成相应的第一图像语义识别结果；通过基于记忆机制的卷积神经网络，对所述图像特
征向量进行语义识别处理，形成相应的第二图像语义识别结果；对所述第一图像语义识别
结果和所述第二图像语义识别结果进行语义整合处理，形成与图像特征向量相匹配的图像
语义识别结果。其中，通过注意力机制的循环卷积神经网络所形成的第一图像语义识别结
果，和基于记忆机制的卷积神经网络所形成的第二图像语义识别结果的融合，可以有效提
升图像语义识别结果的处理精确度。

[0086] 参考图5，图5为本发明实施例中图像语义识别网络一个可选的处理过程示意图，其中，编码器中可以包含卷积神经网络，将图像特征向量输入编码器后，输出图像特征向量
对应的帧级别视频特征向量。具体地，将图像特征向量输入编码器，即输入编码器中的卷积
神经网络，通过卷积神经网络提取图像特征向量对应的帧级别视频特征向量，卷积神经网
络输出提取的帧级别视频特征向量，并作为编码器的输出，进而利用编码器输出的视频特
征向量执行相应的图像语义识别，或者，编码器中可以包含卷积神经网络和循环神经网络，
将图像特征向量输入编码器后，输出图像特征向量对应的携带有时序信息的帧级别视频特
征向量，如图5中的编码器所示。具体地，将图像特征向量输入编码器，即输入编码器中的卷
积神经网络(例如图5中的CNN神经网络)，通过卷积神经网络提取图像特征向量对应的帧级
别视频特征向量，卷积神经网络输出提取的帧级别视频特征向量，输入到编码器中的循环
神经网络(对应图5中的hi-1、hi等结构)，通过循环神经网络对提取的卷积神经网络特征向
量进行时序信息的提取与融合，循环神经网络输出携带有时序信息的视频特征向量，并作
为编码器的输出，进而利用编码器输出的视频特征向量执行相应的处理步骤。

[0087] 步骤3032：通过语音语义识别网络对所述语音特征向量进行语义识别处理，形成与语音特征向量相匹配的语音语义识别结果。

[0088] 参考图6，图6为本发明实施例中语音语义识别网络一个可选的处理过程示意图，其中，第一层为一个一个语音帧数据，第二层为DNN模型，第三层为HMM模型。其中，S表示HMM
模型中的HMM状态；a表示HMM模型中的转移概率，ak-1sk表示从sk-1状态变为sk-2状态的转移概
率；h表示DNN模型中的神经元；W表示DNN模型中的权值，M表示DNN模型的层数。h代表的是一
个函数，如果是第一层，则h的输入是一帧数据或几帧数据对应的各自权值；如果是第二层
至最后一层，则h的输入是上一层的输出和每一个输出所对应的权值。每一个DNN的输出对
应的是一个HMM模型状态的输出概率。每一个DNN的输出对应的是一个语音帧，通过图6所示
的处理过程能够实现形成与语音特征向量相匹配的语音语义识别结果。

[0089] 在本发明的一些实施例中，所述信息处理装置可以根据在所述训练音频语料中所提取的训练Filter bank特征以及所述每个音素状态的后验概率特征，计算DNN模型中输出
层节点间的矩阵权重值和矩阵偏置值，优选的，所述信息处理装置可以基于上述方法提取
所述训练音频语料中每帧音频数据对应的训练Filter bank特征，并将所述训练Filter
bank特征与对应的后验概率特征作为训练样本对，则所述训练音频语料可以存在多个训练
样本对，基于所述多个训练样本对，并采用最大似然准则的后向传递算法计算DNN模型中输
出层节点间的矩阵权重值和矩阵偏置值。所述信息处理装置将所述矩阵权重值和所述矩阵
偏置值添加至所述DNN模型中，生成训练后的DNN模型，以封装在相应的软件模块中，或者，
固化在相应的硬件设备中，便于用户在无模型训练的情况下直接使用。

[0090] 步骤3033：对所述图像语义识别结果和所述语音语义识别结果进行语义整合处理，形成与所述目标视频相匹配的文本信息。

[0091] 参考图7，图7为本发明实施例语义整合处理一个可选的处理过程示意图，其中，双流长短期记忆网络可以包括双向向量模型、注意力模型、全连接层和sigmoid分类器，双向
向量模型对于输入待识别视频的RGB图像特征向量和语音特征向量分别进行递归处理，并
采用注意力模型分别将递归处理后的图像特征向量合并在一起形成更长的向量、将语音特
征向量合并在一起形成更长的向量，并将两个合并后的向量再次合并在一起形成更长的向
量，最后采用两个全连接层将学到的分布式特征表示映射到对应的样本标记空间，以提高
最终分类结果的准确性，最后采用sigmoid分类器确定待识别视频对应各个标签的概率值，
以实现对所述图像语义识别结果和所述语音语义识别结果进行语义整合处理，形成与所述
目标视频相匹配的文本信息。

[0092] 在本发明的一些实施例中，所述方法还包括：

[0093] 提取所述目标视频中的相应视频样本，其中，所述视频样本包括至少两帧视频图像帧；提取所述视频样本中每一帧视频图像帧的至少两个局部特征；根据每一帧视频图像
帧中各个局部特征所对应的权重参数，对每一帧视频图像帧中的局部特征进行特征整合处
理，得到每一帧视频图像帧的局部特征向量；根据每一帧视频图像帧的局部特征向量、以及
所述视频样本中图像的时序信息，对所述视频样本进行内容识别，得到所述目标视频的视
频内容信息，所述视频内容信息包括视频内容描述以及所述视频内容描述的词性信息；根
据所述视频内容信息以及所述视频样本的真实视频内容信息，更新所述图像语义识别网络
的参数。

[0094] 在本发明的一些实施例中，还可以对训练音频语料进行数据预处理，所述数据预处理可以包括：对训练音频语料进行数据分帧、数据预加重、数据加窗操作等以得到时域上
的至少一帧音频数据；进行快速傅里叶变换，将所述至少一帧音频数据转换到频域，得到所
述至少一帧音频数据在频域上对应的至少一个功率谱数据；将频域上的至少一个功率谱数
据通过具有三角滤波特性的梅尔频率滤波器，得到至少一个梅尔功率频谱数据；对至少一
个梅尔功率频谱数据取对数能量，得到至少一个梅尔对数能量谱数据，此时所得到的至少
一个梅尔对数能量谱数据(即Filter bank特征)，采用DCT去除至少一个梅尔对数能量谱数
据的数据相关性以得到MFCC特征，所述信息处理装置将所述MFCC特征作为DNN的输入向量，
以对DNN和HMM进行训练，并获取训练后的DNN输出的至少一个音素状态中每个音素状态的
似然概率特征，以及训练后的HMM的音素转换概率。可以理解的是，针对训练音频语料中的
同一帧音频数据的Filter bank特征与MFCC特征存在一一对应的关系。

[0095] 步骤304：输出与所述目标视频相匹配的文本信息。

[0096] 其中，终端A可以接收服务器所输出的文本信息，并显示相应的文本信息A；终端B也可以接收服务器所输出的文本信息，并显示相应的文本信息B；或者，

[0097] 终端A和B可以接收服务器所输出的文本信息，并显示相同的文本信息。

[0098] 其中，文本信息可以具有全局词性。

[0099] 在本发明的一些实施例中，可以根据所接收的用户指令对电子设备所输出的内容进行调整，在用户仅能够查看相应的文字信息时，输出与目标视频相匹配的文本信息，以适
应用户的不同需求。

[0100] 其中，需要说明的是，本发明中与目标视频相匹配的文本信息的全局词性是指待描述视频的自然语言描述信息所对应的各个词性，全局词性向量即为各个词性组合的向
量，全局词性向量特征即为各个词性组合的向量的特征。其中，词性是字、词、词组或单词的
一种属性，各种语言都会定义有多种词性。作为示例地，中文包括但不限于名词、动词、形容
词、量词、副词、介词等词性；英语包括但不限于noun(名词)、verb(动词)、gerund(动名词)、
adjective(形容词)、adverb(副词)、article(冠词)、preposition(介词)等词性；在其他语
言中，也可能包括其他类型的词性，在此不再赘述。而词性向量是相对于自然语言描述的句
子而言的，通常句子是由两个或多个词组成的，词性向量特征即为句子中的各个词的词性
特征的组合。

[0101] 在本发明的一些实施例中，当形成与目标视频相匹配的文本信息后为便于文本信息的保存与查询，可以将将所述目标视频及对应的与所述目标视频相匹配的文本信息发送
至区块链网络，以使所述区块链网络的节点将目标视频及对应的与所述目标视频相匹配的
文本信息所述填充至新区块，且当对所述新区块共识一致时，将所述新区块追加至区块链
的尾部。

[0102] 参见图8，图8是本发明实施例提供的信息处理装置100的架构示意图，包括区块链网络200(示例性示出了共识节点210-1至共识节点210-3)、认证中心300、业务主体400和业
务主体500，下面分别进行说明。

[0103] 区块链网络200的类型是灵活多样的，例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例，任何业务主体的电子设备例如用户终端和服务器，都可以在不需要
授权的情况下接入区块链网络200；以联盟链为例，业务主体在获得授权后其下辖的电子设
备(例如终端/服务器)可以接入区块链网络200，此时，成为区块链网络200中的客户端节
点。

[0104] 在一些实施例中，客户端节点可以只作为区块链网络200的观察者，即提供支持业务主体发起交易(例如，用于上链存储数据或查询链上数据)功能，对于区块链网络200的共
识节点210的功能，例如排序功能、共识服务和账本功能等，客户端节点可以缺省或者有选
择性(例如，取决于业务主体的具体业务需求)地实施。从而，可以将业务主体的数据和业务
处理逻辑最大程度迁移到区块链网络200中，通过区块链网络200实现数据和业务处理过程
的可信和可追溯。

[0105] 区块链网络200中的共识节点接收来自不同业务主体(例如图1中示出的业务主体400和业务主体500)的客户端节点(例如，图1中示出的归属于业务主体400的客户端节点
410、以及归属于电子设备的系统500的客户端节点510)提交的交易，执行交易以更新账本
或者查询账本，执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显
示。

[0106] 例如，客户端节点410/510可以订阅区块链网络200中感兴趣的事件，例如区块链网络200中特定的组织/通道中发生的交易，由共识节点210推送相应的交易通知到客户端
节点410/510，从而触发客户端节点410/510中相应的业务逻辑。

[0107] 下面以多个业务主体接入区块链网络以实现目标视频和相应文本信息的管理为例，说明区块链网络的示例性应用。

[0108] 参见图8，管理环节涉及的多个业务主体，如业务主体400可以是基于人工智能的信息处理装置，业务主体500可以是带有视频播放功能的显示系统，从认证中心300进行登
记注册获得各自的数字证书，数字证书中包括业务主体的公钥、以及认证中心300对业务主
体的公钥和身份信息签署的数字签名，用来与业务主体针对交易的数字签名一起附加到交
易中，并被发送到区块链网络，以供区块链网络从交易中取出数字证书和签名，验证消息的
可靠性(即是否未经篡改)和发送消息的业务主体的身份信息，区块链网络会根据身份进行
验证，例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运
行的客户端都可以向区块链网络200请求接入而成为客户端节点。

[0109] 业务主体400的客户端节点410用于获取目标视频，并对所述目标视频进行解析以实现获取所述目标视频的视频参数；根据所述目标视频的视频参数，提取所述目标视频的
图像特征向量和语音特征向量；基于所述图像特征向量和所述语音特征向量，对所述目标
视频进行内容识别，得到与所述目标视频相匹配的文本信息，其中，所述文本信息用于通过
自然语言对所述目标视频的内容进行描述；输出与所述目标视频相匹配的文本信息并将目
标视频与相应的文本信息发送至区块链网络200。

[0110] 其中，将目标视频与相应的文本信息发送至区块链网络200，可以预先在客户端节点410设置业务逻辑，当形成相应的文本信息时，客户端节点410将目标视频与相应的文本
信息自动发送至区块链网络200，也可以由业务主体400的业务人员在客户端节点410中登
录，手动打包目标视频与相应的文本信息，并将其发送至区块链网络200。在发送时，客户端
节点410根据目标视频与相应的文本信息生成对应更新操作的交易，在交易中指定了实现
更新操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点410
的数字证书、签署的数字签名(例如，使用客户端节点410的数字证书中的私钥，对交易的摘
要进行加密得到)，并将交易广播到区块链网络200中的共识节点210。

[0111] 区块链网络200中的共识节点210中接收到交易时，对交易携带的数字证书和数字签名进行验证，验证成功后，根据交易中携带的业务主体400的身份，确认业务主体400是否
是具有交易权限，数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成
功后签署节点210自己的数字签名(例如，使用节点210-1的私钥对交易的摘要进行加密得
到)，并继续在区块链网络200中广播。

[0112] 区块链网络200中的共识节点210接收到验证成功的交易后，将交易填充到新的区块中，并进行广播。区块链网络200中的共识节点210广播的新区块时，会对新区块进行共识
过程，如果共识成功，则将新区块追加到自身所存储的区块链的尾部，并根据交易的结果更
新状态数据库，执行新区块中的交易：对于提交更新目标视频与相应的文本信息的交易，在
状态数据库中添加包括目标视频与相应的文本信息的键值对。

[0113] 业务主体500的业务人员在客户端节点510中登录，输入目标视频或者文本信息查询请求，客户端节点510根据目标视频或者文本信息查询请求生成对应更新操作/查询操作
的交易，在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传
递的参数，交易还携带了客户端节点510的数字证书、签署的数字签名(例如，使用客户端节
点510的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络200
中的共识节点210。

[0114] 区块链网络200中的共识节点210中接收到交易，对交易进行验证、区块填充及共识一致后，将填充的新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状
态数据库，执行新区块中的交易：对于提交的更新某一目标视频对应的人工识别结果的交
易，根据人工识别结果更新状态数据库中该目标视频对应的键值对；对于提交的查询某个
目标视频的交易，从状态数据库中查询目标视频对应的键值对，并返回交易结果。

[0115] 值得说明的是，在图8中示例性地示出了将目标视频与相应的文本信息直接上链的过程，但在另一些实施例中，对于目标视频的数据量较大的情况，客户端节点410可将目
标视频的哈希以及相应的文本信息的哈希成对上链，将原始的目标视频以及相应的文本信
息存储于分布式文件系统或数据库。客户端节点510从分布式文件系统或数据库获取到目
标视频以及相应的文本信息后，可结合区块链网络200中对应的哈希进行校验，从而减少上
链操作的工作量。

[0116] 作为区块链的示例，参见图9，图9是本发明实施例提供的区块链网络200中区块链的结构示意图，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个
区块中所有交易的哈希值，新产生的交易的记录被填充到区块并经过区块链网络中节点的
共识后，会被追加到区块链的尾部从而形成链式的增长，区块之间基于哈希值的链式结构
保证了区块中交易的防篡改和防伪造。

[0117] 下面说明本发明实施例提供的区块链网络的示例性的功能架构，参见图10，图10是本发明实施例提供的区块链网络200的功能架构示意图，包括应用层201、共识层202、网
络层203、数据层204和资源层205，下面分别进行说明。

[0118] 资源层205封装了实现区块链网路200中的各个节点210的计算资源、存储资源和通信资源。

[0119] 数据层204封装了实现账本的各种数据结构，包括以文件系统中的文件实现的区块链，键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。

[0120] 网络层203封装了点对点(P2P，Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。

[0121] 其中，P2P网络协议实现区块链网络200中节点210之间的通信，数据传播机制保证了交易在区块链网络200中的传播，数据验证机制用于基于加密学方法(例如数字证书、数
字签名、公/私钥对)实现节点210之间传输数据的可靠性；接入认证机制用于根据实际的业
务场景对加入区块链网络200的业务主体的身份进行认证，并在认证通过时赋予业务主体
接入区块链网络200的权限；业务主体身份管理用于存储允许接入区块链网络200的业务主
体的身份、以及权限(例如能够发起的交易的类型)。

[0122] 共识层202封装了区块链网络200中的节点210对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法，支持共识算
法的可插拔。

[0123] 交易管理用于验证节点210接收到的交易中携带的数字签名，验证业务主体的身份信息，并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相
关信息)；对于获得接入区块链网络200的授权的业务主体而言，均拥有认证中心颁发的数
字证书，业务主体利用自己的数字证书中的私钥对提交的交易进行签名，从而声明自己的
合法身份。

[0124] 账本管理用于维护区块链和状态数据库。对于取得共识的区块，追加到区块链的尾部；执行取得共识的区块中的交易，当交易包括更新操作时更新状态数据库中的键值对，
当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询
结果。支持对状态数据库的多种维度的查询操作，包括：根据区块向量号(例如交易的哈希
值)查询区块；根据区块哈希值查询区块；根据交易向量号查询区块；根据交易向量号查询
交易；根据业务主体的账号(向量号)查询业务主体的账号数据；根据通道名称查询通道中
的区块链。

[0125] 应用层201封装了区块链网络能够实现的各种业务，包括交易的溯源、存证和验证等。

[0126] 下面对本发明所提供的信息处理方法的对应架构进行说明，其中，

[0127] 参考图11，图11为本发明实施例中信息处理方法一个可选的使用环境示意图，其中，厨房抽油烟机安装有视频播放功能模块和相应的信息处理装置，在厨房抽油烟机工作
的过程中，通过视频分享内容并不是一种恰当的信息展示方式，相比而言，通过输出文本信
息的方式分享内容，阅读效率更高(例如一个烹饪教学视频，在实际烹饪操练过程中，观看
文字说明比观看视频效率明显更高)，但是互联网中所获取的目标视频往往并不携带有对
应的文本信息。

[0128] 参考图12，图12为本发明实施例中信息处理方法的架构示意图，其中，

[0129] 客户端，用于支持视频文件的播放和文本展示切换的APP或集成在智能设备上的应用程序。

[0130] 接口层，用于主要包含视频播放接口和文本展示接口，分别处理客户端的视频播放请求及文本展示请求。

[0131] 逻辑层，用于与接口层对应，并且包含视频播放服务和文本展示服务。视频播放服务接收用户的视频播放请求，根据请求的视频id，获取对应的视频播放地址及播放控制信
息，并下载视频介质进行播放。文本展示服务接受用户的文本展示请求，根据请求中的视频
id，获取对应的文本信息存储地址以及文本展示控制信息，读取文本内容展示给用户。

[0132] 存储层，用于存储层主要视频介质存储服务、视频媒资存储服务、描述文本存储服务。视频介质存储经过编码的用于播放的的视频介质(常见的MP4文件或HLS视频文件)；视
频媒资存储服务用户存储视频的基本资料信息(如视频id、视频标题、视频播放地址、文本
读取地址)；描述文本存储服务用于存储按照约定格式组织的视频文本信息(如帧区间对应
的文本信息)。

[0133] 离线训练层，用于进行离线的文本提炼。其中，特征提取模块对视频文件分别进行视频特征提取和音频特征提取。视频内容理解网络是基于记忆机制的视频描述模型
(MARN)，包含视频编码模块、基于注意力机制的循环神经网络解码模块和基于记忆机制的
解码模块。通过记忆模块来建立每个词到多个相关视频的映射关系，以此能够每个词的多
重含义分别进行语义理解接与存储，从而生成内容更丰富，语义更准确的视频描述。语音识
别网络有基于HMM-DNN模型的ASR网络和基于BERT模型的NLP网络构成。通过ASR网络实现将
视频语音转换为文本，通过NLP网络实现对音频中的闲聊内容消除以及核心信息的提取。文
本融合网络负责将基于视频理解的文本描述与基于音频分析的文本描述进行融合，组织成
格式化的文本信息，上传存储服务进行存储。

[0134] 下面对本发明所提供的信息处理方法的使用过程进行说明，其中，参考图13，图13为本发明实施例中信息处理方法的使用过程示意图，其中，实现视频和文本无缝切换播放
包括以下步骤：

[0135] 步骤1301：用户通过点击终端的切换按键，请求视频播放转换为文本展示，触发文本展示请求；

[0136] 步骤1302：文本展示接口收到客户端请求后，校验请求合法性，向文本展示服务发起请求；

[0137] 步骤1303：文本展示服务收到请求后，解析请求参数(视频id，视频播放帧向量号)，然后根据视频id向视频媒资存储服务发起请求，请求相关的视频媒资信息(视频时长、
视频文本描述存储地址等)；

[0138] 步骤1304：视频媒资存储收到请求后，根据视频id及请求媒资字段，返回对应的视频媒资信息；

[0139] 步骤1305：文本展示服务获取到视频媒资信息后，判断请求是否有效，如果有效，返回视频对应的文本描述地址及文本偏移量；

[0140] 步骤1306：文本展示接口收到文本展示服务的响应消息后，向终端返回文本展示响应信息；

[0141] 步骤1307：终端APP集成的文本展示SDK根据文本存储地址及文本偏移量，读取对应的文本信息；

[0142] 步骤1308：描述文本存储服务返回视频描述文本内容；

[0143] 步骤1309：终端APP收到描述文本内容，向用户展示文本内容；

[0144] 步骤1310：用户再次通过点击终端的切换按键，请求文本展示转换为视频播放，触发视频播放请求；

[0145] 步骤1311：视频播放接口收到客户端请求后，校验请求合法性，向视频播放服务发起请求；

[0146] 步骤1312：视频播放服务收到请求后，解析请求参数(视频id，文本展示内容偏移量)，然后根据视频id向视频媒资存储服务发起请求，请求相关的视频媒资信息(视频时长、
视频下载地址等)；

[0147] 步骤1313：视频媒资存储收到请求后，根据视频id及请求媒资字段，返回对应的视频媒资信息；

[0148] 步骤1314：视频播放服务获取到视频媒资信息后，判断请求是否有效，如果有效，返回视频对应的视频介质下载地址及起播帧序号；

[0149] 步骤1315：视频播放接口收到视频播放服务的响应消息后，向终端返回视频播放响应信息；

[0150] 步骤1316：终端APP集成的视频播放SDK根据视频下载地址下载视频介质内容；

[0151] 步骤1317：视频介质存储服务返回视频介质文件；

[0152] 步骤1318：终端APP下载好视频介质文件后，从视频起播帧开始向用户播放视频内容。

[0153] 下面对本发明所提供的信息处理方法的使用过程进行说明，其中，参考图14，图14为本发明实施例中信息处理方法的使用过程示意图，其中，基于视频文件内容提取相应的
文字信息包括以下步骤：

[0154] 步骤1401：特征提取模块根据待处理的视频id，向视频介质存储服务请求下载视频介质。

[0155] 步骤1402：视频介质存储服务向特征提取模块下发视频介质。

[0156] 步骤1403：特征提取模块下载完视频介质后，对视频介质进行音视频特征提取。对于视频，提取视频中每帧图像的2D特征和每小段视频的3D特征。对于音频，提取MFCC特征。

[0157] 步骤1404：将提取的视频特征信息输入到基于注意力机制的循环神经网络解码模块进行特征解码。

[0158] 步骤1405：将提取的视频特征输入到基于记忆机制的解码模块进行解码。

[0159] 步骤1406：将基于注意力机制的循环神经网络解码结果输入到概率融合模块。

[0160] 步骤1407：将基于记忆机制的解码模块解码结果输入到概率融合模块。

[0161] 步骤1408：将两个模块的解码结果进行概率融合，输出基于视频内容识别的文本描述结果到文本融合网络。

[0162] 步骤1409：与此同时，特征难提取模块将提取的音频特征输入到ASR网络，进行语音识别。

[0163] 步骤1410：ASR网络将语音识别结果解析为文本信息输入到NLP网络进行处理。

[0164] 步骤1411：NLP网络对文本信息进行理解，去掉文本中的闲聊内容，提炼文本的关键信息，输入到文本融合网络。

[0165] 步骤1412：文本融合网络对基于视频内容理解生成的描述文本与基于音频视频处理生成的文本信息进行融合，生成最终的描述文本。

[0166] 步骤1413：文本融合网络向文本上传接口发起文本内容上传请求。

[0167] 步骤1414：文本上传接口接收到上传请求后，向描述文本存储服务发起请求，请求存储描述文本。

[0168] 步骤1415：描述文本存储服务存储对应的描述文本信息，并生成对应的文件地址，向文件上传接口返回存储结果。

[0169] 步骤1416：文件上传接口向视频媒资存储服务发起请求，请求更新视频对应的描述文本对应的媒资属性。

[0170] 步骤1417：视频媒资存储服务更新视频对应的媒资信息后，向文本上传接口返回更新结果。

[0171] 至此，通过对视频内容及音频内容的处理，提炼视频关键信息，消除视频中的闲聊内容，组织成便于阅读的文本信息，并实现了视频播放和文本展示的无缝切换，从而实现在
特定场景下，支持用户任意选择视频或文本展示内容，优化用户体验，实现便捷的内容分
享。

[0172] 本发明具有以下有益技术效果：

[0173] 通过根据所述目标视频的视频参数，提取所述目标视频的图像特征向量和语音特征向量；基于所述图像特征向量和所述语音特征向量，对所述目标视频进行内容识别，得到
与所述目标视频相匹配的文本信息，实现了及时准确的将视频信息内容转换为相应的自然
语言的文本进行输出，有效提升视频信息内容的分享速度，扩大了视频信息内容的分享场
景，解决了传统技术中无法通过机器处理实现利用自然语言对视频信息内容进行描述的问
题。

[0174] 以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围
之内。

一种信息处理方法、装置及存储介质转让专利

申请号 : CN201910878129.5

文献号 : CN110598651B

文献日 : 2021-03-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 俄万有

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :