一种信息处理方法、装置及存储介质转让专利
申请号 : CN201910878129.5
文献号 : CN110598651B
文献日 : 2021-03-12
发明人 : 俄万有
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种信息处理方法,其特征在于,所述方法包括:获取目标视频,并对所述目标视频进行解析以实现获取所述目标视频的视频参数;
根据所述目标视频的视频参数,提取所述目标视频的图像特征向量和语音特征向量;
通过图像语义识别网络对所述图像特征向量进行语义识别处理,形成与图像特征向量相匹配的图像语义识别结果,其中,所述图像语义识别网络包括基于注意力机制的循环卷积神经网络和基于记忆机制的卷积神经网络;
通过语音语义识别网络对所述语音特征向量进行语义识别处理,形成与语音特征向量相匹配的语音语义识别结果;
对所述图像语义识别结果和所述语音语义识别结果进行语义整合处理,形成与所述目标视频相匹配的文本信息,其中,所述文本信息用于通过自然语言对所述目标视频的内容进行描述;
输出与所述目标视频相匹配的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标视频进行解析以实现获取所述目标视频的视频参数,包括:对所述目标视频进行解析,获取所述目标视频的时序信息;
根据所述目标视频的时序信息,对所述目标视频所对应的视频信息进行解析,获取与所述目标视频相对应的播放时长参数与存储位置参数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标视频的视频参数,提取所述目标视频的图像特征向量和语音特征向量,包括:响应于所述目标视频的时序信息,根据与所述目标视频相对应的播放时长参数与存储位置参数,通过图像分类网络对所述目标视频所包括的图像帧进行处理,形成与所述目标视频的时序信息相匹配的图像特征向量;
响应于所述目标视频的时序信息,根据与所述目标视频相对应的播放时长参数与存储位置参数,通过语音分类的卷积神经网络对所述目标视频所包括的音频信息进行处理,形成与所述目标视频的时序信息相匹配的语音特征向量。
4.根据权利要求1所述的方法,其特征在于,所述通过图像语义识别网络对所述图像特征向量进行语义识别处理,形成与图像特征向量相匹配的图像语义识别结果,包括:通过基于注意力机制的循环卷积神经网络,对所述图像特征向量进行语义识别处理,形成相应的第一图像语义识别结果;
通过基于记忆机制的卷积神经网络,对所述图像特征向量进行语义识别处理,形成相应的第二图像语义识别结果;
对所述第一图像语义识别结果和所述第二图像语义识别结果进行语义整合处理,形成与图像特征向量相匹配的图像语义识别结果。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:提取所述目标视频中的相应视频样本,其中,所述视频样本包括至少两帧视频图像帧;
提取所述视频样本中每一帧视频图像帧的至少两个局部特征;
根据每一帧视频图像帧中各个局部特征所对应的权重参数,对每一帧视频图像帧中的局部特征进行特征整合处理,得到每一帧视频图像帧的局部特征向量;
根据每一帧视频图像帧的局部特征向量、以及所述视频样本中图像的时序信息,对所述视频样本进行内容识别,得到所述目标视频的视频内容信息,所述视频内容信息包括视频内容描述以及所述视频内容描述的词性信息;
根据所述视频内容信息以及所述视频样本的真实视频内容信息,更新所述图像语义识别网络的参数。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:将所述目标视频及对应的与所述目标视频相匹配的文本信息发送至区块链网络,以使所述区块链网络的节点将目标视频及对应的与所述目标视频相匹配的文本信息填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
7.一种信息处理装置,其特征在于,所述装置包括:信息传输模块,用于获取目标视频;
信息处理模块,用于对所述目标视频进行解析以实现获取所述目标视频的视频参数;
所述信息处理模块,用于根据所述目标视频的视频参数,提取所述目标视频的图像特征向量和语音特征向量;
所述信息处理模块,用于通过图像语义识别网络对所述图像特征向量进行语义识别处理,形成与图像特征向量相匹配的图像语义识别结果,其中,所述图像语义识别网络包括基于注意力机制的循环卷积神经网络和基于记忆机制的卷积神经网络;
所述信息处理模块,用于通过语音语义识别网络对所述语音特征向量进行语义识别处理,形成与语音特征向量相匹配的语音语义识别结果;
所述信息处理模块,用于对所述图像语义识别结果和所述语音语义识别结果进行语义整合处理,形成与所述目标视频相匹配的文本信息,其中,所述文本信息用于通过自然语言对所述目标视频的内容进行描述;
所述信息传输模块,用于输出与所述目标视频相匹配的文本信息。
8.根据权利要求7所述的装置,其特征在于,所述信息处理模块,用于对所述目标视频进行解析,获取所述目标视频的时序信息;
所述信息处理模块,用于根据所述目标视频的时序信息,对所述目标视频所对应的视频信息进行解析,获取与所述目标视频相对应的播放时长参数与存储位置参数。
9.根据权利要求7所述的装置,其特征在于,所述信息处理模块,用于响应于所述目标视频的时序信息,根据与所述目标视频相对应的播放时长参数与存储位置参数,通过图像分类网络对所述目标视频所包括的图像帧进行处理,形成与所述目标视频的时序信息相匹配的图像特征向量;
所述信息处理模块,用于响应于所述目标视频的时序信息,根据与所述目标视频相对应的播放时长参数与存储位置参数,通过语音分类的卷积神经网络对所述目标视频所包括的音频信息进行处理,形成与所述目标视频的时序信息相匹配的语音特征向量。
10.根据权利要求9所述的装置,其特征在于,所述信息处理模块,用于通过基于注意力机制的循环卷积神经网络,对所述图像特征向量进行语义识别处理,形成相应的第一图像语义识别结果;
所述信息处理模块,用于通过基于记忆机制的卷积神经网络,对所述图像特征向量进行语义识别处理,形成相应的第二图像语义识别结果;
所述信息处理模块,用于对所述第一图像语义识别结果和所述第二图像语义识别结果进行语义整合处理,形成与图像特征向量相匹配的图像语义识别结果。
11.根据权利要求9所述的装置,其特征在于,所述信息处理模块,用于提取所述目标视频中的相应视频样本,其中,所述视频样本包括至少两帧视频图像帧;
所述信息处理模块,用于提取所述视频样本中每一帧视频图像帧的至少两个局部特征;
所述信息处理模块,用于根据每一帧视频图像帧中各个局部特征所对应的权重参数,对每一帧视频图像帧中的局部特征进行特征整合处理,得到每一帧视频图像帧的局部特征向量;
所述信息处理模块,用于根据每一帧视频图像帧的局部特征向量、以及所述视频样本中图像的时序信息,对所述视频样本进行内容识别,得到所述目标视频的视频内容信息,所述视频内容信息包括视频内容描述以及所述视频内容描述的词性信息;
所述信息处理模块,用于根据所述视频内容信息以及所述视频样本的真实视频内容信息,更新所述图像语义识别网络的参数。
12.一种电子设备,其特征在于,所述电子设备包括:存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至6任一项所述的信息处理方法。
13.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至6任一项所述的信息处理方法。
说明书 :
一种信息处理方法、装置及存储介质
技术领域
背景技术
对于人类来说非常简单,但对机器来说却是一项很难的任务,这需要机器能够跨越对图像
理解的语义鸿沟,正确融合计算机视觉和自然语言处理这两项技术。近年来,很多基于深度
学习的方法和系统被开发出来处理混合语音信号的分离和识别,如深度吸引网络。为此,人
工智能技术(AI,Artificial Intelligence)提供了训练适当的语音识别网络来支持上述
应用的方案。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩
展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统
人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策
的功能,在语音处理领域中,也就是通过利用数字计算机或者数字计算机控制的机器实现
对语音的识别。目前,该方向的研究收到了广泛的关注,能够实现在安防、家居、医疗、教学
等领域得到有效应用,但是这一过程中,视频文件的传播也存在着播放时间长、单位时间传
递信息量少、内容分享效率低的缺点。
发明内容
将视频信息内容转换为相应的自然语言的文本进行输出。
视频的内容进行描述;
过自然语言对所述目标视频的内容进行描述;
频的图像特征向量和语音特征向量;基于所述图像特征向量和所述语音特征向量,对所述
目标视频进行内容识别,得到与所述目标视频相匹配的文本信息,其中,所述文本信息用于
通过自然语言对所述目标视频的内容进行描述;输出与所述目标视频相匹配的文本信息,
实现了及时准确的将视频信息内容转换为相应的自然语言的文本进行输出,有效提升视频
信息内容的分享速度,扩大了视频信息内容的分享场景,解决了传统技术中无法通过机器
处理实现利用自然语言对视频信息内容进行描述的问题。
附图说明
具体实施方式
做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
的情况下相互结合。
明的情况下,所执行的多个操作不存在执行先后顺序的限制。
状态影响的某些变量则是可见的。HMM中的状态是HMM的基本组成部分;HMM的转移概率表示
HMM的状态之间发生转换的概率;而每一个状态在可能输出的符号上都有一概率分布,即
HMM的输出概率。其中,马尔可夫过程是一个不具备记忆特质的随机过程。该随机过程在给
定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。
线)形成的模型。
learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能
力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant
classification)。
图像经过openCV等工具读取形成的三通道或原通道矩阵,模型输出为多分类概率,通过
softmax等算法最终输出网页类别。在训练时,模型通过交叉熵等目标函数向正确趋势逼
近。
易”这一术语,本发明实施例遵循了这一习惯。
键值对数据进行更新或查询的操作。
括工作量证明(PoW,Proof of Work)、权益证明(PoS,Proof of Stake)、股份授权证明
(DPoS,Delegated Proof-of-Stake)、消逝时间量证明(PoET,Proof of Elapsed Time)等。
客户端或插件,用户通过相应的客户端可以获得目标视频并进行展示;终端通过网络300连
接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现
数据传输。
的视频参数;根据所述目标视频的视频参数,提取所述目标视频的图像特征向量和语音特
征向量;基于所述图像特征向量和所述语音特征向量,对所述目标视频进行内容识别,得到
与所述目标视频相匹配的文本信息,其中,所述文本信息用于通过自然语言对所述目标视
频的内容进行描述,并通过终端(终端10-1和/或终端10-2)展示输出与所述目标视频相匹
配的文本信息。当然,本发明所提供的信息处理装置可以应用于视频播放,在视频播放中通
常会对不同数据来源的目标视频进行处理,最终在用户界面(User Interface,UI)上呈现
出与相应的目标视频相匹配的文本信息,文本信息的准确性与及时性直接影响了用户体
验。视频播放的后台数据库每天都会收到大量不同来源的视频数据,所得到与所述目标视
频相匹配的文本信息还可以供其他应用程序调用。
频参数;根据所述目标视频的视频参数,提取所述目标视频的图像特征向量和语音特征向
量;基于所述图像特征向量和所述语音特征向量,对所述目标视频进行内容识别,得到与所
述目标视频相匹配的文本信息,其中,所述文本信息用于通过自然语言对所述目标视频的
内容进行描述;输出与所述目标视频相匹配的文本信息
理功能的服务器,例如前序图1中的服务器200。图2为本发明实施例提供的信息处理装置的
组成结构示意图,可以理解,图2仅仅示出了信息处理装置的示例性结构而非全部结构,根
据需要可以实施图2示出的部分结构或全部结构。
可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线
之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种
总线都标为总线系统205。
操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和
应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现
各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
理器,其被编程以执行本发明实施例提供的信息处理方法。例如,硬件译码处理器形式的处
理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated
Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件
(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-
ProgrammableGate Array)或其他电子元件。
以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的
可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成
本发明实施例提供的信息处理方法。
立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常
规的处理器等。
应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑
器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex
Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate
Array)或其他电子元件执行实现本发明实施例提供的信息处理方法。
实现本发明实施例的从信息处理方法的程序可以包含在可执行指令中。
括一系列的模块,作为存储器202中存储的程序的示例,可以包括信息处理装置,信息处理
装置中包括以下的软件模块信息传输模块2081和信息处理模块2082。当信息处理装置中的
软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的信息处理方法,
其中,信息处理装置中各个软件模块的功能,包括:
于通过自然语言对所述目标视频的内容进行描述;
步骤可以由运行信息处理装置的各种电子设备执行,例如可以是如带有信息处理装置的服
务器或者服务器集群,其中,带有信息处理装置的专用终端可以封装于图1所示的服务器
中,以执行前序图2所示的信息处理装置中的相应软件模块。下面针对图3示出的步骤进行
说明。
放时长参数与存储位置参数。其中,所获取的时序信息可以用于对目标视频的视频图像帧
和对应的音频文件进行分解,由于目标视频的来源具有不确定性(可以是互联网中的视频
资源,也可以是电子设备所保存的本地视频文件),通过获取与所述目标视频相对应的播放
时长参数与存储位置参数,能够在相应的区块链网络中保存原始的目标视频时,同时将与
所述目标视频相对应的播放时长参数与存储位置参数保存在区块链网络中,以实现对目标
视频的溯源。
的图像帧进行处理,形成与所述目标视频的时序信息相匹配的图像特征向量;响应于所述
目标视频的时序信息,根据与所述目标视频相对应的播放时长参数与存储位置参数,通过
语音分类的卷积神经网络对所述目标视频所包括的音频信息进行处理,形成与所述目标视
频的时序信息相匹配的语音特征向量。其中,由于目标视频由至少一帧图像帧组成,通过图
像分类网络对目标视频所包括的图像帧进行处理,能够获得待识别的图像特征向量,通过
语音分类的卷积神经网络对目标视频所包括的音频信息进行处理,能够获得待识别的语音
特征向量。进一步地,由于目标视的不仅可以为保存在本地终端的存储介质中的视频,还以
为采用分布式存储的方式存储于不同网络中不同服务器中的视频(或者采用流媒体形式,
需要终端对分段式流媒体视频进行拼接以形成完整的目标视频),因此,图像分类网络响应
于目标视频的时序信息,根据与所述目标视频相对应的播放时长参数与存储位置参数,对
目标视频进行处理,可以分别形成与所述目标视频的时序信息相匹配的图像特征向量和语
音特征向量,避免由于缺少目标视频的时序信息所造成的目标视频的视频帧丢失所造成的
图像特征向量和语音特征向量的缺失。
声强用I表示,单位为瓦/平米。声强采用声强级来表示。声强级的常用单位为分贝(dB)。响
度是表示声音强弱程度。响度采用响度级表示。音高是人类听觉系统对于声音频率高低的
感觉。音高的单位是美尔。基音周期反映了声门相邻两次开闭之间的时间间隔或开闭的频
率。信噪比是信号和噪声的功率之间比值计算得到的。其中,谐躁比用于表征语音中谐波成
分和噪声成分的比率。
步骤可以由运行信息处理装置的电子设备执行,例如可以是如带有信息处理功能的服务器
或者服务器集群,其中,带有信息处理装置的专用终端可以封装于图1所示的服务器中,以
执行前序图2所示的信息处理装置中的相应软件模块;以实现用于基于图像特征向量和所
述语音特征向量,对目标视频进行内容识别,得到与目标视频相匹配的文本信息,具体包括
以下步骤:
征向量进行语义识别处理,形成相应的第二图像语义识别结果;对所述第一图像语义识别
结果和所述第二图像语义识别结果进行语义整合处理,形成与图像特征向量相匹配的图像
语义识别结果。其中,通过注意力机制的循环卷积神经网络所形成的第一图像语义识别结
果,和基于记忆机制的卷积神经网络所形成的第二图像语义识别结果的融合,可以有效提
升图像语义识别结果的处理精确度。
对应的帧级别视频特征向量。具体地,将图像特征向量输入编码器,即输入编码器中的卷积
神经网络,通过卷积神经网络提取图像特征向量对应的帧级别视频特征向量,卷积神经网
络输出提取的帧级别视频特征向量,并作为编码器的输出,进而利用编码器输出的视频特
征向量执行相应的图像语义识别,或者,编码器中可以包含卷积神经网络和循环神经网络,
将图像特征向量输入编码器后,输出图像特征向量对应的携带有时序信息的帧级别视频特
征向量,如图5中的编码器所示。具体地,将图像特征向量输入编码器,即输入编码器中的卷
积神经网络(例如图5中的CNN神经网络),通过卷积神经网络提取图像特征向量对应的帧级
别视频特征向量,卷积神经网络输出提取的帧级别视频特征向量,输入到编码器中的循环
神经网络(对应图5中的hi-1、hi等结构),通过循环神经网络对提取的卷积神经网络特征向
量进行时序信息的提取与融合,循环神经网络输出携带有时序信息的视频特征向量,并作
为编码器的输出,进而利用编码器输出的视频特征向量执行相应的处理步骤。
模型中的HMM状态;a表示HMM模型中的转移概率,ak-1sk表示从sk-1状态变为sk-2状态的转移概
率;h表示DNN模型中的神经元;W表示DNN模型中的权值,M表示DNN模型的层数。h代表的是一
个函数,如果是第一层,则h的输入是一帧数据或几帧数据对应的各自权值;如果是第二层
至最后一层,则h的输入是上一层的输出和每一个输出所对应的权值。每一个DNN的输出对
应的是一个HMM模型状态的输出概率。每一个DNN的输出对应的是一个语音帧,通过图6所示
的处理过程能够实现形成与语音特征向量相匹配的语音语义识别结果。
层节点间的矩阵权重值和矩阵偏置值,优选的,所述信息处理装置可以基于上述方法提取
所述训练音频语料中每帧音频数据对应的训练Filter bank特征,并将所述训练Filter
bank特征与对应的后验概率特征作为训练样本对,则所述训练音频语料可以存在多个训练
样本对,基于所述多个训练样本对,并采用最大似然准则的后向传递算法计算DNN模型中输
出层节点间的矩阵权重值和矩阵偏置值。所述信息处理装置将所述矩阵权重值和所述矩阵
偏置值添加至所述DNN模型中,生成训练后的DNN模型,以封装在相应的软件模块中,或者,
固化在相应的硬件设备中,便于用户在无模型训练的情况下直接使用。
向量模型对于输入待识别视频的RGB图像特征向量和语音特征向量分别进行递归处理,并
采用注意力模型分别将递归处理后的图像特征向量合并在一起形成更长的向量、将语音特
征向量合并在一起形成更长的向量,并将两个合并后的向量再次合并在一起形成更长的向
量,最后采用两个全连接层将学到的分布式特征表示映射到对应的样本标记空间,以提高
最终分类结果的准确性,最后采用sigmoid分类器确定待识别视频对应各个标签的概率值,
以实现对所述图像语义识别结果和所述语音语义识别结果进行语义整合处理,形成与所述
目标视频相匹配的文本信息。
帧中各个局部特征所对应的权重参数,对每一帧视频图像帧中的局部特征进行特征整合处
理,得到每一帧视频图像帧的局部特征向量;根据每一帧视频图像帧的局部特征向量、以及
所述视频样本中图像的时序信息,对所述视频样本进行内容识别,得到所述目标视频的视
频内容信息,所述视频内容信息包括视频内容描述以及所述视频内容描述的词性信息;根
据所述视频内容信息以及所述视频样本的真实视频内容信息,更新所述图像语义识别网络
的参数。
的至少一帧音频数据;进行快速傅里叶变换,将所述至少一帧音频数据转换到频域,得到所
述至少一帧音频数据在频域上对应的至少一个功率谱数据;将频域上的至少一个功率谱数
据通过具有三角滤波特性的梅尔频率滤波器,得到至少一个梅尔功率频谱数据;对至少一
个梅尔功率频谱数据取对数能量,得到至少一个梅尔对数能量谱数据,此时所得到的至少
一个梅尔对数能量谱数据(即Filter bank特征),采用DCT去除至少一个梅尔对数能量谱数
据的数据相关性以得到MFCC特征,所述信息处理装置将所述MFCC特征作为DNN的输入向量,
以对DNN和HMM进行训练,并获取训练后的DNN输出的至少一个音素状态中每个音素状态的
似然概率特征,以及训练后的HMM的音素转换概率。可以理解的是,针对训练音频语料中的
同一帧音频数据的Filter bank特征与MFCC特征存在一一对应的关系。
应用户的不同需求。
量,全局词性向量特征即为各个词性组合的向量的特征。其中,词性是字、词、词组或单词的
一种属性,各种语言都会定义有多种词性。作为示例地,中文包括但不限于名词、动词、形容
词、量词、副词、介词等词性;英语包括但不限于noun(名词)、verb(动词)、gerund(动名词)、
adjective(形容词)、adverb(副词)、article(冠词)、preposition(介词)等词性;在其他语
言中,也可能包括其他类型的词性,在此不再赘述。而词性向量是相对于自然语言描述的句
子而言的,通常句子是由两个或多个词组成的,词性向量特征即为句子中的各个词的词性
特征的组合。
至区块链网络,以使所述区块链网络的节点将目标视频及对应的与所述目标视频相匹配的
文本信息所述填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链
的尾部。
务主体500,下面分别进行说明。
授权的情况下接入区块链网络200;以联盟链为例,业务主体在获得授权后其下辖的电子设
备(例如终端/服务器)可以接入区块链网络200,此时,成为区块链网络200中的客户端节
点。
识节点210的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选
择性(例如,取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务
处理逻辑最大程度迁移到区块链网络200中,通过区块链网络200实现数据和业务处理过程
的可信和可追溯。
410、以及归属于电子设备的系统500的客户端节点510)提交的交易,执行交易以更新账本
或者查询账本,执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显
示。
节点410/510,从而触发客户端节点410/510中相应的业务逻辑。
记注册获得各自的数字证书,数字证书中包括业务主体的公钥、以及认证中心300对业务主
体的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交
易中,并被发送到区块链网络,以供区块链网络从交易中取出数字证书和签名,验证消息的
可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络会根据身份进行
验证,例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运
行的客户端都可以向区块链网络200请求接入而成为客户端节点。
图像特征向量和语音特征向量;基于所述图像特征向量和所述语音特征向量,对所述目标
视频进行内容识别,得到与所述目标视频相匹配的文本信息,其中,所述文本信息用于通过
自然语言对所述目标视频的内容进行描述;输出与所述目标视频相匹配的文本信息并将目
标视频与相应的文本信息发送至区块链网络200。
信息自动发送至区块链网络200,也可以由业务主体400的业务人员在客户端节点410中登
录,手动打包目标视频与相应的文本信息,并将其发送至区块链网络200。在发送时,客户端
节点410根据目标视频与相应的文本信息生成对应更新操作的交易,在交易中指定了实现
更新操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点410
的数字证书、签署的数字签名(例如,使用客户端节点410的数字证书中的私钥,对交易的摘
要进行加密得到),并将交易广播到区块链网络200中的共识节点210。
是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成
功后签署节点210自己的数字签名(例如,使用节点210-1的私钥对交易的摘要进行加密得
到),并继续在区块链网络200中广播。
过程,如果共识成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更
新状态数据库,执行新区块中的交易:对于提交更新目标视频与相应的文本信息的交易,在
状态数据库中添加包括目标视频与相应的文本信息的键值对。
的交易,在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传
递的参数,交易还携带了客户端节点510的数字证书、签署的数字签名(例如,使用客户端节
点510的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络200
中的共识节点210。
态数据库,执行新区块中的交易:对于提交的更新某一目标视频对应的人工识别结果的交
易,根据人工识别结果更新状态数据库中该目标视频对应的键值对;对于提交的查询某个
目标视频的交易,从状态数据库中查询目标视频对应的键值对,并返回交易结果。
标视频的哈希以及相应的文本信息的哈希成对上链,将原始的目标视频以及相应的文本信
息存储于分布式文件系统或数据库。客户端节点510从分布式文件系统或数据库获取到目
标视频以及相应的文本信息后,可结合区块链网络200中对应的哈希进行校验,从而减少上
链操作的工作量。
区块中所有交易的哈希值,新产生的交易的记录被填充到区块并经过区块链网络中节点的
共识后,会被追加到区块链的尾部从而形成链式的增长,区块之间基于哈希值的链式结构
保证了区块中交易的防篡改和防伪造。
络层203、数据层204和资源层205,下面分别进行说明。
字签名、公/私钥对)实现节点210之间传输数据的可靠性;接入认证机制用于根据实际的业
务场景对加入区块链网络200的业务主体的身份进行认证,并在认证通过时赋予业务主体
接入区块链网络200的权限;业务主体身份管理用于存储允许接入区块链网络200的业务主
体的身份、以及权限(例如能够发起的交易的类型)。
法的可插拔。
关信息);对于获得接入区块链网络200的授权的业务主体而言,均拥有认证中心颁发的数
字证书,业务主体利用自己的数字证书中的私钥对提交的交易进行签名,从而声明自己的
合法身份。
当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询
结果。支持对状态数据库的多种维度的查询操作,包括:根据区块向量号(例如交易的哈希
值)查询区块;根据区块哈希值查询区块;根据交易向量号查询区块;根据交易向量号查询
交易;根据业务主体的账号(向量号)查询业务主体的账号数据;根据通道名称查询通道中
的区块链。
的过程中,通过视频分享内容并不是一种恰当的信息展示方式,相比而言,通过输出文本信
息的方式分享内容,阅读效率更高(例如一个烹饪教学视频,在实际烹饪操练过程中,观看
文字说明比观看视频效率明显更高),但是互联网中所获取的目标视频往往并不携带有对
应的文本信息。
息,并下载视频介质进行播放。文本展示服务接受用户的文本展示请求,根据请求中的视频
id,获取对应的文本信息存储地址以及文本展示控制信息,读取文本内容展示给用户。
频媒资存储服务用户存储视频的基本资料信息(如视频id、视频标题、视频播放地址、文本
读取地址);描述文本存储服务用于存储按照约定格式组织的视频文本信息(如帧区间对应
的文本信息)。
(MARN),包含视频编码模块、基于注意力机制的循环神经网络解码模块和基于记忆机制的
解码模块。通过记忆模块来建立每个词到多个相关视频的映射关系,以此能够每个词的多
重含义分别进行语义理解接与存储,从而生成内容更丰富,语义更准确的视频描述。语音识
别网络有基于HMM-DNN模型的ASR网络和基于BERT模型的NLP网络构成。通过ASR网络实现将
视频语音转换为文本,通过NLP网络实现对音频中的闲聊内容消除以及核心信息的提取。文
本融合网络负责将基于视频理解的文本描述与基于音频分析的文本描述进行融合,组织成
格式化的文本信息,上传存储服务进行存储。
包括以下步骤:
视频文本描述存储地址等);
视频下载地址等);
文字信息包括以下步骤:
特定场景下,支持用户任意选择视频或文本展示内容,优化用户体验,实现便捷的内容分
享。
与所述目标视频相匹配的文本信息,实现了及时准确的将视频信息内容转换为相应的自然
语言的文本进行输出,有效提升视频信息内容的分享速度,扩大了视频信息内容的分享场
景,解决了传统技术中无法通过机器处理实现利用自然语言对视频信息内容进行描述的问
题。
之内。