一种基于OCR的视频导图生成方法、装置、设备及存储介质转让专利
申请号 : CN202110478515.2
文献号 : CN112990142B
文献日 : 2021-08-10
发明人 : 许丹
申请人 : 平安科技(深圳)有限公司
摘要 :
权利要求 :
1.一种基于OCR的视频导图生成方法,其特征在于,包括下述步骤:响应携带有原始视频数据的导图生成请求;
对所述原始视频数据进行关键帧提取操作,得到携带有视频时间信息的关键帧数据;
基于OCR技术以及所述视频时间信息的顺序依次对所述关键帧数据进行文本识别操作,得到关键帧文本数据;
基于所述关键帧文本数据中记载的文本内容确认各个所述关键帧数据之间的关键帧对应关系;
基于所述关键帧对应关系建立所述关键帧数据之间的关联关系,得到目标视频导图;
输出所述目标视频导图;
所述基于所述关键帧文本数据中记载的文本内容确认各个所述关键帧数据之间的关键帧对应关系的步骤,具体包括:判断首个所述关键帧文本数据是否存在同类编号格式;
若首个所述关键帧文本数据不存在同类编号格式,则判断下一个所述关键帧文本数据是否存在同类编号格式;
若首个所述关键帧文本数据存在同类编号格式,则将所述同类编号格式确定为一级关联关系,并将与所述同类编号格式内容相对应的其他所述关键帧文本数据确定为同级关联关系;
当完成对最后一个所述关键帧文本数据的判断操作后,得到所述关键帧对应关系;
所述将所述同类编号格式确定为一级关联关系,并将与所述同类编号格式内容相对应的其他所述关键帧文本数据确定为同级关联关系的步骤,具体包括:分别将所述其他关键帧文本数据输入至语义分析模型进行词义识别操作,得到真实词义信息;
判断所述真实词义信息与所述同类编号格式内容是否相同;
若所述真实词义信息与所述同类编号格式内容相同,则确认当前关键帧文本数据与所述首个关键帧文本数据存在关联关系;
若所述真实词义信息与所述同类编号格式内容不相同,则确认当前关键帧文本数据与所述首个关键帧文本数据不存在关联关系。
2.根据权利要求1所述的基于OCR的视频导图生成方法,其特征在于,所述对所述原始视频数据进行关键帧提取操作,得到携带有视频时间信息的关键帧数据的步骤,具体包括:对所述原始视频数据进行视频帧提取操作,得到视频帧数据;
对所述视频帧数据进行截屏采样操作,得到视频图片序列;
对所述视频图片序列进行相似度比较并过滤相同图片,得到所述关键帧数据。
3.根据权利要求2所述的基于OCR的视频导图生成方法,其特征在于,所述对所述视频图片序列进行相似度比较并过滤相同图片,得到所述关键帧数据的步骤,具体包括:依次对所述图片序列的相邻两张图片进行相似度比较操作,得到图片相似度;
判断所述图片相似度是否满足预设的相似度阈值;
若所述图片相似度满足预设的相似度阈值,则确认所述相邻两张图片画面相同;
若所述图片相似度不满足预设的相似度阈值,则确认所述相邻两张图片画面不相同,并将所述相邻两张图片的末置图片作为所述关键帧数据。
4.根据权利要求1所述的基于OCR的视频导图生成方法,其特征在于,在所述响应携带有原始视频数据的导图生成请求的步骤之后,还包括:将所述原始视频数据存储至区块链中。
5.一种基于OCR的视频导图生成装置,其特征在于,包括:请求响应模块,用于响应携带有原始视频数据的导图生成请求;
关键帧提取模块,用于对所述原始视频数据进行关键帧提取操作,得到携带有视频时间信息的关键帧数据;
文本识别模块,用于基于OCR技术以及所述视频时间信息的顺序依次对所述关键帧数据进行文本识别操作,得到关键帧文本数据;
对应关系获取模块,用于基于所述关键帧文本数据中记载的文本内容确认各个所述关键帧数据之间的关键帧对应关系;
导图获取模块,用于基于所述关键帧对应关系建立所述关键帧数据之间的关联关系,得到目标视频导图;
导图输出模块,用于输出所述目标视频导图;
所述对应关系获取模块包括:
同类编号判断子模块,用于判断首个所述关键帧文本数据是否存在同类编号格式;
不存在子模块,用于若首个所述关键帧文本数据不存在同类编号格式,则判断下一个所述关键帧文本数据是否存在同类编号格式;
存在子模块,用于若首个所述关键帧文本数据存在同类编号格式,则将所述同类编号格式确定为一级关联关系,并将与所述同类编号格式内容相对应的其他所述关键帧文本数据确定为同级关联关系;
对应关系获取子模块,用于当完成对最后一个所述关键帧文本数据的判断操作后,得到所述关键帧对应关系;
所述存在子模块,具体包括:
词义识别单元,用于分别将所述其他关键帧文本数据输入至语义分析模型进行词义识别操作,得到真实词义信息;
词义判断单元,用于判断所述真实词义信息与所述同类编号格式内容是否相同;
词义相同单元,用于若所述真实词义信息与所述同类编号格式内容相同,则确认当前关键帧文本数据与所述首个关键帧文本数据存在关联关系;
词义不同单元,用于若所述真实词义信息与所述同类编号格式内容不相同,则确认当前关键帧文本数据与所述首个关键帧文本数据不存在关联关系。
6.根据权利要求5所述的基于OCR的视频导图生成装置,其特征在于,所述关键帧提取模块包括:
视频帧提取子模块,用于对所述原始视频数据进行视频帧提取操作,得到视频帧数据;
截屏采样子模块,用于对所述视频帧数据进行截屏采样操作,得到视频图片序列;
关键帧提取子模块,用于对所述视频图片序列进行相似度比较并过滤相同图片,得到所述关键帧数据。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至4中任一项所述的基于OCR的视频导图生成方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的基于OCR的视频导图生成方法的步骤。
说明书 :
一种基于OCR的视频导图生成方法、装置、设备及存储介质
技术领域
背景技术
好的学习体验。在教学视频的基础上,利用思维导图学习该教学视频更是一种方便有效的
学习方法,其具有方便记忆、擅长理清思路和捕捉跳跃思考的优势。以思维导图作为学习输
出是加强课程理解的一种有效手段。
和捕捉跳跃思考的能力,进而降低用户学习的效率。
发明内容
帧数据;基于OCR(Optical Character Recognition,光学字符识别)技术以及所述视频时
间信息的顺序依次对所述关键帧帧数据进行文本识别操作,得到关键帧文本数据;基于所
述关键帧文本数据中记载的文本内容确认各个所述关键帧数据之间的关键帧对应关系;基
于所述关键帧对应关系建立所述关键帧数据之间的关联关系,得到目标视频导图;输出所
述目标视频导图。通过原始视频数据的视频时间信息依次获取前后两张画面不完全相同的
关键帧数据,利用光学字符识别(Optical Character Recognition,OCR)技术提取关键帧
数据的关键帧文本数据,并基于关键帧文本数据获知各个关键帧数据之间的关联关系,最
后基于该关联关系对关键帧数据进行拼接操作,得到与该原始视频数据相对应的目标视频
导图,由于该关键帧数据之间的关联关系是基于关键帧文本数据进行分析得到的,使得该
关联关系可以有效帮助学习用户快速获知不同知识内容的关联性,有效提高用户记忆、理
清思路和捕捉跳跃思考的能力,进而提高用户学习的效率。
附图说明
普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明
中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说
明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用
于描述特定顺序。
的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和
隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
的准确性;当然,该原始视频数据还可以是其他复杂的视频内容等,应当理解,此处对原始
视频数据的举例仅为方便理解,不用于限定本申请。
电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机
等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本申请。
际应用中,可运用余弦相似度或哈希算法衡量该图片的相似度。
键帧,并存储其出现时对应的时间。将所有关键帧(key frame)及其对应的时间记为
。
似度的相似度阈值,以减少重复画面帧的出现,使得关键帧提取操作提取到的关键帧数据
更加精简。
状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学
的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文
字转换成文本格式,供文字处理软件进一步编辑加工的技术。
帧文本数据。
应的位置数据。文本及位置信息维持不变到 ,直到下一个关键帧出现。
对应关系的举例仅为方便理解,不用于限定本申请。
是否存在同类编号格式;若首个关键帧文本数据存在同类编号格式,则将同类编号格式确
定为一级关联关系,并将与同类编号格式内容相对应的其他关键帧文本数据确定为同级关
联关系;当完成对最后一个关键帧文本数据的判断操作后,得到关键帧对应关系。
视频导图。
导图编辑窗口。此标签同时存储触发时间信息。用户在web端的思维导图编辑器中编辑思维
导图。完成编辑后思维导图文件保存在web端同时可以以pdf形式下载。用户在学习过程中
或者下一次点开同一个视频时,可通过点击标签找回视频位置进行复习。完成的思维导图
可以分享,成为一种新形式的UGC。
间信息的关键帧数据;基于OCR技术以及视频时间信息的顺序依次对关键帧帧数据进行文
本识别操作,得到关键帧文本数据;基于关键帧文本数据中记载的文本内容确认各个关键
帧数据之间的关键帧对应关系;基于关键帧对应关系建立关键帧数据之间的关联关系,得
到目标视频导图;输出目标视频导图。通过原始视频数据的视频时间信息依次获取前后两
张画面不完全相同的关键帧数据,利用光学字符识别(Optical Character Recognition,
OCR)技术提取关键帧数据的关键帧文本数据,并基于关键帧文本数据获知各个关键帧数据
之间的关联关系,最后基于该关联关系对关键帧数据进行拼接操作,得到与该原始视频数
据相对应的目标视频导图,由于该关键帧数据之间的关联关系是基于关键帧文本数据进行
分析得到的,使得该关联关系可以有效帮助学习用户快速获知不同知识内容的关联性,有
效提高用户记忆、理清思路和捕捉跳跃思考的能力,进而提高用户学习的效率。
流提取视频帧的方法进行实现,也可以通过其他本领域惯用的技术手段进行实现,应当理
解的是,此处对视频帧提取操作的举例仅为方便理解,不用于限定本申请。
键帧,并存储其出现时对应的时间。将所有关键帧(key frame)及其对应的时间记为
。
为示例,例如文字段落的项目符号、编号、多级列表等等,基于该不同的编号格式,则可以快
速获取不同的视频帧之间的关联关系。
维导图。
系。
关键帧对应关系的效率。
区分则会确认为同一级别的关系,从而导致后续关键帧对应关系出现混乱现象,进而影响
目标视频导图的准确性。
频导图的准确性。
时间信息的关键帧数据;基于OCR技术以及所述视频时间信息的顺序依次对所述关键帧帧
数据进行文本识别操作,得到关键帧文本数据;基于所述关键帧文本数据中记载的文本内
容确认各个所述关键帧数据之间的关键帧对应关系;基于所述关键帧对应关系建立所述关
键帧数据之间的关联关系,得到目标视频导图;输出所述目标视频导图。通过原始视频数据
的视频时间信息依次获取前后两张画面不完全相同的关键帧数据,利用光学字符识别
(Optical Character Recognition,OCR)技术提取关键帧数据的关键帧文本数据,并基于
关键帧文本数据获知各个关键帧数据之间的关联关系,最后基于该关联关系对关键帧数据
进行拼接操作,得到与该原始视频数据相对应的目标视频导图,由于该关键帧数据之间的
关联关系是基于关键帧文本数据进行分析得到的,使得该关联关系可以有效帮助学习用户
快速获知不同知识内容的关联性,有效提高用户记忆、理清思路和捕捉跳跃思考的能力,进
而提高用户学习的效率。同时,通过逐帧筛选关键帧文本数据中的编号格式,能够快速获取
各个视频帧在整个教习视频资料中的导图结构位置,进而提高获取各个所述关键帧数据的
关键帧对应关系的效率;通过分析关键帧文本数据中文本内容的真实含义,以进一步确认
不同关键帧数据的关联关系,有效避免出现关键帧对应关系混乱的现象,提高目标视频导
图的准确性。
密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验
证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品
服务层以及应用服务层等。
顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备
的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中
描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例
程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布
式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境
中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,
前述的存储介质可为磁碟、光盘、只读存储记忆体(Read‑Only Memory,ROM)等非易失性存
储介质,或随机存储记忆体(Random Access Memory,RAM)等。
的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一
部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻
执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他
步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
可以应用于各种电子设备中。
输出模块160。其中:
的准确性;当然,该原始视频数据还可以是其他复杂的视频内容等,应当理解,此处对原始
视频数据的举例仅为方便理解,不用于限定本申请。
电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机
等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本申请。
际应用中,可运用余弦相似度或哈希算法衡量该图片的相似度。
键帧,并存储其出现时对应的时间。将所有关键帧(key frame)及其对应的时间记为
。
似度的相似度阈值,以减少重复画面帧的出现,使得关键帧提取操作提取到的关键帧数据
更加精简。
状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学
的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文
字转换成文本格式,供文字处理软件进一步编辑加工的技术。
帧文本数据。
应的位置数据。文本及位置信息维持不变到 ,直到下一个关键帧出现。
对应关系的举例仅为方便理解,不用于限定本申请。
是否存在同类编号格式;若首个关键帧文本数据存在同类编号格式,则将同类编号格式确
定为一级关联关系,并将与同类编号格式内容相对应的其他关键帧文本数据确定为同级关
联关系;当完成对最后一个关键帧文本数据的判断操作后,得到关键帧对应关系。
视频导图。
导图编辑窗口。此标签同时存储触发时间信息。用户在web端的思维导图编辑器中编辑思维
导图。完成编辑后思维导图文件保存在web端同时可以以pdf形式下载。用户在学习过程中
或者下一次点开同一个视频时,可通过点击标签找回视频位置进行复习。完成的思维导图
可以分享,成为一种新形式的UGC。
(Optical Character Recognition,OCR)技术提取关键帧数据的关键帧文本数据,并基于
关键帧文本数据获知各个关键帧数据之间的关联关系,最后基于该关联关系对关键帧数据
进行拼接操作,得到与该原始视频数据相对应的目标视频导图,由于该关键帧数据之间的
关联关系是基于关键帧文本数据进行分析得到的,使得该关联关系可以有效帮助学习用户
快速获知不同知识内容的关联性,有效提高用户记忆、理清思路和捕捉跳跃思考的能力,进
而提高用户学习的效率。
流提取视频帧的方法进行实现,也可以通过其他本领域惯用的技术手段进行实现,应当理
解的是,此处对视频帧提取操作的举例仅为方便理解,不用于限定本申请。
键帧,并存储其出现时对应的时间。将所有关键帧(key frame)及其对应的时间记为
。
本数据确定为同级关联关系;
(Optical Character Recognition,OCR)技术提取关键帧数据的关键帧文本数据,并基于
关键帧文本数据获知各个关键帧数据之间的关联关系,最后基于该关联关系对关键帧数据
进行拼接操作,得到与该原始视频数据相对应的目标视频导图,由于该关键帧数据之间的
关联关系是基于关键帧文本数据进行分析得到的,使得该关联关系可以有效帮助学习用户
快速获知不同知识内容的关联性,有效提高用户记忆、理清思路和捕捉跳跃思考的能力,进
而提高用户学习的效率。同时,通过逐帧筛选关键帧文本数据中的编号格式,能够快速获取
各个视频帧在整个教习视频资料中的导图结构位置,进而提高获取各个所述关键帧数据的
关键帧对应关系的效率;通过分析关键帧文本数据中文本内容的真实含义,以进一步确认
不同关键帧数据的关联关系,有效避免出现关键帧对应关系混乱的现象,提高目标视频导
图的准确性。
是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领
域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进
行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路
(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-
Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入
式设备等。
机交互。
问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存
储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器210可以是所述计算
机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述
存储器210也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的
插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,
闪存卡(Flash Card)等。当然,所述存储器210还可以既包括所述计算机设备200的内部存
储单元也包括其外部存储设备。本实施例中,所述存储器210通常用于存储安装于所述计算
机设备200的操作系统和各类应用软件,例如基于OCR的视频导图生成方法的计算机可读指
令等。此外,所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。
计算机设备200的总体操作。本实施例中,所述处理器220用于运行所述存储器210中存储的
计算机可读指令或者处理数据,例如运行所述基于OCR的视频导图生成方法的计算机可读
指令。
OCR)技术提取关键帧数据的关键帧文本数据,并基于关键帧文本数据获知各个关键帧数据
之间的关联关系,最后基于该关联关系对关键帧数据进行拼接操作,得到与该原始视频数
据相对应的目标视频导图,由于该关键帧数据之间的关联关系是基于关键帧文本数据进行
分析得到的,使得该关联关系可以有效帮助学习用户快速获知不同知识内容的关联性,有
效提高用户记忆、理清思路和捕捉跳跃思考的能力,进而提高用户学习的效率。
使所述至少一个处理器执行如上述的基于OCR的视频导图生成方法的步骤。
Recognition,OCR)技术提取关键帧数据的关键帧文本数据,并基于关键帧文本数据获知各
个关键帧数据之间的关联关系,最后基于该关联关系对关键帧数据进行拼接操作,得到与
该原始视频数据相对应的目标视频导图,由于该关键帧数据之间的关联关系是基于关键帧
文本数据进行分析得到的,使得该关联关系可以有效帮助学习用户快速获知不同知识内容
的关联性,有效提高用户记忆、理清思路和捕捉跳跃思考的能力,进而提高用户学习的效
率。
前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做
出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质
(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服
务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻
全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其
依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进
行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他
相关的技术领域,均同理在本申请专利保护范围之内。