一种基于OCR的视频导图生成方法、装置、设备及存储介质转让专利

申请号 : CN202110478515.2

文献号 : CN112990142B

文献日 : 2021-08-10

本申请实施例属于人工智能中的图像处理技术领域，涉及一种基于OCR的视频导图生成方法。本申请还提供一种基于OCR的视频导图生成装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，用户的原始视频数据可存储于区块链中。本申请由于该关键帧数据之间的关联关系是基于关键帧文本数据进行分析得到的，使得该关联关系可以有效帮助学习用户快速获知不同知识内容的关联性，有效提高用户记忆、理清思路和捕捉跳跃思考的能力，进而提高用户学习的效率。

1.一种基于OCR的视频导图生成方法，其特征在于，包括下述步骤：响应携带有原始视频数据的导图生成请求；

对所述原始视频数据进行关键帧提取操作，得到携带有视频时间信息的关键帧数据；

基于OCR技术以及所述视频时间信息的顺序依次对所述关键帧数据进行文本识别操作，得到关键帧文本数据；

基于所述关键帧文本数据中记载的文本内容确认各个所述关键帧数据之间的关键帧对应关系；

基于所述关键帧对应关系建立所述关键帧数据之间的关联关系，得到目标视频导图；

输出所述目标视频导图；

所述基于所述关键帧文本数据中记载的文本内容确认各个所述关键帧数据之间的关键帧对应关系的步骤，具体包括：判断首个所述关键帧文本数据是否存在同类编号格式；

若首个所述关键帧文本数据不存在同类编号格式，则判断下一个所述关键帧文本数据是否存在同类编号格式；

若首个所述关键帧文本数据存在同类编号格式，则将所述同类编号格式确定为一级关联关系，并将与所述同类编号格式内容相对应的其他所述关键帧文本数据确定为同级关联关系；

当完成对最后一个所述关键帧文本数据的判断操作后，得到所述关键帧对应关系；

所述将所述同类编号格式确定为一级关联关系，并将与所述同类编号格式内容相对应的其他所述关键帧文本数据确定为同级关联关系的步骤，具体包括：分别将所述其他关键帧文本数据输入至语义分析模型进行词义识别操作，得到真实词义信息；

判断所述真实词义信息与所述同类编号格式内容是否相同；

若所述真实词义信息与所述同类编号格式内容相同，则确认当前关键帧文本数据与所述首个关键帧文本数据存在关联关系；

若所述真实词义信息与所述同类编号格式内容不相同，则确认当前关键帧文本数据与所述首个关键帧文本数据不存在关联关系。

2.根据权利要求1所述的基于OCR的视频导图生成方法，其特征在于，所述对所述原始视频数据进行关键帧提取操作，得到携带有视频时间信息的关键帧数据的步骤，具体包括：对所述原始视频数据进行视频帧提取操作，得到视频帧数据；

对所述视频帧数据进行截屏采样操作，得到视频图片序列；

对所述视频图片序列进行相似度比较并过滤相同图片，得到所述关键帧数据。

3.根据权利要求2所述的基于OCR的视频导图生成方法，其特征在于，所述对所述视频图片序列进行相似度比较并过滤相同图片，得到所述关键帧数据的步骤，具体包括：依次对所述图片序列的相邻两张图片进行相似度比较操作，得到图片相似度；

判断所述图片相似度是否满足预设的相似度阈值；

若所述图片相似度满足预设的相似度阈值，则确认所述相邻两张图片画面相同；

若所述图片相似度不满足预设的相似度阈值，则确认所述相邻两张图片画面不相同，并将所述相邻两张图片的末置图片作为所述关键帧数据。

4.根据权利要求1所述的基于OCR的视频导图生成方法，其特征在于，在所述响应携带有原始视频数据的导图生成请求的步骤之后，还包括：将所述原始视频数据存储至区块链中。

5.一种基于OCR的视频导图生成装置，其特征在于，包括：请求响应模块，用于响应携带有原始视频数据的导图生成请求；

关键帧提取模块，用于对所述原始视频数据进行关键帧提取操作，得到携带有视频时间信息的关键帧数据；

文本识别模块，用于基于OCR技术以及所述视频时间信息的顺序依次对所述关键帧数据进行文本识别操作，得到关键帧文本数据；

对应关系获取模块，用于基于所述关键帧文本数据中记载的文本内容确认各个所述关键帧数据之间的关键帧对应关系；

导图获取模块，用于基于所述关键帧对应关系建立所述关键帧数据之间的关联关系，得到目标视频导图；

导图输出模块，用于输出所述目标视频导图；

所述对应关系获取模块包括：

同类编号判断子模块，用于判断首个所述关键帧文本数据是否存在同类编号格式；

不存在子模块，用于若首个所述关键帧文本数据不存在同类编号格式，则判断下一个所述关键帧文本数据是否存在同类编号格式；

存在子模块，用于若首个所述关键帧文本数据存在同类编号格式，则将所述同类编号格式确定为一级关联关系，并将与所述同类编号格式内容相对应的其他所述关键帧文本数据确定为同级关联关系；

对应关系获取子模块，用于当完成对最后一个所述关键帧文本数据的判断操作后，得到所述关键帧对应关系；

所述存在子模块，具体包括：

词义识别单元，用于分别将所述其他关键帧文本数据输入至语义分析模型进行词义识别操作，得到真实词义信息；

词义判断单元，用于判断所述真实词义信息与所述同类编号格式内容是否相同；

词义相同单元，用于若所述真实词义信息与所述同类编号格式内容相同，则确认当前关键帧文本数据与所述首个关键帧文本数据存在关联关系；

词义不同单元，用于若所述真实词义信息与所述同类编号格式内容不相同，则确认当前关键帧文本数据与所述首个关键帧文本数据不存在关联关系。

6.根据权利要求5所述的基于OCR的视频导图生成装置，其特征在于，所述关键帧提取模块包括：

视频帧提取子模块，用于对所述原始视频数据进行视频帧提取操作，得到视频帧数据；

截屏采样子模块，用于对所述视频帧数据进行截屏采样操作，得到视频图片序列；

关键帧提取子模块，用于对所述视频图片序列进行相似度比较并过滤相同图片，得到所述关键帧数据。

7.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至4中任一项所述的基于OCR的视频导图生成方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的基于OCR的视频导图生成方法的步骤。

一种基于OCR的视频导图生成方法、装置、设备及存储介质

技术领域

[0001] 本申请涉及人工智能中的图像处理技术领域，尤其涉及一种基于OCR的视频导图生成方法、装置、计算机设备及存储介质。

背景技术

[0002] 教学视频在某些领域，尤其企业培训中，已经逐渐变为和文字教材同等重要的学习媒介。视频相较文本让学生在学习时借助的感官更多，使学生获得更浓的学习兴趣，和更
好的学习体验。在教学视频的基础上，利用思维导图学习该教学视频更是一种方便有效的
学习方法，其具有方便记忆、擅长理清思路和捕捉跳跃思考的优势。以思维导图作为学习输
出是加强课程理解的一种有效手段。

[0003] 现有一种视频导图生成方法，通过截取原始视频的视频图像，并将该视频图像按照视频播放时间进行排序，得到一连串视频图像序列，从而视线视频导图的生成目的。

[0004] 然而，传统的视频导图生成方法普遍不智能，仅仅依靠视频播放时间来建立不同视频图像的关联关系，导致不同视频图像之间的关联性较弱，从而弱化用户记忆、理清思路
和捕捉跳跃思考的能力，进而降低用户学习的效率。

发明内容

[0005] 本申请实施例的目的在于提出一种基于OCR的视频导图生成方法、装置、计算机设备及存储介质，以解决传统的视频导图生成方法降低用户学习效率的问题。

[0006] 为了解决上述技术问题，本申请实施例提供一种基于OCR的视频导图生成方法，采用了如下所述的技术方案：

[0007] 响应携带有原始视频数据的导图生成请求；

[0008] 对所述原始视频数据进行关键帧提取操作，得到携带有视频时间信息的关键帧数据；

[0009] 基于OCR技术以及所述视频时间信息的顺序依次对所述关键帧帧数据进行文本识别操作，得到关键帧文本数据；

[0010] 基于所述关键帧文本数据中记载的文本内容确认各个所述关键帧数据之间的关键帧对应关系；

[0011] 基于所述关键帧对应关系建立所述关键帧数据之间的关联关系，得到目标视频导图；

[0012] 输出所述目标视频导图。

[0013] 为了解决上述技术问题，本申请实施例还提供一种基于OCR的视频导图生成装置，采用了如下所述的技术方案：

[0014] 请求响应模块，用于响应携带有原始视频数据的导图生成请求；

[0015] 关键帧提取模块，用于对所述原始视频数据进行关键帧提取操作，得到携带有视频时间信息的关键帧数据；

[0016] 文本识别模块，用于基于OCR技术以及所述视频时间信息的顺序依次对所述关键帧帧数据进行文本识别操作，得到关键帧文本数据；

[0017] 对应关系获取模块，用于基于所述关键帧文本数据中记载的文本内容确认各个所述关键帧数据之间的关键帧对应关系；

[0018] 导图获取模块，用于基于所述关键帧对应关系建立所述关键帧数据之间的关联关系，得到目标视频导图；

[0019] 导图输出模块，用于输出所述目标视频导图。

[0020] 为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

[0021] 包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的基于OCR的视频导图生成方法的步骤。

[0022] 为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

[0023] 所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的基于OCR的视频导图生成方法的步骤。

[0024] 与现有技术相比，本申请实施例主要有以下有益效果：

[0025] 本申请提供的基于OCR的视频导图生成方法，包括：响应携带有原始视频数据的导图生成请求；对所述原始视频数据进行关键帧提取操作，得到携带有视频时间信息的关键
帧数据；基于OCR（Optical Character Recognition，光学字符识别）技术以及所述视频时
间信息的顺序依次对所述关键帧帧数据进行文本识别操作，得到关键帧文本数据；基于所
述关键帧文本数据中记载的文本内容确认各个所述关键帧数据之间的关键帧对应关系；基
于所述关键帧对应关系建立所述关键帧数据之间的关联关系，得到目标视频导图；输出所
述目标视频导图。通过原始视频数据的视频时间信息依次获取前后两张画面不完全相同的
关键帧数据，利用光学字符识别（Optical Character Recognition，OCR）技术提取关键帧
数据的关键帧文本数据，并基于关键帧文本数据获知各个关键帧数据之间的关联关系，最
后基于该关联关系对关键帧数据进行拼接操作，得到与该原始视频数据相对应的目标视频
导图，由于该关键帧数据之间的关联关系是基于关键帧文本数据进行分析得到的，使得该
关联关系可以有效帮助学习用户快速获知不同知识内容的关联性，有效提高用户记忆、理
清思路和捕捉跳跃思考的能力，进而提高用户学习的效率。

附图说明

[0026] 为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域
普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0027] 图1是本申请实施例一提供的基于OCR的视频导图生成方法的实现流程图；

[0028] 图2是图1中步骤S102的实现流程图；

[0029] 图3是图2中步骤S203的实现流程图；

[0030] 图4是图1中步骤S104的实现流程图；

[0031] 图5是图4中步骤S403的实现流程图；

[0032] 图6是本申请实施例二提供的基于OCR的视频导图生成装置的结构示意图；

[0033] 图7是图6中关键帧提取模块120的结构示意图；

[0034] 图8是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

[0035] 除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体
的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明
中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说
明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用
于描述特定顺序。

[0036] 在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同
的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和
隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

[0037] 为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

[0038] 如图1所示，示出了本申请实施例一提供的基于OCR的视频导图生成方法的实现流程图，为了便于说明，仅示出与本申请相关的部分。

[0039] 上述的基于OCR的视频导图生成方法，包括以下步骤：

[0040] 步骤S101、步骤S102、步骤S103、步骤S104、步骤S105以及步骤S106。

[0041] 步骤S101：响应携带有原始视频数据的导图生成请求。

[0042] 在本申请实施例中，原始视频数据指的是用户所需要学习或者归纳的视频对象，该原始视频数据通常是以PPT等较为简洁的视频内容，以提高后续视频帧提取以及OCR识别
的准确性；当然，该原始视频数据还可以是其他复杂的视频内容等，应当理解，此处对原始
视频数据的举例仅为方便理解，不用于限定本申请。

[0043] 在本申请实施例中，用户可通过用户终端发送该导图生成请求，该用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板
电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机
等等的固定终端，应当理解，此处对用户终端的举例仅为方便理解，不用于限定本申请。

[0044] 步骤S102：对原始视频数据进行关键帧提取操作，得到携带有视频时间信息的关键帧数据。

[0045] 在本申请实施例中，关键帧提取操作主要用于筛选重复的视频帧，该关键帧提取操作可以通过比对相两张图片的图片相似度来确认是否重复，进而提取关键帧数据。在实
际应用中，可运用余弦相似度或哈希算法衡量该图片的相似度。

[0046] 在本申请实施例中，以原始视频数据为PPT画面为例，由于PPT画面在翻页前均为静止画面，只要出现前后两张画面不完全相同则可判断PPT翻页，即可提取后一张图片为关
键帧，并存储其出现时对应的时间。将所有关键帧(key frame)及其对应的时间记为
。

[0047] 在本申请实施例中，当原始视频数据的内容中出现过多老师对PPT讲解的标注时，会导致关键帧数据过多的情况，在实际应用中可以通过放宽上述关键帧提取操作中图片相
似度的相似度阈值，以减少重复画面帧的出现，使得关键帧提取操作提取到的关键帧数据
更加精简。

[0048] 步骤S103：基于OCR技术以及视频时间信息的顺序依次对关键帧帧数据进行文本识别操作，得到关键帧文本数据。

[0049] 在本申请实施例中，OCR（Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形
状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学
的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文
字转换成文本格式，供文字处理软件进一步编辑加工的技术。

[0050] 在本申请实施例中，文本识别操作主要基于上述OCR技术依次获取上述各个关键帧的视频内容文字信息，并基于该关键帧对应的视频时间顺序进行排序后，得到上述关键
帧文本数据。

[0051] 在本申请实施例中，在每个关键帧时间点上，使用光学字符识别（Optical Character Recognition，OCR）技术获取每一页PPT中的每一条文本（Key Points）和文本对
应的位置数据。文本及位置信息维持不变到，直到下一个关键帧出现。

[0052] 步骤S104：基于关键帧文本数据中记载的文本内容确认各个关键帧数据之间的关键帧对应关系。

[0053] 在本申请实施例中关键帧对应关系主要用于表示不同关键帧数据之间存在的关联关系，该关联关系可以是上下级关系、同级关系、包含关系等等，应当理解，此处对关键帧
对应关系的举例仅为方便理解，不用于限定本申请。

[0054] 在本申请实施例中，关键帧对应关系可通过判断首个关键帧文本数据是否存在同类编号格式；若首个关键帧文本数据不存在同类编号格式，则判断下一个关键帧文本数据
是否存在同类编号格式；若首个关键帧文本数据存在同类编号格式，则将同类编号格式确
定为一级关联关系，并将与同类编号格式内容相对应的其他关键帧文本数据确定为同级关
联关系；当完成对最后一个关键帧文本数据的判断操作后，得到关键帧对应关系。

[0055] 步骤S105：基于关键帧对应关系建立关键帧数据之间的关联关系，得到目标视频导图。

[0056] 在本申请实施例中，由于关键帧对应关系表示有不同关键帧数据之间存在的关联关系，基于该关联关系以及思维导图的构建方式，建立上述关键帧数据的思维导图，即目标
视频导图。

[0057] 步骤S106：输出目标视频导图。

[0058] 在本申请的一些可选实施例中，视频播放过程中，用户将鼠标移至任意文本上双击时，触发Key Point截取功能，此位置上的文本内容将会作为一个标签进入到web端思维
导图编辑窗口。此标签同时存储触发时间信息。用户在web端的思维导图编辑器中编辑思维
导图。完成编辑后思维导图文件保存在web端同时可以以pdf形式下载。用户在学习过程中
或者下一次点开同一个视频时，可通过点击标签找回视频位置进行复习。完成的思维导图
可以分享，成为一种新形式的UGC。

[0059] 在本申请实施例中，提供了一种基于OCR的视频导图生成方法，包括：响应携带有原始视频数据的导图生成请求；对原始视频数据进行关键帧提取操作，得到携带有视频时
间信息的关键帧数据；基于OCR技术以及视频时间信息的顺序依次对关键帧帧数据进行文
本识别操作，得到关键帧文本数据；基于关键帧文本数据中记载的文本内容确认各个关键
帧数据之间的关键帧对应关系；基于关键帧对应关系建立关键帧数据之间的关联关系，得
到目标视频导图；输出目标视频导图。通过原始视频数据的视频时间信息依次获取前后两
张画面不完全相同的关键帧数据，利用光学字符识别（Optical Character Recognition，
OCR）技术提取关键帧数据的关键帧文本数据，并基于关键帧文本数据获知各个关键帧数据
之间的关联关系，最后基于该关联关系对关键帧数据进行拼接操作，得到与该原始视频数
据相对应的目标视频导图，由于该关键帧数据之间的关联关系是基于关键帧文本数据进行
分析得到的，使得该关联关系可以有效帮助学习用户快速获知不同知识内容的关联性，有
效提高用户记忆、理清思路和捕捉跳跃思考的能力，进而提高用户学习的效率。

[0060] 继续参阅图2，示出了图1中步骤S102的实现流程图，为了便于说明，仅示出与本申请相关的部分。

[0061] 在本实施例的一些可选的实现方式中，步骤S102具体包括：步骤S201、步骤S202以及步骤S203。

[0062] 步骤S201：对原始视频数据进行视频帧提取操作，得到视频帧数据。

[0063] 在本申请实施例中，视频帧提取操作主要作用是将上述原始视频数据逐帧提取成为一张张单独的照片，即视频帧数据。该视频帧提取操作可以通过现有的python读取视频
流提取视频帧的方法进行实现，也可以通过其他本领域惯用的技术手段进行实现，应当理
解的是，此处对视频帧提取操作的举例仅为方便理解，不用于限定本申请。

[0064] 步骤S202：对视频帧数据进行截屏采样操作，得到视频图片序列。

[0065] 步骤S203：对视频图片序列进行相似度比较并过滤相同图片，得到关键帧数据。

[0066] 在本申请实施例中，可运用余弦相似度或哈希算法对上述视频图片序列进行相似度比较。

[0067] 在本申请实施例中，以原始视频数据为PPT画面为例，由于PPT画面在翻页前均为静止画面，只要出现前后两张画面不完全相同则可判断PPT翻页，即可提取后一张图片为关
键帧，并存储其出现时对应的时间。将所有关键帧(key frame)及其对应的时间记为
。

[0068] 继续参阅图3，示出了图2中步骤S203的实现流程图，为了便于说明，仅示出与本申请相关的部分。

[0069] 在本实施例的一些可选的实现方式中，步骤S203具体包括：步骤S301、步骤S302、步骤S303以及步骤S304。

[0070] 步骤S301：依次对图片序列的相邻两张图片进行相似度比较操作，得到图片相似度。

[0071] 步骤S302：判断图片相似度是否满足预设的相似度阈值。

[0072] 在本申请实施例中，相似度阈值主要用于唯一确定两张相比较的图片是否相同。

[0073] 步骤S303：若图片相似度满足预设的相似度阈值，则确认相邻两张图片画面相同。

[0074] 步骤S304：若图片相似度不满足预设的相似度阈值，则确认相邻两张图片画面不相同，并将相邻两张图片的末置图片作为关键帧数据。

[0075] 继续参阅图4，示出了图1中步骤S104的实现流程图，为了便于说明，仅示出与本申请相关的部分。

[0076] 在本实施例的一些可选的实现方式中，步骤S104具体包括：步骤S401、步骤S402、步骤S403以及步骤S404。

[0077] 步骤S401：判断首个关键帧文本数据是否存在同类编号格式。

[0078] 在本申请实施例中，由于教学视频的视频内容通常都是通过结构化的形式进行展示，而视频内容中的文字部分，则会基于其内容本身的层级关系通过编号格式进行区分，作
为示例，例如文字段落的项目符号、编号、多级列表等等，基于该不同的编号格式，则可以快
速获取不同的视频帧之间的关联关系。

[0079] 在本申请实施例中，同类编号格式指的是相同或者级别列表一致的编号格式，该同类编号格式主要用于确认相互比较的两个视频帧是否能归位同类关系，以便后续构建思
维导图。

[0080] 步骤S402：若首个关键帧文本数据不存在同类编号格式，则判断下一个关键帧文本数据是否存在同类编号格式。

[0081] 步骤S403：若首个关键帧文本数据存在同类编号格式，则将同类编号格式确定为一级关联关系，并将与同类编号格式内容相对应的其他关键帧文本数据确定为同级关联关
系。

[0082] 步骤S404：当完成对最后一个关键帧文本数据的判断操作后，得到关键帧对应关系。

[0083] 在本申请实施例中，通过逐帧筛选关键帧文本数据中的编号格式，能够快速获取各个视频帧在整个教习视频资料中的导图结构位置，进而提高获取各个所述关键帧数据的
关键帧对应关系的效率。

[0084] 继续参阅图5，示出了图4中步骤S403的实现流程图，为了便于说明，仅示出与本申请相关的部分。

[0085] 在本实施例的一些可选的实现方式中，步骤S403具体包括：步骤S501、步骤S502、步骤S503以及步骤S504。

[0086] 步骤S501：分别将其他关键帧文本数据输入至语义分析模型进行词义识别操作，得到真实词义信息。

[0087] 在本申请实施例中，由于讲师的讲解视频内容通常归纳为简短的文本，往往存在两个教学内容不同但文本内容极其相似的两张PPT页面，通过上述基于同类编号格式进行
区分则会确认为同一级别的关系，从而导致后续关键帧对应关系出现混乱现象，进而影响
目标视频导图的准确性。

[0088] 在本申请实施例中，语义分析模型为预先训练好的深度识别网络模型，该语义分析模型可以通过分析关联文本内容获知目标词汇的真实含义。

[0089] 在本申请实施例中，真实词义信息指的是该语义分析模型基于关联文本信息预测歧义词汇的真实词义，以避免出现误判的情况。

[0090] 步骤S502：判断真实词义信息与同类编号格式内容是否相同。

[0091] 在本申请实施例中，以真实词义信息以及同类编号格式作为确认两个视频帧是否为同一级别的关系，从而有效避免出现关键帧对应关系混乱的现象。

[0092] 步骤S503：若真实词义信息与同类编号格式内容相同，则确认当前关键帧文本数据与首个关键帧文本数据存在关联关系。

[0093] 步骤S504：若真实词义信息与同类编号格式内容不相同，则确认当前关键帧文本数据与首个关键帧文本数据不存在关联关系。

[0094] 在本申请实施例中，通过分析关键帧文本数据中文本内容的真实含义，以进一步确认不同关键帧数据的关联关系，有效避免出现关键帧对应关系混乱的现象，提高目标视
频导图的准确性。

[0095] 综上所述，本申请提供了一种基于OCR的视频导图生成方法，包括：响应携带有原始视频数据的导图生成请求；对所述原始视频数据进行关键帧提取操作，得到携带有视频
时间信息的关键帧数据；基于OCR技术以及所述视频时间信息的顺序依次对所述关键帧帧
数据进行文本识别操作，得到关键帧文本数据；基于所述关键帧文本数据中记载的文本内
容确认各个所述关键帧数据之间的关键帧对应关系；基于所述关键帧对应关系建立所述关
键帧数据之间的关联关系，得到目标视频导图；输出所述目标视频导图。通过原始视频数据
的视频时间信息依次获取前后两张画面不完全相同的关键帧数据，利用光学字符识别
（Optical Character Recognition，OCR）技术提取关键帧数据的关键帧文本数据，并基于
关键帧文本数据获知各个关键帧数据之间的关联关系，最后基于该关联关系对关键帧数据
进行拼接操作，得到与该原始视频数据相对应的目标视频导图，由于该关键帧数据之间的
关联关系是基于关键帧文本数据进行分析得到的，使得该关联关系可以有效帮助学习用户
快速获知不同知识内容的关联性，有效提高用户记忆、理清思路和捕捉跳跃思考的能力，进
而提高用户学习的效率。同时，通过逐帧筛选关键帧文本数据中的编号格式，能够快速获取
各个视频帧在整个教习视频资料中的导图结构位置，进而提高获取各个所述关键帧数据的
关键帧对应关系的效率；通过分析关键帧文本数据中文本内容的真实含义，以进一步确认
不同关键帧数据的关联关系，有效避免出现关键帧对应关系混乱的现象，提高目标视频导
图的准确性。

[0096] 需要强调的是，为进一步保证上述原始视频数据的私密和安全性，上述原始视频数据还可以存储于一区块链的节点中。

[0097] 本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用
密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验
证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品
服务层以及应用服务层等。

[0098] 本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置
顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备
的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中
描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例
程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布
式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境
中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

[0099] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读
取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，
前述的存储介质可为磁碟、光盘、只读存储记忆体（Read‑Only Memory，ROM）等非易失性存
储介质，或随机存储记忆体（Random Access Memory，RAM）等。

[0100] 应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤
的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一
部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻
执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他
步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

[0101] 实施例二

[0102] 进一步参考图6，作为对上述图1所示方法的实现，本申请提供了一种基于OCR的视频导图生成装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体
可以应用于各种电子设备中。

[0103] 如图7所示，本实施例的基于OCR的视频导图生成装置100包括：请求响应模块110、关键帧提取模块120、文本识别模块130、对应关系获取模块140、导图获取模块150以及导图
输出模块160。其中：

[0104] 请求响应模块110，用于响应携带有原始视频数据的导图生成请求；

[0105] 关键帧提取模块120，用于对原始视频数据进行关键帧提取操作，得到携带有视频时间信息的关键帧数据；

[0106] 文本识别模块130，用于基于OCR技术以及视频时间信息的顺序依次对关键帧帧数据进行文本识别操作，得到关键帧文本数据；

[0107] 对应关系获取模块140，用于基于关键帧文本数据中记载的文本内容确认各个关键帧数据之间的关键帧对应关系；

[0108] 导图获取模块150，用于基于关键帧对应关系建立关键帧数据之间的关联关系，得到目标视频导图；

[0109] 导图输出模块160，用于输出目标视频导图。

[0110] 在本申请实施例中，原始视频数据指的是用户所需要学习或者归纳的视频对象，该原始视频数据通常是以PPT等较为简洁的视频内容，以提高后续视频帧提取以及OCR识别
的准确性；当然，该原始视频数据还可以是其他复杂的视频内容等，应当理解，此处对原始
视频数据的举例仅为方便理解，不用于限定本申请。

[0111] 在本申请实施例中，用户可通过用户终端发送该导图生成请求，该用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板
电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机
等等的固定终端，应当理解，此处对用户终端的举例仅为方便理解，不用于限定本申请。

[0112] 在本申请实施例中，关键帧提取操作主要用于筛选重复的视频帧，该关键帧提取操作可以通过比对相两张图片的图片相似度来确认是否重复，进而提取关键帧数据。在实
际应用中，可运用余弦相似度或哈希算法衡量该图片的相似度。

[0113] 在本申请实施例中，以原始视频数据为PPT画面为例，由于PPT画面在翻页前均为静止画面，只要出现前后两张画面不完全相同则可判断PPT翻页，即可提取后一张图片为关
键帧，并存储其出现时对应的时间。将所有关键帧(key frame)及其对应的时间记为
。

[0114] 在本申请实施例中，当原始视频数据的内容中出现过多老师对PPT讲解的标注时，会导致关键帧数据过多的情况，在实际应用中可以通过放宽上述关键帧提取操作中图片相
似度的相似度阈值，以减少重复画面帧的出现，使得关键帧提取操作提取到的关键帧数据
更加精简。

[0115] 在本申请实施例中，OCR（Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形
状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学
的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文
字转换成文本格式，供文字处理软件进一步编辑加工的技术。

[0116] 在本申请实施例中，文本识别操作主要基于上述OCR技术依次获取上述各个关键帧的视频内容文字信息，并基于该关键帧对应的视频时间顺序进行排序后，得到上述关键
帧文本数据。

[0117] 在本申请实施例中，在每个关键帧时间点上，使用光学字符识别（Optical Character Recognition，OCR）技术获取每一页PPT中的每一条文本（Key Points）和文本对
应的位置数据。文本及位置信息维持不变到，直到下一个关键帧出现。

[0118] 在本申请实施例中关键帧对应关系主要用于表示不同关键帧数据之间存在的关联关系，该关联关系可以是上下级关系、同级关系、包含关系等等，应当理解，此处对关键帧
对应关系的举例仅为方便理解，不用于限定本申请。

[0119] 在本申请实施例中，关键帧对应关系可通过判断首个关键帧文本数据是否存在同类编号格式；若首个关键帧文本数据不存在同类编号格式，则判断下一个关键帧文本数据
是否存在同类编号格式；若首个关键帧文本数据存在同类编号格式，则将同类编号格式确
定为一级关联关系，并将与同类编号格式内容相对应的其他关键帧文本数据确定为同级关
联关系；当完成对最后一个关键帧文本数据的判断操作后，得到关键帧对应关系。

[0120] 在本申请实施例中，由于关键帧对应关系表示有不同关键帧数据之间存在的关联关系，基于该关联关系以及思维导图的构建方式，建立上述关键帧数据的思维导图，即目标
视频导图。

[0121] 在本申请的一些可选实施例中，视频播放过程中，用户将鼠标移至任意文本上双击时，触发Key Point截取功能，此位置上的文本内容将会作为一个标签进入到web端思维
导图编辑窗口。此标签同时存储触发时间信息。用户在web端的思维导图编辑器中编辑思维
导图。完成编辑后思维导图文件保存在web端同时可以以pdf形式下载。用户在学习过程中
或者下一次点开同一个视频时，可通过点击标签找回视频位置进行复习。完成的思维导图
可以分享，成为一种新形式的UGC。

[0122] 在本申请实施例中，提供了一种基于OCR的视频导图生成装置，通过原始视频数据的视频时间信息依次获取前后两张画面不完全相同的关键帧数据，利用光学字符识别
（Optical Character Recognition，OCR）技术提取关键帧数据的关键帧文本数据，并基于
关键帧文本数据获知各个关键帧数据之间的关联关系，最后基于该关联关系对关键帧数据
进行拼接操作，得到与该原始视频数据相对应的目标视频导图，由于该关键帧数据之间的
关联关系是基于关键帧文本数据进行分析得到的，使得该关联关系可以有效帮助学习用户
快速获知不同知识内容的关联性，有效提高用户记忆、理清思路和捕捉跳跃思考的能力，进
而提高用户学习的效率。

[0123] 继续参阅图7，示出了图6中关键帧提取模块120的结构示意图，为了便于说明，仅示出与本申请相关的部分。

[0124] 在本实施例的一些可选的实现方式中，上述关键帧提取模块120还包括：视频帧提取子模块121、截屏采样子模块122以及关键帧提取子模块123。其中：

[0125] 视频帧提取子模块121，用于对历史视频数据进行视频帧提取操作，得到视频帧数据；

[0126] 截屏采样子模块122，用于对视频帧数据进行截屏采样操作，得到视频图片序列；

[0127] 关键帧提取子模块123，用于对所述视频图片序列进行相似度比较并过滤相同图片，得到所述关键帧数据。

[0128] 在本申请实施例中，视频帧提取操作主要作用是将上述原始视频数据逐帧提取成为一张张单独的照片，即视频帧数据。该视频帧提取操作可以通过现有的python读取视频
流提取视频帧的方法进行实现，也可以通过其他本领域惯用的技术手段进行实现，应当理
解的是，此处对视频帧提取操作的举例仅为方便理解，不用于限定本申请。

[0129] 在本申请实施例中，可运用余弦相似度或哈希算法对上述视频图片序列进行相似度比较。

[0130] 在本申请实施例中，以原始视频数据为PPT画面为例，由于PPT画面在翻页前均为静止画面，只要出现前后两张画面不完全相同则可判断PPT翻页，即可提取后一张图片为关
键帧，并存储其出现时对应的时间。将所有关键帧(key frame)及其对应的时间记为
。

[0131] 在本实施例的一些可选的实现方式中，上述关键帧提取子模块123包括：相似度比较单元、相似度阈值判断单元、画面相同单元以及画面不同单元。其中：

[0132] 相似度比较单元，用于依次对所述图片序列的相邻两张图片进行相似度比较操作，得到图片相似度；

[0133] 相似度阈值判断单元，用于判断所述图片相似度是否满足预设的相似度阈值；

[0134] 画面相同单元，用于若所述图片相似度满足预设的相似度阈值，则确认所述相邻两张图片画面相同；

[0135] 画面不同单元，用于若所述图片相似度不满足预设的相似度阈值，则确认所述相邻两张图片画面不相同，并将所述相邻两张图片的末置图片作为所述关键帧数据。

[0136] 在本实施例的一些可选的实现方式中，对应关系获取模块104包括：同类编号判断子模块、不存在子模块、存在子模块以及对应关系获取子模块。其中：

[0137] 同类编号判断子模块，用于判断首个所述关键帧文本数据是否存在同类编号格式；

[0138] 不存在子模块，用于若首个所述关键帧文本数据不存在同类编号格式，则判断下一个所述关键帧文本数据是否存在同类编号格式；

[0139] 存在子模块，用于若首个所述关键帧文本数据存在同类编号格式，则将所述同类编号格式确定为一级关联关系，并将与所述同类编号格式内容相对应的其他所述关键帧文
本数据确定为同级关联关系；

[0140] 对应关系获取子模块，用于当完成对最后一个所述关键帧文本数据的判断操作后，得到所述关键帧对应关系。

[0141] 综上所述，本申请提供了一种基于OCR的视频导图生成装置，通过原始视频数据的视频时间信息依次获取前后两张画面不完全相同的关键帧数据，利用光学字符识别
（Optical Character Recognition，OCR）技术提取关键帧数据的关键帧文本数据，并基于
关键帧文本数据获知各个关键帧数据之间的关联关系，最后基于该关联关系对关键帧数据
进行拼接操作，得到与该原始视频数据相对应的目标视频导图，由于该关键帧数据之间的
关联关系是基于关键帧文本数据进行分析得到的，使得该关联关系可以有效帮助学习用户
快速获知不同知识内容的关联性，有效提高用户记忆、理清思路和捕捉跳跃思考的能力，进
而提高用户学习的效率。同时，通过逐帧筛选关键帧文本数据中的编号格式，能够快速获取
各个视频帧在整个教习视频资料中的导图结构位置，进而提高获取各个所述关键帧数据的
关键帧对应关系的效率；通过分析关键帧文本数据中文本内容的真实含义，以进一步确认
不同关键帧数据的关联关系，有效避免出现关键帧对应关系混乱的现象，提高目标视频导
图的准确性。

[0142] 为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图8，图8为本实施例计算机设备基本结构框图。

[0143] 所述计算机设备200包括通过系统总线相互通信连接存储器210、处理器220、网络接口230。需要指出的是，图中仅示出了具有组件210‑230的计算机设备200，但是应理解的
是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领
域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进
行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路
(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－
Programmable Gate Array，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入
式设备等。

[0144] 所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人
机交互。

[0145] 所述存储器210至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访
问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存
储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器210可以是所述计算
机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述
存储器210也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的
插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，
闪存卡（Flash Card）等。当然，所述存储器210还可以既包括所述计算机设备200的内部存
储单元也包括其外部存储设备。本实施例中，所述存储器210通常用于存储安装于所述计算
机设备200的操作系统和各类应用软件，例如基于OCR的视频导图生成方法的计算机可读指
令等。此外，所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。

[0146] 所述处理器220在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器220通常用于控制所述
计算机设备200的总体操作。本实施例中，所述处理器220用于运行所述存储器210中存储的
计算机可读指令或者处理数据，例如运行所述基于OCR的视频导图生成方法的计算机可读
指令。

[0147] 所述网络接口230可包括无线网络接口或有线网络接口，该网络接口230通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

[0148] 本申请提供的计算机设备，通过原始视频数据的视频时间信息依次获取前后两张画面不完全相同的关键帧数据，利用光学字符识别（Optical Character Recognition，
OCR）技术提取关键帧数据的关键帧文本数据，并基于关键帧文本数据获知各个关键帧数据
之间的关联关系，最后基于该关联关系对关键帧数据进行拼接操作，得到与该原始视频数
据相对应的目标视频导图，由于该关键帧数据之间的关联关系是基于关键帧文本数据进行
分析得到的，使得该关联关系可以有效帮助学习用户快速获知不同知识内容的关联性，有
效提高用户记忆、理清思路和捕捉跳跃思考的能力，进而提高用户学习的效率。

[0149] 本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以
使所述至少一个处理器执行如上述的基于OCR的视频导图生成方法的步骤。

[0150] 本申请提供的计算机可读存储介质，通过原始视频数据的视频时间信息依次获取前后两张画面不完全相同的关键帧数据，利用光学字符识别（Optical Character
Recognition，OCR）技术提取关键帧数据的关键帧文本数据，并基于关键帧文本数据获知各
个关键帧数据之间的关联关系，最后基于该关联关系对关键帧数据进行拼接操作，得到与
该原始视频数据相对应的目标视频导图，由于该关键帧数据之间的关联关系是基于关键帧
文本数据进行分析得到的，使得该关联关系可以有效帮助学习用户快速获知不同知识内容
的关联性，有效提高用户记忆、理清思路和捕捉跳跃思考的能力，进而提高用户学习的效
率。

[0151] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下
前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做
出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质
（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服
务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

[0152] 显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同
的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻
全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其
依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进
行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他
相关的技术领域，均同理在本申请专利保护范围之内。

一种基于OCR的视频导图生成方法、装置、设备及存储介质转让专利

申请号 : CN202110478515.2

文献号 : CN112990142B

文献日 : 2021-08-10

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 许丹

申请人 : 平安科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :