电子书的处理方法和装置转让专利

申请号 : CN201410455662.8

文献号 : CN104239282B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 谢双宾徐广金曹羽刘文昱

申请人 : 百度在线网络技术(北京)有限公司

摘要 :

本发明提供一种电子书的处理方法和装置。所述处理方法包括:获取电子书多个页面的页面内容数据;从所述页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行;基于识别出的图和文字行块确定图注识别特征;根据确定的图注识别特征为识别出的图标注图注。如此,能够自动完成图与图注的关联识别,优化图文类电子书的线上展示,能够保障其在线上重排版展示时不会出现格式错乱,并提高数据处理效率,减少人工编辑的成本,以及提高图注识别的准确率。

权利要求 :

1.一种电子书的处理方法,其特征在于,所述处理方法包括:

获取电子书多个页面的页面内容数据;

从所述页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行;

基于识别出的图和文字行块确定所述图的备选图注,并基于所述备选图注确定图注识别特征;其中,所述图注识别特征包括以下至少一个:图注文字字体大小和图注起始字符特征;

根据确定的图注识别特征为识别出的图标注图注,并且从标注的所述图注去除不具备所述图注识别特征的图注。

2.根据权利要求1所述的处理方法,其特征在于,所述页面内容数据包括文字数据和图,所述文字数据包括文字及其位置、宽度和高度。

3.根据权利要求2所述的处理方法,其特征在于,所述基于识别出的图和文字行块确定所述图的备选图注的步骤包括:将位于所述图周围的文字行块当中,文字字体大小小于正文文字字体大小或者其起始字符是数字或特定的前缀字符的文字行块确定为所述图的备选图注,所述正文文字字体大小是所述多个页面的页面内容数据中出现频率最高的文字字体大小。

4.根据权利要求2所述的处理方法,其特征在于,所述基于识别出的图和文字行块确定所述图的备选图注的步骤包括:将位于所述图周围的文字行块当中,满足以下判断条件的文字行块确定为所述图的备选图注:文字行块的文字字体大小小于正文文字字体大小,并且所述文字行块所在页面中出现所述文字行块的文字字体大小的行数低于所述页面中出现图的个数的预定倍数,所述正文文字字体大小是所述多个页面的页面内容数据中出现频率最高的文字字体大小,或者文字行块的起始字符是特定的前缀字符或者是数字,并且所述文字行块所在页面中图的个数与确定的备选图注的个数相等,其中,优先将位于图的底部的满足所述判断条件的文字行块确定为所述图的备选图注。

5.根据权利要求4所述的处理方法,其特征在于,所述基于所述备选图注确定图注识别特征的步骤包括:基于已确定的备选图注确定出现频率最高的文字字体大小以及其在全部的备选图注中所占比例,如果所述出现频率最高的文字字体大小在全部的备选图注中所占比大于预定的字体大小比例阈值,则将确定图注文字字体大小为所述出现频率最高的文字字体大小。

6.根据权利要求5所述的处理方法,其特征在于,所述基于所述备选图注确定图注识别特征的步骤还包括:基于已确定的备选图注确定出现频率最高的起始字符以及其在全部的备选图注中所占比例,其中,一并统计起始字符是数字的起始字符的出现频率,如果所述出现频率最高的起始字符在全部的备选图注中所占比大于预定的图注前缀比例阈值,则确定图注起始字符特征是所述起始字符或者是数字。

7.根据权利要求6所述的处理方法,其特征在于,所述根据确定的图注识别特征为识别出的图标注图注的步骤还包括:将所述确定的备选图注标注为所述识别出的图的图注。

8.根据权利要求7所述的处理方法,其特征在于,所述根据确定的图注识别特征为识别出的图标注图注的步骤还包括:根据确定的图注识别特征为尚未标注图注的图标注图注。

9.根据权利要求2~8中任一项所述的处理方法,其特征在于,所述电子书为PDF格式,所述页面内容数据是JSON格式的内容数据。

10.根据权利要求9所述的处理方法,其特征在于,所述文字数据中的文字及其位置、宽度和高度分别被表示为JSON名称/值对,所述页面内容数据中的文字数据和图分别被表示为JSON名称/值对的集合或JSON对象,其中,文字的位置包括X坐标和Y坐标。

11.根据权利要求10所述的处理方法,其特征在于,所述从所述页面内容数据识别文字行块和图的步骤包括:将Y坐标相同且高度相同的文字或符号合并为单行,并且计算所述单行的顶点的X坐标、Y坐标以及所述单行的宽度和高度,将单行的顶点的X坐标以及行的高度相同的多个连续的行识别为一个文字行块。

12.根据权利要求11所述的处理方法,其特征在于,所述从所述页面内容数据识别文字行块和图的步骤还包括:将识别出的文字行块和图按照从页面的左上到右下的顺序进行排序。

13.根据权利要求12所述的处理方法,其特征在于,将作为图的图注的文字行块与所述图的关联被表示为JSON的对象,关联后的宽度和高度分别被表示为JSON名称/值对。

14.一种电子书的处理装置,其特征在于,包括:

数据获取单元,用于获取电子书多个页面的页面内容数据;

分块识别单元,用于从所述数据获取单元获取的页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行;

图注识别单元,用于基于所述分块识别单元识别出的图和文字行块确定所述图的备选图注,并基于所述备选图注确定图注识别特征;其中,所述图注识别特征包括以下至少一个:图注文字字体大小和图注起始字符特征;

图注标注单元,用于根据所述图注识别单元确定的图注识别特征为识别出的图标注图注,并且从标注的所述图注去除不具备所述图注识别特征的图注。

15.根据权利要求14所述的处理装置,其特征在于,所述页面内容数据包括文字数据和图,所述文字数据包括文字及其位置、宽度和高度。

16.根据权利要求15所述的处理装置,其特征在于,所述图注标注单元用于将图注识别单元确定的备选图注标注为所述识别出的图的图注。

17.根据权利要求16所述的处理装置,其特征在于,所述图注标注单元还用于根据确定的图注识别特征为尚未标注图注的图标注图注。

说明书 :

电子书的处理方法和装置

技术领域

[0001] 本发明涉及计算机应用技术领域,尤其涉及一种电子书的处理方法和装置。

背景技术

[0002] 随着计算机技术的快速发展,文库阅读网站引进大批量的电子书,且大多数的电子书都是简单图文类。要将这些图文类的电子书导入到线上展示,并保障在线上重排版展示。出现在电子书中的图通常都会有注解或说明,在此将这些注解或说明称为图注。在导入过程中,需要将这些图与其对应的图注关联,为图标注出对应的图注,才能不出现格式错乱。如果仍单纯依靠原人工编辑的方式来进行排版,则效率低,易出错,且成本较高。

发明内容

[0003] 本发明的目的在于提供一种电子书的处理方法和装置,利用计算机技术对电子书中的图进行图注标注,从而图文类的电子书在线上重排版展示时,避免出现格式错乱,提高数据处理效率、降低成本。
[0004] 根据本发明的一方面,提供一种电子书的处理方法,包括:获取电子书多个页面的页面内容数据;从所述页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行;基于识别出的图和文字行块确定图注识别特征;根据确定的图注识别特征为识别出的图标注图注。
[0005] 根据本发明的另一方面,提供一种应用上述电子书的处理方法的装置,包括:数据获取单元,用于获取电子书多个页面的页面内容数据;分块识别单元,用于从所述数据获取单元获取的页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行;图注识别单元,用于基于所述分块识别单元识别出的图和文字行块确定图注识别特征;图注标注单元,用于根据所述图注识别单元确定的图注识别特征为识别出的图标注图注。
[0006] 本发明实施例提供的电子书的处理方法和装置,能够对图文类电子书中的页面内容数据进行文字行块和图的识别,并根据识别出的文字行块和图确定图注识别的特征,从而为识别出的图标注图注。如此,能够自动完成图与图注的关联识别,优化图文类电子书的线上展示,能够保障其在线上重排版展示时不会出现格式错乱,并提高数据处理效率,减少人工编辑的成本,以及提高图注识别的准确率。

附图说明

[0007] 图1为本发明实施例的电子书的处理方法的流程图。
[0008] 图2为本发明实施例的电子书的处理装置的结构示意图。
[0009] 图3为本发明实施例的JSON格式的页面内容数据示意图之一。
[0010] 图4为本发明实施例的JSON格式的页面内容数据示意图之二。
[0011] 图5为本发明实施例的JSON格式的页面内容数据示意图之三。
[0012] 图6为本发明实施例的未进行图注标注的示例效果图。
[0013] 图7为本发明实施例的图注标注后的示例效果图。

具体实施方式

[0014] 本发明的基本构思是对电子书中的页面内容数据进行文字行块和图的识别,并根据识别出的文字行块和图确定图注识别的特征,从而为识别出的图标注图注。
[0015] 电子书通常为PDF格式,已有成熟的技术对PDF文件进行解析,获取电子书任一页面的页面内容数据,如文字、文字的位置、高度、宽度以及图的数据等。在本发明的实施例中,以JSON格式的页面内容数据作为示例对本发明的电子书的处理方法和装置进行描述,但是本发明的处理方法和装置不限于PDF格式的电子书的处理,也不限于JSON格式的页面内容数据的处理,而是适用于可解析出关于文字和图的数据的任何格式的页面内容数据的电子书。例如,所述电子书也可以是markdown、epub、rtf、word、html格式等,而所述页面内容数据还可以是xml、azw、indesign等格式。
[0016] 下面结合附图对本发明实施例电子书的处理方法和装置进行详细描述。
[0017] 图1示出了本发明实施例的电子书的处理方法的流程图。
[0018] 参照图1,在步骤S110,获取电子书多个页面的页面内容数据,其中,所述页面内容数据包括电子书中的文字数据和图,所述文字数据包括,但不限于,文字及其位置、宽度和高度等。文字的位置可以用X坐标和Y坐标来表示。所述文字数据可以是单个文字的数据,也可以是多个文字的数据。
[0019] 如前所述,根据本发明的示例性实施例,所述页面内容数据是JSON格式的内容数据,例如,页面内容数据中的文字数据和图可分别被表示为JSON名称/值对的集合或JSON对象,文字数据中的文字及其位置、宽度和高度可分别被表示为JSON名称/值对,文字的位置包括其X坐标和Y坐标。
[0020] 图3为本发明实施例的JSON格式的页面内容数据示意图之一。图3示出获取的JSON格式的电子书页面数据的示例性片段。
[0021] 在步骤S120,从在步骤S110获取的页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行。这里所提及的属性包括,但不限于,文字字体的大小、文字行的高度、文字行的宽度、文字行的位置或/和文字行的行间距等。
[0022] 具体地,将Y坐标相同且高度相同的文字或符号合并为单行。图3中的两个虚线框内示出不同的两个单行的文字数据,例如,上端的虚线框内的"那些看似天差地远的元素组合在一起,"文字行的行高为h1:16.971,Y坐标为y1:442.372,而"造就了欧洲的文明。"文字行的行高h2:16.971,Y坐标为y2:442.372,明显地,h1=h2=16.971,y1=y2=442.372,在从页面内容数据识别文字行块时,可以将上述两项文字行合并为单行。同理,在图3下端的虚线框的数据内容中,两个文字行的行高相等,均为16.971,Y坐标相同,均为554.593,可以将这两个文字行合并为一个单行。
[0023] 另外,同一个文字行块可能包含多个单行,各个单行的顶点的X坐标和单行的高度通常是一致的,基于此,优选地,可以计算得到多个单行的顶点(如起始字符的左上角处)的X坐标、Y坐标以及这些单行的宽度和高度,并将单行的顶点的X坐标和行的高度相同的多个连续的行识别为一个文字行块。
[0024] 图4为本发明实施例的JSON格式的页面内容数据示意图之二。图4示出获取的JSON格式的电子书页面数据的另一示例性片段。
[0025] 图4中的三个虚线框示出三个单行的文字数据。第一个虚线框中的文字"教和希腊罗马世界的关联。基督教时常遭到罗马政府迫害"的行高h5=16.971,X坐标x5=55.207,Y坐标y5=583.85。第二个虚线框中的四个文字行块的Y坐标相同,y6=y7=y8=y9=612.232,行高均为16.971,可以确定该四个文字行块为一个单行。第三个虚线框中的文字行块"施以酷刑"的行高h5=16.971,Y坐标y5=640.615,为一个单行。上述三个单行的顶点的X坐标相同,x5=x6=x10=55.207,且三个单行的行高也相同,在步骤S120从获取的页面内容数据识别文字行块时,可以将这三个单行识别为同一个文字行块。
[0026] 此外,根据本发明优选实施例,按照如上的步骤识别出页面内容数据的文字行块和图后,还可以根据文字行块和图的X坐标、Y坐标,按照从页面的左上到右下的顺序进行排序。
[0027] 在步骤S130,基于在步骤S120识别出的图和文字行块确定图注识别特征,图注识别特征包括图注文字字体大小和图注起始字符特征的至少一个。所述图注起始字符特征可以是起始字符是特定的前缀字符(如字符“图”或“◆”等这样明显特征的字符),也可以是数字(如“1”、“2”等或“1-1”、“1-2”等)。
[0028] 根据本发明的可选实施例,将位于图周围的文字行块中,文字字体大小小于正文文字字体大小或者文字行块的起始字符是数字或特定的前缀字符的文字行块确定为图的备选图注。
[0029] 根据本发明的另一可选实施例,将至少满足以下两种判断条件之一的文字行块确定为图的备选图注:1、所述文字行块的文字字体大小小于正文文字字体大小,且文字行块所在页面中出现该文字行块的文字字体大小的行数低于该页面中出现图的个数的预定倍数;2、文字行块的起始字符是特定的前缀字符(例如,“图”、“◆”等具有明显特征的字符)或者是数字(例如,“1-1”),且该文字行块所在页面中图的个数与确定的备选图注的个数相等。根据撰写习惯,通常都会将图注放在图的底部,因此,根据优选实施例,优先将位于图的底部且满足上述判断条件的文字行块确定为图的备选图注,若图的底部的文字行块不满足上述判断条件的情况下,再根据上述判断条件确定图的上侧、左侧或右侧的文字行块是否为图的备选图注。
[0030] 对于同一本书而言,通常情况下,一个单行或一个文字行块的字体大小是一致的,因此可以根据文字行块的行宽和行高来判断单行或文字行块的文字字体大小,而上述提及的正文文字字体大小可以是在页面内容数据中出现频率最高的文字字体大小。
[0031] 一般而言,一本书的图注与其正文文字的字体大小是不一致的,一般是图注的字体大小比正文文字字体大小要小,且整本书的图注的字体大小是一致的。基于此,在步骤S130,在确定图的备选图注之后,基于已确定的备选图注确定图注识别特征。具体地,确定出现频率最高的文字字体大小以及其在全部备选图注中所占的比例,如果出现频率最高的文字字体大小在全部的备选图注中所占比例大于预定的字体大小比例阈值,则将确定图注文字字体大小为该出现频率最高的文字字体大小。例如,预设字体大小比例阈值为0.6,经统计得到一文字字体大小为max_hf,其所占比例为max_hf_ratio,如果max_hf_ratio大于0.6,则认为文字字体大小max_hf为图注文字字体大小。可根据需要任意地预设所述字体大小比例阈值,而不限于0.6。
[0032] 另一方面,在图文类电子书中,图注都有一些特定的起始字符,且通常在一整套书中的图注起始字符应该是一致的,如,“图”或“◆”等,所以除了根据文字字体大小确定备选图注是否是图的图注外,还可以根据备选图注中的起始字符来确定备选图注是否是图的图注。具体地,基于已确定的备选图注确定出现频率最高的起始字符以及其在全部的备选图注中所占比例,如果出现频率最高的起始字符在全部的备选图注中所占比大于预定的图注前缀比例阈值,则确定图注起始字符特征是该起始字符。
[0033] 为更清楚的理解,下面举例来说,预设图注前缀比例阈值为0.6,如果统计得到起始字符或前缀字符为“图”的备选图注所占比例为max_tf_ratio,且max_tf_ratio大于0.6,则确定图注起始字符/前缀字符为“图”。同理,可根据需要任意地预设所述图注前缀比例阈值,而不限于0.6。
[0034] 而不同笔者的撰写习惯各异,其图注的写法也不同,比如,图注前缀使用数字形式(如,“1”、“2”或“1-1”、“1-2”),根据本发明优选实施例,在统计起始字符出现频率时,除了考虑上述特定的起始字符(如,“图”或“◆”)外,还需要考虑是图注的起始字符是数字的情况。在图注前缀中,数字为一种变量数据,可以根据数字变量的属性一并统计起始字符是数字的备选图注的出现频率,之后确定其是否可被确定为图注起始字符特征的处理与上述确定起始字符是图注起始字符特征的方法一致,在这里就不再详述。
[0035] 在执行步骤S130后,执行步骤S140:根据确定的图注识别特征为识别出的图标注图注。例如,根据确定的图注识别特征重新为识别出的图标注图注。根据本发明的可选实施例,在步骤S140,根据在步骤S130确定的图注识别特征,将符合步骤S130中图注识别特征的备选图注标注为已识别出的图的图注,而将不符合上述图注识别特征的图注去除。
[0036] 由于在步骤S130对图注的筛选和判断,在步骤S140,可以将大部分识别出的图已经被标注图注,但是由于备选图注中可能存在不符合上述图注识别的特征而被去除,导致部分识别出的图没有被标注图注。为保障所有已识别的图均被标注图注,且增加图注召回,根据所述可选实施例,在步骤S140,可以根据上述确定的图注识别特征继续为尚未标注图注的图标注图注。
[0037] 根据本发明的优选实施例,在JSON格式数据中,可通过将作为图的图注的文字行块与图关联来为识别出的图标注图注,将作为图的图注的文字行块与图关联被表示为JSON的对象。
[0038] 图5为本发明实施例的JSON格式的页面内容数据示意图之三。图5示出了本发明实施例在为图标注了图注后的JSON格式的示例数据片段。
[0039] 从图5可以看出,图“52c32477703f0fda49ff5cbb6236945b.png”与其对应图注“图1-3君士坦丁大帝(272-337)”进行了关联,即,为所述图标注了图注,所述图与图注作为一个整体被表示为JSON的对象。如此,保障在进行线上展示时,不会出现格式错乱,同时,还能统一对图与图注的排版格式进行调整,优化线上展示。可例如,对标注的图注统一进行格式设置,使电子书中全部的图注具有相同的格式,如字体、字体大小、字体颜色、行间距等。本发明实施例仅以图5示出的标注了图注后的数据格式为例,其他的图与图注的关联跟本实施例例举的一致,在此不再一一详述。
[0040] 本发明实施例提供的电子书的处理方法能够自动完成图与图注的关联识别,优化图文类电子书的线上展示,能够保障其在线上重排版展示时不会出现格式错乱,并提高数据处理效率。此外,设置较为苛刻的图注识别的条件,严格确定备选图注,再通过对备选图注的二次筛选确定最终图注,从而提高图注识别的准确率。
[0041] 本发明还提供一种应用上述电子书的处理方法的处理装置。图2示出了本发明实施例的电子书的处理装置的结构示意图。
[0042] 参照图2,所述电子书的处理方法的处理装置包括数据获取单元210、分块识别单元220、图注识别单元230和图注标注单元240。
[0043] 数据获取单元210用于获取电子书多个页面的页面内容数据。所述页面内容数据包括文字数据和图,所述文字数据包括文字及其位置、宽度和高度。文字的位置包括文字顶点的X坐标和Y坐标。
[0044] 分块识别单元220用于从数据获取单元210获取的页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行。具体地,分块识别单元220将顶点的Y坐标和行高相同的文字行识别为一个单行,将多个连续的顶点的X坐标和行的高度相同的单行识别为一个文字行块。属性包括,但不限于,文字字体的大小、文字行的高度、文字行的宽度、文字行的位置或/和文字行行间距。
[0045] 图注识别单元230用于基于分块识别单元220识别出的图和文字行块确定图注识别特征。根据本发明优选实施例,图注识别单元230确定的图注识别特征包括以下至少一个:图注文字字体大小和图注起始字符特征。
[0046] 具体地,图注识别单元230首先将至少满足以下两种判断条件之一的文字行块确定为图的备选图注:1、所述文字行块的文字字体大小小于正文文字字体大小,且文字行块所在页面中出现该文字行块的文字字体大小的行数低于该页面中出现图的个数的预定倍数;2、文字行块的起始字符是特定的前缀字符(例如,“图”、“◆”等具有明显特征的字符)或者是数字(例如,“1-1”),且该文字行块所在页面中图的个数与确定的备选图注的个数相等。根据撰写习惯,通常都会将图注放在图的底部,因此,根据优选实施例,优先将位于图的底部且满足上述判断条件的文字行块确定为图的备选图注,若图的底部的文字行块不满足上述判断条件的情况下,再根据上述判断条件确定图的上侧、左侧或右侧的文字行块是否为图的备选图注。
[0047] 此后,图注识别单元230基于已确定的备选图注确定出现频率最高的文字字体大小及其在全部的备选图注中所占比例,以及确定出现频率最高的起始字符及其在全部的备选图注中所占比例,如果出现频率最高的文字字体大小在全部的备选图注中所占比例大于预定的字体大小比例阈值,或如果出现频率最高的起始字符在全部的备选图注中所占比例大于预定的图注前缀比例阈值,则确定图注文字字体大小为出现频率最高的文字字体大小,或确定图注起始字符特征是出现频率最高的起始字符。
[0048] 图注标注单元240用于根据图注识别单元230确定的图注识别特征为识别出的图标注图注。
[0049] 根据本发明的可选实施例,图注标注单元240将所述确定的备选图注标注为所述识别出的图的图注,并且从标注的所述图注去除不具备所述图注识别特征的图注。为保障图注标注的完整性,增加图注召回,图注标注单元240还根据图注识别单元230确定的图注识别特征继续为尚未标注图注的图标注图注。
[0050] 经过图注标注单元240的处理后,为电子书中的图标注图注,在输出显示时,两者为一个整体,能够保障在线上展示时不会出现格式错乱。
[0051] 本发明实施例提供的电子书的处理方法和装置,能够对图文类电子书中的页面内容数据进行文字行块和图的识别,并根据识别出的文字行块和图确定图注识别的特征,从而为识别出的图标注图注。通过确定图注识别特征为识别出的图标注图注并将两者关联输出,可确保其在线上重排版展示不出现格式错乱;利用计算机处理技术完成文字行块和图的识别,以及为识别出的图标注图注,提高数据处理效率,降低人工编辑排版的成本。
[0052] 在确定图注识别特征的过程中,还可设置较为严格的判断和筛选条件,并经过多次筛选确定最终图注,以提高图注识别的准确率。
[0053] 基于对文字行块和图的识别,还可以对电子书的页面内容数据进行进一步优化处理。图6和图7分别示出了本发明实施例的图注标注前后的示例效果图。如图6所示,在内容被标注图注前,图注“出发前规划17天的落脚点”的字体与正文的字体大小相同;而经过图注标注后,如图7所示,对图底部的图注“出发前规划17天的落脚点”的文字字体、字体大小以及图与文字行块间的间距等进行调整,使得页面排版及整个页面展示看起来更加美观。类似地,也可以对正文文字的文字行块的字体、字体大小、行距以及段前段后等进行调整,从而达到优化图文类电子书的线上展示的目的。
[0054] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。