基于版式文件的文档流式信息处理方法及装置转让专利

申请号 : CN200810114437.2

文献号 : CN101308488B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 仇睿恒王毅汤帜

申请人 : 北京大学北大方正集团有限公司北京方正阿帕比技术有限公司

摘要 :

本发明公开了一种基于版式文件的文档流式信息处理方法及装置,具体公开了如下技术方案:获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;描述所述版式文件的内容块划分结果信息;根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。从而使得描述版式文件的文档流式信息更加切实可行,可以灵活对版式文件中的任意内容进行文档流式信息的描述,描述范围更加准确,并且文档流式信息的处理更加灵活、简化。

权利要求 :

1.一种基于版式文件的文档流式信息处理方法,其特征在于,包括:获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;

根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;

描述所述版式文件的内容块划分结果信息;

根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息,其中描述基于内容块划分后的该版式文件的文档流式信息,是指描述各内容块本身的文档流式信息和各内容块之间的关系。

2.如权利要求1所述的方法,其特征在于,采用以下至少一种方式获取版式文件的文档流式信息:根据版式文件的文档内容来源,获得该版式文件的文档流式信息;

对该版式文件进行计算获得该版式文件的文档流式信息;

通过接收外界输入的针对该版式文件的文档流式信息,来获得该版式文件的文档流式信息。

3.如权利要求1所述的方法,其特征在于,根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分具体为:将形成版式文件的每组命令语句分别作为一个内容块单位,对所述版式文件的文档内容进行内容块划分;或将形成版式文件的每组对象分别作为一个内容块单位,对所述版式文件的文档内容进行内容块划分;或将形成版式文件的每组内容描述分别作为一个内容块单位,对所述版式文件的文档内容进行内容块划分。

4.如权利要求1所述的方法,其特征在于,根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分具体包括;

获取形成所述版式文件的内容参考序列;

根据所述获得的文档流式信息,将所述获取的内容参考序列划分为多个内容参考子序列,每个内容参考子序列作为划分出的一个内容块。

5.如权利要求1所述的方法,其特征在于,还包括:将描述得到的内容块划分结果信息和描述得到的文档流式信息进行关联并存储。

6.如1~5任一权利要求所述的方法,其特征在于,采用结构化标记语言来描述内容块划分结果信息和文档流式信息。

7.一种基于版式文件的文档流式信息处理装置,其特征在于,包括:文档流式信息获得模块,用于获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;

内容块划分模块,用于根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;

内容块划分结果信息描述模块,用于描述所述版式文件的内容块划分结果信息;

文档流式信息描述模块,用于根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息,其中描述基于内容块划分后的该版式文件的文档流式信息,是指描述各内容块本身的文档流式信息和各内容块之间的关系。

8.如权利要求7所述的装置,其特征在于,所述文档流式信息获得模块采用以下至少一种方式获取版式文件的文档流式信息:根据版式文件的文档内容来源,获得该版式文件的文档流式信息;

对该版式文件进行计算获得该版式文件的文档流式信息;

通过接收外界输入的针对该版式文件的文档流式信息,来获得该版式文件的文档流式信息。

9.如权利要求7所述的装置,其特征在于,所述内容块划分模块将形成版式文件的每组命令语句分别作为一个内容块单位,对所述版式文件的文档内容进行内容块划分;或将形成版式文件的每组对象分别作为一个内容块单位,对所述版式文件的文档内容进行内容块划分;或将形成版式文件的每组内容描述分别作为一个内容块单位,对所述版式文件的文档内容进行内容块划分。

10.如权利要求7所述的装置,其特征在于,所述内容块划分模块包括:内容参考序列获取子模块,用于获取形成所述版式文件的内容参考序列;

内容块划分子模块,用于根据所述获得的文档流式信息,将所述获取的内容参考序列划分为多个内容参考子序列,每个内容参考子序列作为划分出的一个内容块。

11.如权利要求7所述的装置,其特征在于,还包括:关联存储模块,用于将描述得到的内容块划分结果信息和描述得到的文档流式信息进行关联并存储。

12.如7~11任一权利要求所述的装置,其特征在于,采用结构化标记语言来描述内容块划分结果信息和文档流式信息。

说明书 :

技术领域

本发明涉及计算机信息处理技术领域,特别涉及基于版式文件的文档流式信息处理方法及装置。

背景技术

版式文件采用一种绝对描述方式,在自定义的坐标系中,明确记录了每个文档显示的位置和尺寸等,从而使文档打印出来的结果和在计算机上浏览的结果一致,而且在任何计算机环境下具有显示一致性的特点,以保证真实地重现文档的原貌,例如目前的PDF文件就是一种比较典型的版式文件。由于版式文件的相对稳定性,因此非常适合作为电子文档的最终发布和传播形式,广泛用于电子公文、电子书、电子期刊、电子报纸等领域。
随着计算机技术的普及和信息技术的发展,版式文件的数量呈现爆炸性增长,同时目前客户端种类增多,例如PDA、智能手机等,用户要求在多种客户端上都能够方便的阅读版式文件,这就要求客户端能够突破版式文件显示固定的局限性,根据显示设备屏幕的大小对版式文件的内容重新进行排版。同时由于版式文件用绝对数值精确指定每个文档显示的位置和尺寸,使得它不利于编辑,每次修改文档内容后都需要对布局重新计算,重写整个文档的布局信息,因此对版式文件内容的检索、结构化存储、修改、提取等编辑操作都会非常麻烦。
对版式文件进行排版和重新排版处理都需要参照版式文件中的文档流式信息,其中文档流式信息包含文档结构信息、阅读线索和版面信息等,然而目前大量的版式文件中都还不包含这类文档流式信息。

发明内容

有鉴于此,本发明提供一种基于版式文件的文档流式信息处理方法及装置,用以切实可行的描述版式文件的文档流式信息,并使版式文件的文档流式信息描述简化。
本发明提供以下技术方案:
一种基于版式文件的文档流式信息处理方法,包括步骤:
获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;
根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;
描述所述版式文件的内容块划分结果信息;
根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息,其中描述基于内容块划分后的该版式文件的文档流式信息,是指描述各内容块本身的文档流式信息和各内容块之间的关系。
一种基于版式文件的文档流式信息处理装置,包括:
文档流式信息获得模块,用于获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;
内容块划分模块,用于根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;
内容块划分结果信息描述模块,用于描述所述版式文件的内容块划分结果信息;
文档流式信息描述模块,用于根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息,其中描述基于内容块划分后的该版式文件的文档流式信息,是指描述各内容块本身的文档流式信息和各内容块之间的关系。
本发明有益效果如下:
本发明提供的技术方案通过获得版式文件的文档流式信息,根据获得的文档流式信息,对版式文件的文档内容进行内容块划分,描述内容块划分结果信息,根据内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息,使得描述版式文件的文档流式信息更加切实可行,可以灵活对版式文件中的任意内容进行文档流式信息的描述,描述范围更加准确,并且文档流式信息的处理更加灵活、简化。

附图说明

图1为本发明实施例中,基于版式文件的文档流式信息处理方法流程示意图;
图2为本发明实施例中,描述基于内容块划分后的版式文件的文档流式信息示意图;
图3为本发明实施例中,版式文件及其内容描述示意图;
图4为本发明实施例中,图3所示版式文件的内容块划分方式示意图;
图5为本发明实施例中,描述图3所示版式文件的内容块划分结果信息示意图;
图6为本发明实施例中,图3所示版式文件划分内容块后的文档流式信息中的文档结构信息示意图;
图7为本发明实施例中,图3所示版式文件划分内容块后的文档流式信息中的文档版面自适应呈现信息示意图;
图8为本发明实施例中,基于版式文件的文档流式信息处理装置结构示意图;
图9为本发明实施例中,采用划分内容参考序列的方法对版式文件的文档内容进行内容块划分示意图。

具体实施方式

本发明实施例中,首先获得版式文件的文档流式信息,根据获得的流式信息将版式文件的文档内容划分为多个内容块,并描述内容块划分结果信息,再根据得到的内容块划分结果信息,描述划分为多个内容块的版式文件的文档流式信息,从而可以切实可行的描述版式文件的文档流式信息,并使版式文件的文档流式信息描述简化。
下面结合说明书附图对本发明实施例进行详细说明。
如图1所示,为基于版式文件的文档流式信息处理方法流程图,具体包括如下步骤:
步骤101,获得版式文件的文档流式信息;其中这里的版式文件可以指整个版式文件,也可以指整个版式文件中的一页文件或几页文件等;版式文件的文档流式信息具体指版式文件中文档内容结构信息和/或版式文件中文档版面自适应呈现信息,可以但不限于包含以下三类信息:
文档内容结构信息,包括文档的章节信息、各章节内部内容块顺序以及内容块中各图元的顺序等;
阅读线索信息,具体指除了上述文档内容结构信息提供的阅读顺序外,根据具体需要提供的额外的阅读顺序信息,它是提供给用户的可选的阅读顺序信息。阅读线索信息可以是版式文件全部文档内容的阅读顺序信息,也可以是版式文件部分文档内容的阅读顺序信息;
版面信息,具体指版式文件版面重排时决定图元最终呈现效果的信息,包括图元自身或者内容块自身的版面属性,以及同一内容块中各图元之间或者各内容块之间的版面关系,例如指定图片的文字衬托方式或指定多个内容块的分栏信息。上述版面重排指的是由于版面大小或者版面内容发生变化时,根据一定规则重新组织版面中的各图元,形成版面展现结果的过程。
本发明实施例这里可以通过以下三种方式中的一种或者几种的组合来获得版式文件的文档流式信息:
对于已经包含文档流式信息的电子文档,在其作为版式文件的文档内容来源时,可以通过对版式文件的各种文档内容来源进行解析,直接获得版式文件的文档流式信息,例如,对于与版式文件所对应的、已经包含部分文档流式信息的电子文档,如HTML、Microsoft Word等,可以利用该文档的文档处理系统,对其中的文档流式信息进行提取,例如对于Microsoft Word文档可以利用Office自动化对象来获得其文档流式信息;
对于没有包含文档流式信息的电子文档,在其作为版式文件的文档内容来源时,可以利用各种识别算法或智能理解算法,对版式文件进行计算来获得版式文件的文档流式信息,例如,可以通过基于文档分析和文档理解的处理系统来对版式文件进行计算,以获得该版式文件的文档流式信息;
对于没有包含文档流式信息的电子文档,在其作为版式文件的文档内容来源时,还可以通过接收外界用户输入的针对版式文件的文档流式信息,来获得版式文件的文档流式信息,例如,用户可以通过一个带有图形界面的计算机应用程序,通过对版式文件的文档内容进行标注,来实现输入该版式文件的文档流式信息。
步骤102,根据上述获得的文档流式信息,对该版式文件的文档内容进行内容块划分;
将版式文件的文档内容划分为多个内容块可以通过基于版式文件直接组织的方法来实现:即将版式文件的每一组命令语句、或每一组对象或者每一段内容描述作为一个内容块单位,对该版式文件的文档内容进行内容块划分处理,具体来说,按照文档流式信息的需要,可以使用语句号、语句长度、语句偏移量,或对象标识、对象偏移量,或内容标识、内容偏移量或者某些特殊符号等方式,将该版式文件的文档内容拆分成不同的内容块。其中,各个划分出的内容块之间允许内容相互重叠,且可以为每个划分出的内容块赋予一个唯一编号。
此外,对版式文件的文档内容进行内容块划分,还可以通过划分内容参考序列的方法来实现,具体步骤为:
获取版式文件的内容参考序列,其中内容参考序列是指将版式文件文档内容中的文本、图片、表格等各种图元按照某种确定的顺序排列为一个有序序列,这种顺序可以是图元在版式文件内容数据流中出现的先后顺序,也可以是文档树结构的某种遍历顺序。将获取的内容参考序列通过某种方式划分为多个有序的内容参考子序列,将每个划分出的内容参考子序列作为一个内容块;这些内容参考子序列允许内容相互重叠,并且可以为每个划分出的内容参考子序列赋予一个唯一编号。其中可以利用图元在内容参考序列中的偏移位置,来划分内容参考序列,也可以依据内容参考序列中某种或某些特殊图元符号的位置,来划分内容参考序列,还可以依据内容参考序列中某种或某些标识的位置,来划分内容参考序列。
步骤103,根据上述内容块的划分结果,描述该版式文件的内容块划分结果信息;其中可以但不限于采用结构化标记语言(例如XML语言、SGML语言等)来描述内容块划分结果信息。
步骤104,根据上述描述出的内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。
其中描述基于内容块划分后的该版式文件的文档流式信息,具体是指描述各内容块本身的文档流式信息和各内容块之间的关系,包括文档结构信息、阅读线索信息和版面信息等。其中可以但不限于采用XML语言、SGML语言来描述基于内容块划分后的该版式文件的文档流式信息。
可以进而将上述描述得到的内容块划分结果信息与文档流式信息进行关联,并将关联后的内容块划分结果信息与文档流式信息对应存储。此外内容块划分结果信息和文档流式信息可以与版式文件分开存放,也可以嵌入到版式文件中,成为版式文件中的一个数据块。
图2是依照本发明提供的方法描述基于内容块划分后的版式文件的文档流式信息示意图,将版式文件205的文档内容划分为多个内容块,并采用结构化标记语言来描述内容块划分结果信息204,根据内容块划分结果信息204,描述基于内容块划分后的该版式文件205的文档流式信息,文档流式信息包括文档结构信息201、阅读线索信息202和版面信息203,其中该实施例中文档流式信息(包括基于内容块划分后的该版式文件205的文档结构信息201、阅读线索信息202和版面信息203)和内容块划分结果信息204,与版式文件205是分开存放的。
下面将给出更为具体的实施例。
如图3所示,一个显示如301的版式文件,其文档内容描述为302和303所示,其中包含文本对象和图像图元对象。302是版式文件的文本对象和图像图元对象的内容定义,每个内容定义在版式文件中拥有一个对象标识(ID)。303表示了在版式文件中根据对象标识(ID)来使用已经定义的图元对象或文本对象,从而在版式文件显示时显示出302中定义的图元对象和文本对象。
图4和图5是通过智能理解算法对图3中的版式文件301进行计算而获得对应该版式文件301的文档流式信息后,对版式文件301的文档内容进行内容块划分,并且描述内容块划分结果信息的具体实施例示意图。其中图4示出了一种对版式文件的文档内容进行内容块划分处理的方式,按照将形成版式文件的不同对象划分为不同内容块的方式,将版式文件301中标识为1和3的图元对象划分为一个内容块,划分出的该内容块的编号为9,将标识为2的图元对象划分为一个内容块,划分出的该内容块的编号为8。图5为采用XML语言描述内容块划分结果信息的示意图。
图6、图7是针对基于内容块划分后的版式文件的文档流式信息示意图。其中图6是基于内容块划分后的版式文件的文档流式信息中的文档结构信息,该文档结构信息指定了文档的章节树和各章节内的内容块顺序(图中具体使用内容块编号表示),具体来说,图6声明了版式文件中的一个段落,此段落中包含了编号为8和9的内容块。图7是基于内容块划分后的版式文件的文档流式信息中的文档版面自适应呈现信息示意图,其具体指定了编号为9的内容块中对象标识为1的文本对象和对象标识为3的图元对象的顺序调整方式,即将对象标识为3的图元对象插入到对象标识为1的文本对象“这是一”的第一个字之后。
阅读线索信息是一种特殊的文档内容结构信息,它可以从已有的文档内容结构信息中直接获取,也可以由用户自由指定,阅读线索信息的处理方式与文档内容结构信息的处理方式一致,所以这里没有展示阅读线索信息的实例。
相应的,本发明实施例还提供了一种基于版式文件的文档流式信息处理装置,其结构如图8所示,包括:
文档流式信息获得模块801,用于获得版式文件的文档流式信息,其中这里的版式文件可以指整个版式文件,也可以指整个版式文件中的一页文件或几页文件等;版式文件的文档流式信息具体指版式文件中文档内容结构信息和/或版式文件中文档版面自适应呈现信息,可以但不限于包含以下三类信息:
文档内容结构信息,包括文档的章节信息、各章节内部内容块顺序以及内容块中各图元的顺序等;
阅读线索信息,具体指除了上述文档内容结构信息提供的阅读顺序外,根据具体需要提供的额外的阅读顺序信息,它是提供给用户的可选的阅读顺序信息。阅读线索信息可以是版式文件全部文档内容的阅读顺序信息,也可以是版式文件部分文档内容的阅读顺序信息;
版面信息,具体指版式文件版面重排时决定图元最终呈现效果的信息,包括图元自身或者内容块自身的版面属性,以及同一内容块中各图元之间或者各内容块之间的版面关系,例如指定图片的文字衬托方式或指定多个内容块的分栏信息。上述版面重排指的是由于版面大小或者版面内容发生变化时,根据一定规则重新组织版面中的各图元,形成版面展现结果的过程。
内容块划分模块802,用于根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分。
内容块划分结果信息描述模块803,用于描述所述版式文件的内容块划分结果信息;
文档流式信息描述模块804,用于根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息;
关联并存储模块805,用于将描述得到的内容块划分结果信息和描述得到的文档流式信息进行关联并存储。
下面结合图8对本发明提供的基于版式文件的文档流式信息处理装置的工作过程进行详细描述。
文档流式信息获得模块801采用以下至少一种方式来获得版式文件的文档流式信息:
对于已经包含文档流式信息的电子文档,在其作为版式文件的文档内容来源时,可以通过对版式文件的各种文档内容来源进行解析,直接获得版式文件的文档流式信息,例如,对于与版式文件所对应的、已经包含部分文档流式信息的电子文档,如HTML、Microsoft Word等,可以利用该文档的文档处理系统,对其中的文档流式信息进行提取,例如对于Microsoft Word文档可以利用Office自动化对象来获得其文档流式信息;
对于没有包含文档流式信息的电子文档,在其作为版式文件的文档内容来源时,可以利用各种识别算法或智能理解算法,对版式文件进行计算来获得版式文件的文档流式信息,例如,可以通过基于文档分析和文档理解的处理系统来对版式文件进行计算,以获得该版式文件的文档流式信息;
对于没有包含文档流式信息的电子文档,在其作为版式文件的文档内容来源时,还可以通过接收外界用户输入的针对版式文件的文档流式信息,来获得版式文件的文档流式信息,例如,用户可以通过一个带有图形界面的计算机应用程序,通过对版式文件的文档内容进行标注,来实现输入该版式文件的文档流式信息。
内容块划分模块802根据获得的文档流式信息,将版式文件的每一组命令语句、或每一组对象或者每一段内容描述作为一个内容块单位,对该版式文件的文档内容进行内容块划分处理。具体来说,按照文档流式信息的需要,可以使用语句号、语句长度、语句偏移量,或对象标识、对象偏移量,或内容标识、内容偏移量或者某些特殊符号等方式,将该版式文件的文档内容拆分成不同的内容块。其中,各个划分出的内容块之间允许内容相互重叠,且可以为每个划分出的内容块赋予一个唯一编号。
参照图9,将版式文件划分为多个内容块还可以利用内容参考序列获取子模块901来获取版式文件的内容参考序列,内容块划分子模块902根据获得的文档流式信息,将获取的内容参考序列划分为多个内容参考子序列,每个内容参考子序列作为划分出的一个内容块,这些内容参考子序列允许内容相互重叠,并且可以为每个划分出的内容参考子序列赋予一个唯一编号。
内容块划分结果信息描述模块803根据上述内容块划分结果,描述该版式文件的内容块划分结果信息,其中可以但不限于采用结构化标记语言(例如XML语言、SGML语言等)来描述内容块划分结果信息。
文档流式信息描述模块804根据上述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息,其中描述基于内容块划分后的该版式文件的文档流式信息,具体是指描述各内容块本身的文档流式信息和各内容块之间的关系,包括文档结构信息、阅读线索信息和版面信息等。其中可以但不限于采用XML语言、SGML语言来描述基于内容块划分后的该版式文件的文档流式信息。
关联并存储模块805将上述内容块划分结果信息和文档流式信息进行关联,并将关联后的内容块划分结果信息与文档流式信息对应存储。其中,内容块划分结果信息和文档流式信息可以与版式文件分开存放,也可以嵌入到版式文件中,成为版式文件中的一个数据块。
在实际应用中,可以将上述存储的内容块划分结果信息与文档流式信息通过转发或复制等方式移动到其他的存储设备上,从而使其他的用户终端能够直接、方便的使用基于内容块划分后的该版式文件的文档流式信息。
另外,与本发明实施例提供的基于版式文件的文档流式信息处理系统交互的外部系统可能有格式转换系统。版面重排系统等,这些系统利用基于内容块划分后的版式文件的文档流式信息再对版式文件进行处理,例如信息提取。重排页面。转换为其他格式的文件等。
综上所述,本发明提供的基于版式文件的文档流式信息处理方法和系统通过获得版式文件的文档流式信息,根据获得的流式信息将版式文件的文档内容划分为多个内容块,并描述内容块划分结果信息,再根据得到的内容块划分结果信息,描述划分为多个内容块的版式文件的文档流式信息,从而可以切实可行的描述版式文件的文档流式信息,并使版式文件的文档流式信息描述简化。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。