传输序列的碎片整理转让专利

申请号 : CN02829145.X

文献号 : CN1628452B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 马塞厄斯·瓦格纳罗伯特·赫希菲尔德

申请人 : 株式会社NTT都科摩

摘要 :

本发明针对的是在传送结构化文档(10)的传输过程中避免出现碎片化现象。这个目的是通过一种用于结构化文档(10)的渐进式传输方法来实现的,所述结构化文档(10)包含具有相关联的相关性加权的子文档(12,14,16,......)。特别地,在这里通过使用碎片化的形式表达并根据传输序列而以自动方式确定一个碎片化量度。在对碎片化量度和预定阈值进行了比较之后,当碎片化量度超出该阈值的时候,传输序列将被修改,以便降低碎片化。

权利要求 :

1.一种用于对结构化文档进行渐进式传输的方法,所述结构化文档包含具有相关联的相关性加权的子文档,其特征在于包括以下步骤:根据相关性加权而为子文档产生一个传输序列;

使用碎片化的形式表达并根据传输序列而以自动方式确定一个碎片化量度;

将碎片化量度与一个预定阈值相比较;

在传输结构化文档之前,当碎片化量度超出阈值时,对生成的传输序列进行碎片整理。

2.根据权利要求1的方法,其特征在于:结构化文档的子文档被模拟成树的节点,其中子文档的数目为k,并且渐进式传输是在为文档传输所选择的树的细节等级上实现的。

3.根据权利要求2的方法,其特征在于:

根据子文档的预定读取顺序的读取序列是处于树的细节等级上的有序节点集R=[r1,...rk],用于渐进式传输的传输序列是处于树的同一细节等级上的所述有序节点集R的置换D=[d1,...dk],其中碎片化量度则是用一个置换矢量π:{1,...,k}→{1,...,k}来确定的,该矢量是依照π(i)=j来定义的,其中ri=dj,i,j∈{1,...,k}。

4.根据权利要求3的方法,其特征在于:碎片化量度是一个根据下式的绝对碎片化量度,它定义的是子分量与其在读取序列中的原始位置之间的距离之和,Fabs=Σi=1k|π(i)-i|.

5.根据权利要求4的方法,其特征在于:根据下式而将绝对碎片化量度归一化成相对的碎片化量度:Frel=2(k-1)2Fabs.

6.根据权利要求3的方法,其特征在于:碎片化量度是一个非相干比例,它量度的是在生成传输序列之后,节点在读取序列中的绝对位置发生了多大变化,所述非相干比例是根据下式定义的:Zabs=Σi=1k-1|π(i+1)-π(i)|.

7.根据权利要求6的方法,其特征在于:根据下式将非相干比例归一化成一个相对的非相干比例:Zrel=2k·(k-1)·(Zabs-(k-1)).

8.根据权利要求3的方法,其特征在于:碎片化量度是一个可读性量度,它表示传输序列中有多少节点仍旧处于依照读取序列的顺序中,所述可读性量度是根据下式定义的:

9.根据权利要求8的方法,其特征在于:根据下式而将可读性量度归一化成一个相对的可读性量度:Srel=1k-1·Sabs.

10.根据权利要求1的方法,其特征在于:在为文档传输所选择的树的细节等级上为节点确定碎片化量度。

11.根据权利要求10的方法,其特征在于:细节等级是通过与树的根节点的距离来规定的。

12.根据权利要求1的方法,其特征在于:子文档包含根据应用的文档模型所定义的数据。

13.根据权利要求1的方法,其特征在于:渐进式传输是相对于一个具有有限容量的移动设备实现的。

14.根据权利要求13的方法,其特征在于:移动设备是一个移动客户机,其中移动客户机是移动电话、个人数字助理、便携计算机或是混合设备。

15.根据权利要求13的方法,其特征在于:移动设备是使用至少一种属性来描述的。

16.根据权利要求1的方法,其特征在于:使用从包含WAP、HTML、cHTML或XML的群组中选出的标记语言来提交结构化文档,以便进行渐进式传输。

17.根据权利要求1的方法,其特征在于:渐进式传输是借助一个连接实现的,该连接是根据从包括GSM、PDC、GPRS、PPP、HSCSD、WLAN、HiperLAN、IrDa、Bluetooth、IS45、IS95、IMT2000的群组中选出的标准来提供的。

18.一种在传输结构化文档之前对传输序列进行碎片整理以便传送结构化文档的方法,其中所述结构化文档包含模拟成树的节点的子文档,不同子文档之间的上下文链接则被模拟成树向边,此外还将传输序列模拟成为文档传输所选择的树的细节等级上的有序节点集,所述方法包括以下步骤:a)确定树中的节点的总数;

b)作为节点编号的函数,为细节等级上的每个节点调整相关性加权;

其中,节点的相关性加权是与节点编号成反比来进行调整的。

19.根据权利要求18的方法,其特征在于:还包括按照前缀顺序来对树进行遍历,以便为树中的每个节点分配节点编号的步骤。

20.根据权利要求19的方法,其特征在于:在按照前缀顺序对树进行遍历以便为树中的每个节点分配一个节点编号的时候,为每个节点调整相关性加权。

21.根据权利要求18的方法,其特征在于:每个节点的相关性加权是用一个因数调整的,其中将所述因数定义为树中节点总数除以节点编号的结果。

22.根据权利要求18的方法,其特征在于:将细节等级指定成与树的根节点的距离。

23.一种在传输结构化文档之前对传输序列进行碎片整理以便传送结构化文档的方法,其中所述结构化文档包含带有相关的相关性加权的子文档,这些子文档被模拟成图形的节点,不同子文档之间的上下文链接则被模拟成图形弧线,此外还将传输序列模拟成有序节点集,所述方法包括以下步骤:选择相关性加权最高的节点作为经过碎片整理的传输序列中的下一个节点;

使用模拟结构化文档的图形以及最短路径量度来确定从选定节点到那些没有分配给经过碎片整理的传输序列的传输序列节点的距离量度;

作为相关距离量度的函数,对没有分配给经过碎片整理的传输序列的节点的相关性加权进行调整;

以循环方式重复执行先前步骤,直到处理了传输序列中的所有节点为止。

24.根据权利要求23的方法,其特征在于:对没有分配给经过碎片整理的传输序列的节点来说,其相关性加权是与相关距离量度成反比而被调整的。

25.根据权利要求24的方法,其特征在于:通过将节点的相关性加权经由距离量度划分到选定节点来为每个节点调整相关性加权。

26.根据权利要求23的方法,其特征在于:所述图形是一个树。

27.一种用于对结构化文档进行渐进式传输的传输设备,包括:

存储单元,该单元被适配成保存包含具有相关联的相关性加权的子文档的结构化文档,以及依据相关性加权的子文档传输序列;

其特征在于:

碎片化量度单元,该单元被适配成使用碎片化的形式表达并以自动方式来确定传输序列中的碎片化量度,以及将碎片化量度与一个预定阈值相比较;

碎片整理单元,该单元被适配成在传输结构化文档之前,当碎片化量度超出阈值的时候对传输序列进行重新调整;

接口单元,该单元被适配成根据传输序列来交换传输数据。

28.根据权利要求27的传输设备,其特征在于:存储单元被适配成保存作为树的节点的结构化文档的子文档,其中子文档的数目为k,此外还保存了为渐进式传输所选择的树的细节等级。

29.根据权利要求28的传输设备,其特征在于:

存储单元被适配成将一个依照子文档的预定读取顺序的读取序列存储为处于树的细节等级上的有序节点集R=[r1,...rk],存储单元被适配成将用于渐进式传输的传输序列存储为处于树的同一细节等级上的有序节点集R的置换D=[d1,...dk],以及碎片化量度单元被适配成使用一个置换矢量π:{1,...,k}→{1,...,k}来确定传输序列的碎片化量度,所述矢量是依照π(i)=j来定义的,其中ri=dj,i,j∈{1,...,k}。

30.根据权利要求29的传输设备,其特征在于:碎片化量度单元被适配成根据下式来确定一个绝对碎片化量度,所述量度定义的是子分量与其在读取矢量中的原始位置之间的距离之和:Fabs=Σi=1k|π(i)-i|.

31.根据权利要求29的传输设备,其特征在于:碎片化量度单元被适配成根据下式而将绝对碎片化量度归一化成一个相对的碎片化量度:Frel=2(k-1)2Fabs.

32.根据权利要求28的传输设备,其特征在于:碎片化量度单元被适配成确定作为一个非相干比例的碎片化量度,其中所述非相干比例量度的是在生成了传输序列之后,节点在读取序列中的绝对位置发生了多大变化,所述非相干比例是根据下式定义的:Zabs=Σi=1k-1|π(i+1)-π(i)|.

33.根据权利要求32的传输设备,其特征在于:碎片化量度单元被适配成根据下式而将非相干比例归一化成一个相对的非相干比例:Zrel=2k·(k-1)·(Zabs-(k-1)).

34.根据权利要求28的传输设备,其特征在于:碎片化量度单元被适配成确定作为可读性量度的碎片化量度,其中所述可读性量度表示传输序列中有多少节点仍旧处于依照读取序列的顺序中,所述可读性量度是根据下式定义的:

35.根据权利要求34的传输设备,其特征在于:碎片化量度单元被适配成根据下式而将可读性量度归一化成一个相对的可读性量度:Srel=1k-1·Sabs.

36.根据权利要求28的传输设备,其特征在于:碎片化量度单元被适配成为处于树的细节等级上的节点确定碎片化量度,其中所述树的细节等级是为了进行文档传输而被选择的。

37.根据权利要求27的传输设备,其特征在于:存储单元被适配成对那些根据应用的文档模型所定义的子文档数据进行保存。

38.根据权利要求27的传输设备,其特征在于:接口单元被适配成将数据传送到一个移动设备。

39.根据权利要求27的传输设备,其特征在于:所述传输设备是服务器,并且被适配成将数据传送到客户机设备。

40.根据权利要求39的传输设备,其特征在于:所述客户机设备是移动客户机。

41.根据权利要求40的传输设备,其特征在于:存储单元被适配成保存关于移动设备的属性信息。

42.根据权利要求27的传输设备,其特征在于:接口单元被适配成接收与结构化文档相关联的数据,以便使用从包含WAP、HTML、cHTML或XML的群组中选出的标记语言来进行后续的渐进式传输。

43.根据权利要求27的传输设备,其特征在于:接口单元被适配成通过一个连接来进行渐进式传输,其中所述连接是根据从包括GSM、PDC、GPRS、PPP、HSCSD、WLAN、HiperLAN、IrDa、Bluetooth、IS45、IS95、IMT2000的群组中选出的标准来提供的。

44.一种在传输结构化文档之前对其传输序列执行碎片整理的碎片整理设备,包括:

存储单元,该单元被适配成保存结构化文档及其模型,其中所述文档的子文档是以关联于树的节点的方式保存的,不同子文档之间的上下文链接是作为树向边保存的,以及传输序列是作为树的细节等级上的有序节点集来保存的,其中所述树的细节等级是为文档传输而选择的;

处理单元,该单元被适配成确定树中的节点总数;

碎片整理单元,该单元被适配成作为节点编号的函数而为细节等级上的每个节点调整相关性加权;以及其中,处理单元还被适配成与节点编号成反比来为存储单元中的节点调整相关性加权。

45.根据权利要求44的碎片整理设备,其特征在于:处理单元被适配成按照前缀顺序来对树进行遍历,并且将树中每个节点的节点编号保存在存储单元中。

46.根据权利要求45的碎片整理设备,其特征在于:处理单元被适配成在按照前缀顺序对树进行遍历的时候为存储单元中的每个节点调整相关性加权。

47.根据权利要求44的碎片整理设备,其特征在于:处理单元被适配成使用一个因数来为存储单元中的每个节点调整相关性加权,其中将所述因数定义为树中节点总数除以节点编号的结果。

48.一种用于在传输结构化文档之前对结构化文档的传输序列进行碎片整理的碎片整理设备,包括:存储单元,该单元被适配成保存结构化文档的模型,其中所述文档的子文档以及相关联的相关性加权作为图形节点保存,不同子文档之间的上下文链接则是作为图形弧线保存的,以及传输序列是作为有序节点集来进行保存的;

处理单元,具有:

-选择单元,该单元被适配成选择一个相关性加权最高的节点,以此作为经过碎片整理的传输序列中的下一个节点;

-距离量度单元,该单元被适配成使用模拟结构化文档的图形以及最短路径量度来确定从选定节点到那些没有分配给经过碎片整理的传输序列的传输序列的节点的距离量度;

-碎片整理单元,该单元被适配成为那些没有分配给经过碎片整理的传输序列的节点调整相关性加权,其中所述调整是相关距离量度的函数;其中所述处理单元被适配成以循环方式激活选择单元、距离量度单元以及碎片整理单元,直到处理了传输序列中的所有节点为止。

49.根据权利要求48的碎片整理设备,其特征在于:所述碎片整理单元被适配成与相关距离量度成反比来为那些没有分配给经过碎片整理的传输序列的节点调整相关性加权。

50.根据权利要求48的碎片整理设备,其特征在于:所述碎片整理单元被适配成对于那些没有分配给经过碎片整理的传输序列的节点的相关性加权,通过距离量度将节点相关性加权划分到选定节点,由此为这些节点调整相关性加权。

说明书 :

技术领域

本发明涉及一种用于对结构化文档进行渐进式传输的方法,以及应用于传输序列的相关的碎片整理(de-fragmentation)策略。

背景技术

在WO01/46813A1中公开了一种用于下载结构化文档的通信系统,其中,彼此在层次上相互关联的结构化文档的单元文档保存在一个服务器设备中。终端设备获取并显示其中一个结构化文档。服务器设备和终端设备通过一个网络相互连接,以便构成一个通信系统。此外,终端设备向服务器设备告知用户指示显示的文档的标识符。有鉴于此,服务器设备于是发送结构化文档的下一个文档,以便随后将其保存在终端设备中。
此外,在US-A-5,895,476中,公开了一种用于自动重组设计和介质的设计引擎,以支持如印刷等的多种介质形式的自动再现。
2000年7月30日~8月2日,在美国纽约召开了Multimedia AndExpo,2000,ICME2000,2000 IEEE  International Conference OnNew York,该会议论文集是由IEEE,U.S.于2000年7月30日在美国新泽西州皮斯卡塔市出版的,其ISBN号为0-7803-6536-4,其中在第67~70页公开了Girardot M.等人的论文“Efficient representation andstreaming of XML content over the Internet medium”,所述论文的非专利编号是XP010511404,在这篇论文中对XML内容在因特网介质上的有效表示以及XML内容的流式传输进行了描述。
因此,对高效的万维网多媒体数据库和中间件系统进行改进,这是当前计算机科学研究中的一个主题。多媒体内容的传输和管理在本质上不同于对在通信系统中的数字和字符传输数据所进行的处理,它需要的是在传送多媒体数据之前对数据进行处理的全新策略。
对在传输之前确定传输序列的所谓的结构化文档来说,情况则更是如此。对结构化文档而言,假设相关的子文档具有不同的层次等级,那么每个层次等级上的子文档划分和重新排序都会导致出现严重的碎片化(fragmentation)现象。
为了解释这个问题,以下参考图1~4来对碎片化的更多细节进行描述。
如图1所示,结构化文档10的典型实例包含多个子文档,例如标题行12、副标题14、具有相关题注18的图像16、万维网链接20以及不同的文本部分22、24、26、28。
为了改进这种结构化文档的传输,举例来说,已经证实有效的是使用图2所示的树形结构来模拟施加给结构化文档的结构。
如图2所示,所述文档在整体上与根节点相关联。此外,这其中还将上文结合图1所论及的不同子文档模拟为较低层次等级上的树节点。针对这一点,以下将把模拟结构化文档的树中的一个特定层次等级称为细节节点等级。
应用于结构化文档的另一个概念是相关性加权(relevanceweighting)。举例来说,由于移动通信环境中的容量可能是有限的,例如带宽很低,因此相关性加权的主要目的是在传输中为子文档提供优化的传输顺序。
相关性加权应用的另一个实例是首先传递结构化文档中的那些与最终用户的兴趣更为相关的部分。为此,这其中应用了相关性加权来标识承载内容的子文档,由此能够使用一种首先传递加权较高的子文档的方式来改变文档结构。
图3显示的是相关性加权对经过传输的文档的可读性的影响。图3中的左图涉及的是用于自然读取子文档的自然读取序列,它是通过结构化文档的作者来标识的。在这里,横坐标标识的是子文档编号,纵坐标标识的是与每一个单独子文档有关的相关性加权。图3中的右图显示的是在依照子文档的相关性加权而对其进行重新排序之后的相关性加权的分布。
如图4所示,在对子文档进行渐进式传输之前,如果过于简单地将相关性加权应用于子文档,那么将会使最终用户看到的结构化文档被极大地碎片化。
特别地,对涉及移动电话、个人数字助理PDA、便携计算机或混合设备这类显示能力有限的设备的渐进式传输而言,碎片化将会导致出现问题。其中所述显示通常具有一个滚动条28,以便触发显示所传输的结构化文档。在从上向下滚动该滚动条的时候,所传输的结构化文档的不同部分将会显示给用户。
如图4所示,举例来说,相关性加权可能导致出现不再同时显示图1所示图像18以及相关标题行的情形。在执行了渐进式传输之后,碎片化这种结构化文档将会显著降低可察觉性。

发明内容

鉴于上述问题,本发明的一个目的是避免在传输结构化文档的过程中出现碎片化现象。
本发明的另一个目的是提供在依照相关性加权而对结构化文档进行重新排序之后为其执行碎片整理的策略。
根据本发明的第一个方面,这些目的是通过一种用于渐进式传输结构化文档的方法来实现的。所述结构化文档包含具有相关联的相关性加权的子文档。在这里可以假设子文档的传输序列是根据相关性加权产生的,但这并不对本发明的范围构成限制。
依照本发明,在本文中首次建议在显示了结构化文档之后对依照相关性加权所导出的传输序列进行修改,从而提高最终用户的可理解性。
此前则是建议使用碎片化的形式表达,这种形式表达构成了自动操作碎片整理处理的基础。
只要可以使用碎片化的形式量度,则可以将其与一个阈值相比较。一旦碎片化超出该阈值,则可以将某种碎片整理策略应用于预备的传输序列。非常重要的是,在这里应该指出,本发明并不局限于特定类型的碎片整理策略。
依照一个优选实施例,在这里将结构化文档的子文档模拟为有序的树的节点,其中子文档的数目为k,渐进式传输则是在为文档传输所选择的树的细节等级上实现的。
根据以上概述的优选实施例,在传输结构化文档内容之前,可以很容易应用结构化文档内容的不同抽象层次。在为文档传输所选择的树中,细节等级越低,提供给最终用户的信息就越详细。由此下文中描述的碎片整理策略将是非常相关的,对进行文档传输的较低细节等级而言则更是如此。
根据另一个优选实施例,依据预定的子文档读取顺序的读取序列是处于树R=[r1,...rk]的细节等级上的有序节点集,用于渐进式传输的传输序列是处于树D=[d1,...dk]的细节等级上的有序节点集,碎片化量度则是使用一个置换矢量π:{1,...,k}→{1,...,k}来确定的,该矢量是依照π(i)=j定义的,其中ri=dj,i,j∈{1,...,k}。
这个优选实施例涉及的是一种表示读取序列和传输序列的形式化方法。此外,作为将碎片化的形式量度应用于不同的碎片整理策略的一个必要条件,它还涉及将一个置换矢量应用于这种序列。
根据另一个优选实施例,所述碎片化量度是一个绝对碎片化量度,它定义的是子分量与其在读取矢量中的原始位置之间的距离之和。
这个优选实施例的优点在于:只要对上述置换矢量执行一次扫描,就可以很容易地确定碎片化量度。此外,它还给出了有必要在传输子文档之前对其进行碎片整理的指示。
根据另一个优选实施例,碎片化量度是一个非相干比例,它量度的是在读取系列中的节点的绝对位置在生成传输序列之后发生了多大变化。
如果一开始将这些子文档调整为是相邻的,或者在传输了结构化文档之后再次将其调整成相邻,也就是非相干程度很低的话,那么最终用户的感觉将会得到改善。因此,作为碎片化量度的这种非相干比例具有直接与最终用户的感觉相关联的优点。
根据另一个优选实施例,碎片化量度是一个可读性量度,它表示的是在传输序列中有多少节点仍旧处于依据读取序列的顺序之中。
这个碎片化量度具有如下优点,那就是它提供了在传输之后仍旧保持读取序列的子文档的绝对数目的指示。
优选地,在这里可以对不同的碎片化量度进行归一化。
对不同碎片化量度执行归一化是非常有利的,由此碎片化量度将与文档大小无关。
根据本发明的另一个优选实施例,子文档包括依照特定应用的文档模型所定义的数据。
本发明的这个优选实施例允许对那些为任何类型的应用所设计的结构化文档执行碎片整理。换句话说,量度碎片整理的不同概念以及相关的碎片整理策略可以应用于任何类型的应用。然而,在这里不应该将子文档的典型实例解释成是对本发明进行限制,其中这些实例包括标题行、作者、标题、图像、照片和/或文本子文档。
根据本发明的另一个优选实施例,渐进式传输是相对于移动设备而实现的,例如移动电话、个人数字助理、便携计算机或是任何类型的混合设备。
因此,本发明适合一种与传输目标无关的传输。当传输目标只具有有限显示能力时,本发明的应用将是非常有益的,在这里可以不失一般性地将其用于移动设备的典型实例,例如移动电话、个人数字助理PDA、便携计算机或是任何类型的混合设备。
根据本发明的另一个实施例,结构化文档是通过使用从包含WAP、HTML、cHTML或XML的群组中选出的标记语言来提交的,由此进行渐进式传输。
本发明的这个优选实施例涉及的是本发明的典型应用方案,然而这并不对本发明的范围构成限制。例如,HTML可能非常适合因特网应用。WAP则适合在GSM中将结构化文档传输到移动设备。另一个实例则是cHTML应用,它可以为传送结构化文档的方法在IMT2000之类的imode应用内部的应用构成一个基础。此外,imode结构化文档的传输也可以基于普通的XML格式以及普通的XML文档。
根据本发明的另一个实施例,渐进式传输是借助一个连接实现的,该连接是根据一种从包括GSM、PDC、GPRS、PPP、HSCSD、WLAN、HiperLAN、IrDa、Bluetooth、IS45、IS95、IMT2000的群组中选出的标准来提供的。
特别地,本发明的这个优选实施例不但适合移动通信应用,而且还适合将结构化文档传递给移动设备。在这里,GSM、PDC、GPRS、IS45、HSCSD都是支持所述移动通信的标准。相同的情况也适用于IS95和代表宽带CDMA的IMT2000。
然而,本发明也适用于无线局域网应用,例如WLAN、HiperLAN。
基于移动通信而将结构化文档传送给最终用户设备的其他实例是依照IrDa的红外传输,或者是使用了蓝牙标准的短距离移动通信。
特别地,不论何种设备接收文档数据,并且不论是以上概述的哪一个实施例,本发明都适合客户机/服务器结构的应用,其中举例来说,渐进式传输方法是在内容传递服务器之类的服务器端应用的。
根据另一个方面,本发明涉及一种通过对传输序列进行碎片整理来传输结构化文档的方法。所述结构化文档包含了模拟成树节点的子文档。不同子文档之间的上下文链接则被模拟成树向边,此外还将传输序列模拟成在为文档传输所选择的树的细节等级上的有序节点集。该方法确定树节点的总数,并且在作为节点编号函数的细节等级上为每一个节点调整相关性加权。
从最概括的意义上讲,节点编号函数是一个取决于所处理的节点的顺序,例如节点编号的递减函数。
这种用于碎片整理的第一策略允许在顾及结构化文档整体结构特性的情况下,根据预备传输序列来减少文档的碎片化。
特别地,第一碎片整理策略允许对自然预定读取序列加以考虑,以便实现碎片整理。
这种第一碎片整理策略的一个特殊的优点是可以将其应用于移动环境。
由于带宽和移动设备能力有限,因此通常会将传递子文档传输的细节等级选择的比较低。然而,等级细节越低,严重碎片化的风险也就越高。这也是上述碎片整理策略特别有利的一个原因。
根据另一个优选实施例,在碎片整理方法中将会按照前缀顺序来对树进行遍历,从而为树中的每个节点分配节点编号。
本发明的这个优选实施例基于这样一种假设,那就是结构化文档中的子文档具有内在的层次结构。因此,与树中的较低等级相比,树中的较高等级表示的是较不详细的信息。因而信息相关性是通过树中的相关节点的编号来反映的。
因此,在这里很自然地使用这个相关性信息来修正子文档的相关性加权。一旦调整或者等价地修改了不同节点的相关性加权,则可以对应于经过修正的相关性加权来修正预备传输序列。
根据所述碎片整理方法的另一个优选实施例,其中每个节点的相关性加权是在按照前缀顺序对树进行遍历,以便将节点编号分配给树中每个节点的时候调整的。
本发明的这个优选实施例具有只要对树进行一次遍历就可以分配节点编号和调整每个节点的相关性加权的优点。由此降低了碎片整理程序的复杂性。
根据一个优选实施例,节点的相关性加权是与节点编号成反比来进行调整的,例如结合一个定义为与节点编号相除的树节点总数的因数来进行调整。
本发明的这个优选实施例涉及这样一个事实,即树中等级较高的节点的相关性加权的提升在直觉上应该大于涉及更详细信息的树中层次等级较低的节点的相关性加权。
根据另一个方面,本发明涉及一种通过对传输序列进行碎片整理来传送结构化文档的第二方法。结构化文档包括具有相关联的相关性加权的子文档,其中将所述子文档模拟为图形节点。此外还将不同子文档之间的上下文链接模拟成图形弧线,并且将传输序列模拟成一个有序节点集。在第一个步骤中,选择相关性加权最高的节点作为经过碎片整理的传输序列中的下一个节点。然后在第二个步骤中,使用模拟结构化文档的图形以及最短路径量度来确定从选定节点到那些没有分配给经过碎片整理的传输序列的传输序列节点的距离量度。在第三个步骤中,根据相关距离量度的函数来对那些没有分配给经过碎片整理的传输序列的节点的相关性加权进行调整。然后则以循环方式重复执行第一到第三个步骤,直到处理了传输序列中的所有节点为止。
以上概述的第一种碎片整理方法考虑的是结构化文档的读取序列。作为补充,这个第二碎片整理方法并不局限于树中单独的层次等级,而是允许将所述概念推广到常规的图形或是树中的若干个层次等级。
特别地,这其中将对相关性加权进行多次调整,以便更准确地使用可用结构信息来描述文档。
根据一个优选实施例,对没有分配给经过碎片整理的传输序列的节点来说,其相关性加权是与相关距离量度成反比而被调整的,例如将节点的相关性加权通过距离量度划分到选定节点来对所述加权进行调整。
本发明的这个优选实施例考虑到了在传输序列的循环处理过程中恰当地选择下一个节点。然后,根据选择的下一个节点,确定从该节点到传输序列中迄今为止仍未处理的那些元素之间的距离。
第一个优点是灵活地根据最高相关性加权来选择下一个节点,其中有可能在碎片整理中预先对所述加权进行了修改。
第二个优点是通过重新计算相关性加权而在循环的碎片整理过程的相关阶段得到最合适的子文档上下文的图像。
总的来说,根据本发明的这种碎片整理方法允许动态适应于相关性加权。
根据本发明的另一个优选实施例,在这里提供了一种可以直接加载到内容传递设备的内部存储器中的计算机程序产品,所述产品包含软件代码部分,当所述产品在内容传递设备的处理器上运行的时候,所述代码部分将会执行本发明的渐进式传输和碎片整理步骤。优选地,所述内容传递设备可以是内容传递服务器或是传递内容的便携式计算设备。
因此,通过提供本发明,可以在计算机或处理器系统上执行本发明的方法步骤。总之,这种实施方式导致产生了与计算机系统结合使用的计算机程序产品,尤其是与一个在例如移动通信环境中操作的处理器结合使用的计算机程序产品。
这个定义本发明功能的程序可以通过多种方式传递到计算机/处理器,其中包括但不局限于永久保存在处理器或计算机I/O附件可读的非易失存储介质上的信息,例如ROM或CD-ROM盘片之类的只读存储器设备;保存在软盘和硬盘驱动器这类可写存储介质上的信息;或是借助调制解调器或其他接口设备并通过网络和/或因特网和/或电话网络这样的通信介质传递到计算机/处理器的信息。应该理解的是,在传送那些用于执行本发明的构思的计算机可读指令时,这些介质代表了本发明的替换实施例。

附图说明

以下参考附图来对本发明的优选实施例进行描述,其中:
图1显示的是结构化文档及其子文档构成部分的实例;
图2显示的使用树形模型来模拟结构化文档;
图3显示的是相关性加权在结构化文档中依照自然读取序列的分布及其在依照相关性加权执行了重新排序之后的分布;
图4显示的是在依照加权对结构化文档进行重新排序之后,碎片化对结构化文档的显示所产生的影响;
图5显示的是根据本发明的传输设备的示意图;
图6显示的是根据本发明的渐进式传输方法的流程图;
图7显示的是根据本发明的第一碎片整理策略的一个实例;
图8显示的是根据本发明的第一碎片整理方法的流程图;
图9显示的是根据本发明的第二碎片整理策略的一个实例;
图10显示的是根据图9所示实例的碎片整理循环;
图11显示的是根据本发明的碎片整理设备的示意图;
图12显示的是根据本发明的第二碎片整理方法的流程图;
图13显示的是将本发明应用于客户机/服务器环境的一个实例;
图14显示的是本发明的应用所实现的结果;以及
图15显示的是本发明的应用所实现的其他结果。

具体实施方式

以下参考附图来对本发明的优选实施例进行描述。
在此以前,首先将对用于量度文档碎片化的不同的形式表达进行解释。
然后参考图5和6来描述这种形式表达在渐进式传输方法中的应用。
此后则参考图7~13来描述依照本发明的不同的碎片整理方法,其后则参考图14和15而对结果进行论述。
如上所述,一种表示结构化文档的方法是树形模型,其中所述结构化文档中的子文档的数目为k。可选地,渐进式传输是根据为文档传输所选择的树中的一个层次等级来实现的,以下将其称为细节等级。
在使用这种表达的情况下,依照子文档的预定读取顺序的读取序列是处于树中细节等级上的一个有序节点集:
R=[r1,...,rk]
此外,用于渐进式传输的传输序列是根据下式的树的细节等级上的一个有序节点集:
D=[d1,...,dk]
用于确定碎片化量度的基础是根据π(i)=j定义的置换矢量π:{1,...,k}→{1,...,k},其中ri=dj,i,j∈{1,...,k}。
关于碎片化量度的第一个实例是根据下式的绝对碎片化量度,它定义的是子分量与其在读取序列中的原始位置之间的距离之和:
Fabs=Σi=1k|π(i)-i|
关于这个绝对碎片化量度上限的估计是:
Fabs(k-1)22
通过获取这个上限,可以根据下式来定义一种独立于文档长度的经过归一化的绝对碎片化的方法:
Frel=2(k-1)2Fabs
关于碎片化量度的另一个实例择是非相干比例,它量度的是在生成了传输序列之后,节点在读取序列中的绝对位置发生了多大变化。
所述非相干比例是根据下式定义的:
Zabs=Σi=1k-1|π(i+1)-π(i)|
在这里可以将这个非相干比例的上限估计成:
Zabsk·(k-1)2
同样,在这里可以根据下式并且使用这个上限来确定独立于文档长度的归一化的非相干比例:
Zrel=2k·(k-1)·(Zabs-(k-1))
另一个关于碎片化量度的实例是可读性量度,它表示的是在根据下式应用了初始相关性加权之后,传输序列中还有多少节点仍旧处于依照初始读取序列的顺序之中:

同样,在这里可以根据下式来归一化这个碎片化量度,以避免依赖于文档长度:
Srel=1k-1·Sabs
在下文中将会描述如何将这种文档碎片化的形式表达应用在一个根据本发明来进行渐进式传输的传输设备中。
如图5所示,传输设备30包含一个存储单元32,该单元被适配成保存具有子文档和相关联的相关性加权的结构化文档,以及用于这些子文档的传输序列。
如图5所示,传输设备30还包括一个碎片化量度单元34,该单元被适配成使用以上概述的碎片化形式表达之一来量度传输序列中的碎片化,一旦应用相关联的相关性加权来进行重新排序,则相应地对子文档和预备传输序列进行适配。
如图5所示,传输设备30还包括一个碎片整理单元36,它被适配成对已确定的碎片化量度以及一个阈值进行比较,并且进一步被适配成在碎片化量度超出所述阈值的时候应用碎片整理策略。
如图5所示,传输设备30还包括一个接口单元38,该单元被适配成交换传输数据,也就是接收预备传输序列和相关结构化文档信息,或者在确定了传输序列的时候将结构化文档转发给最终用户。
现在参考图6所示的流程图来对图5所示的传输设备的操作进行描述。图6显示的是依据图5所示的传输设备的操作的流程图。
如图6所示,作为依照本发明的渐进式传输方法的开端,在步骤S10中将会产生一个传输序列。作为选择,这个传输序列也可以作为输入提供给所述渐进式传输方法。
然后,在步骤S12中将会使用不同的碎片化的形式表达来确定碎片化量度。应该指出的是,自动确定碎片化量度的操作是以这种形式化为基础的。此外,依照本发明的碎片整理方法的应用也是以这种形式化为基础的。在下文中将会参考图7~12来对所述方法进行更详细的论述。
如图6所示,在步骤S14中将已确定的碎片化量度与一个阈值进行比较。如果超出该阈值,那么在步骤S18中的渐进式传输之前,在步骤S16中将会应用一种碎片整理策略。否则将从询问步骤S14直接前进到步骤S18,以便进行渐进式传输。
在下文中将会参考图7到12来对依照本发明的碎片整理的更多细节加以说明。特别地,图7和8涉及的是依据本发明的第一碎片整理方法,图9~12涉及的是依据本发明的第二碎片整理方法。
图7显示的是应用根据本发明的第一碎片整理方法的实例。
对图7所示实例而言,假设结构化文档包含模拟成树节点1、......、8的子分量。并且将不同子文档之间的上下文链接模拟为树向边,而将传输序列模拟成为文档传输所选择的树的某个细节等级上的有序节点集,例如节点2和6或是节点3、4、5、7、8。
如图7所示,在这里首先确定树中节点的总数,在本实例中为8。此外,在这里还根据前缀顺序而为树中的各个节点指定一个节点编号1,...,8。其中第一个选择是文档相关数据包括这个信息。第二个选择则是在按照前缀顺序对树进行遍历的过程中指定节点编号。
一旦树中的节点总数和节点编号可用,则可以为每个节点调整相关性加权,由此可以为处于某个细节等级上的每个子文档调整相关性加权,其中所述细节等级是为文档传输而选择的,所述调整则是节点编号的一个函数。
这种函数实例以前是与节点编号成反比来对相关性加权进行调整,例如根据树中的节点总数除以相关节点编号的结果来为每个节点调整相关性加权。
假设图7所示实例的细节等级为2,初始的相关性加权分别从18、16、20、49、50更新成48、32、32、56、50。
根据图7所示实例的生成结果,可以设想一个与节点编号相除的实数α。
从上文给出的实例中可以了解,要对相关性加权进行调整,则需要对树进行遍历。根据本发明,节点编号为通过对树进行遍历而为节点提供的,从上述意义上讲,在这个对树进行遍历的过程中可以同时对相关性加权进行调整,以便降低复杂性。
图8显示的是参考图7所描述的碎片整理方法的流程图表示。
如图8所示,在第一个步骤S20中将会确定树中节点的总数。在第二个步骤S22中为树中每个节点分配一个节点编号,如果可以从关于结构化文档的信息中得到相关数据,那么步骤S22是可选的。然后,在步骤S24中对树中的节点的相关性加权进行调整,以便进行碎片整理。
以下将会使用伪代码表示来给出按照前缀顺序对树进行遍历的过程表示,以及相关联的节点相关性加权的修改。
第一个程序是具有下列表示的程序前缀:
1.   Procedure prefix(n:Node,p:N):N
2.   Begin
3.      pos(n):=p;last:=p;
4.      chldrn:=children(n);
5.      while(chldrn<>[])do
6.         last:=prefix(head(chldrn),last+1);
7.         chldrn:=tail(chldrn);
8.      end
9.      return last;
10.  End
程序前缀接收一个节点列表以及根节点的初始编号,例如数值1。根据第1和6行,在这里循环应用程序前缀,以便按照前缀顺序来对树进行遍历。
为此目的,在每次初始化程序前缀的时候都会为每个节点分配一个节点编号,在第3行中则将其称为pos,其值则记录在一个变量last中。
此外,在第4行设定了一个子列表,以此作为当前节点的子列表。虽然这个列表是一个非空列表,但是在第6行中,程序前缀将会循环应用于所述列表的元素,这一次则是使用子列表以及编号递增的节点(last+1)作为调用参数。
为了对下至叶节点的树的不同层次等级进行遍历,在第7行将子列表修改到这个列表的尾部。对程序前缀的每个调用而言,第9行为其返回的是在子树遍历过程指定给节点的最后一个编号。
在下文中将对经过修改的程序S-ORDER进行说明,该程序同样允许在为树的节点分配节点编号的同时修改节点的相关性加权,其伪代码表示如下:
1.  Procedure S-ORDER(n:Node,p:N):N
2.  Begin
3.     pos(n):=p;last:=p;
4.     v(n):=(total/pos(n))*v(n);
5.     chldrn:=children(n);
6.     while(chldrn<>[])do
7.        last:=S-ORDER(head(chldrn),last+1);
8.        chldrn:=tail(chldrn);
9.     end
10.    Return last;
11.  End
在这里,第4行添加了一个修改节点加权的附加命令。所述修改是将初始相关性加权与树中的节点总数相乘,然后将其与分配给节点的节点编号相除得到的。应该指出的是,这只是一个非限定性实例,任何类型的相关性加权更新在程序S-ORDER中都是适用的。
对修改后的程序前缀来说,它的其他步骤与上文概述的内容是相同的。
过程S-ORDER的优点在于:在没有将节点编号输入上述碎片整理方法时,只需要对树执行一次遍历,由此降低了复杂性。
以下参考图9~12来描述依照本发明的碎片整理方法的另一个实施例。
在此之前,图9显示的是一个对将另一种碎片整理方法应用于模拟结构化文档结构的树的操作进行描述的实例,在这个实例中,细节等级为2,用于表示渐进式传送文档的节点是3、4、5、7和8。
此外,假设这些节点的初始相关性加权分别是192、176、160、195和100。
依照另一种碎片整理策略,在这里建议选择相关性加权最高的节点,也就是相关性加权为195的节点7,以此作为生成经过碎片整理的传输序列的过程中的下一个节点。
然后,从最短路径量度这个意义上讲,对从这个选定节点到树中不同节点的距离进行确定,也就是确定从例如节点7到节点6的距离1、到节点8的距离2等等。
随后则根据相关距离来更新剩余节点的相关性加权。
在图10中以表格形式显示了这个步骤的结果。
图10显示的是在每个重复过程中将一个节点从传输序列D分配到经过碎片整理的传输序列D’。此外,同一表格还显示出传输序列中并未分配给经过碎片整理的传输序列D’的节点是依据更新后的相关性加权的值来进行排序的。
如图9和10所示,在第一个步骤中,在将节点7分配给经过碎片整理的传输序列之后,要选择的下一个节点是节点3,在将初始值192与相关距离值4相除之后,它将会具有最高相关性加权48。因此,在这里将节点3分配到经过碎片整理的传输序列中的第二个位置。
在图10的表格中,其他各行显示的是上述碎片整理程序的循环应用,最后一个经过碎片整理的传输序列D’是:7,8,3,4,5。
图11显示的碎片整理设备的示意图,所述设备适合执行参考图9和10的实例所描述的依据本发明的第二碎片整理方法。
如图11所示,所述碎片整理设备包括一个存储单元42和一个处理单元44。处理单元44分为选择单元45、距离量度单元46以及调整单元47。
图12显示的是根据图11所示的碎片整理设备的操作并且参考图9和10所描述的第二碎片整理方法的流程图。
如图12所示,依据第二碎片整理方法,在第一个步骤S30中选择一个相关性加权最高的节点。然后,在第二个步骤S32中使用模拟结构化文档的图形以及最短路径量度而从选定节点确定距离量度。然后,在步骤S34中为那些并未分配给经过碎片整理的传输序列的节点调整相关性加权。其中所述调整是使用相关距离量度的函数来实现的。
如图12所示,在这里将会循环应用步骤S30~S34,直到将渐进式传输序列中的所有元素都传送到经过碎片整理的传输序列为止。
应该指出的是,根据本发明,在这里并未对节点中的相关性加权的调整给出任何特殊的限制。
从最为概括的意义上讲,所述调整是一个依据所处理节点顺序的递减函数,例如节点编号。因此,其中一种实施方式是如上所述将节点的相关性加权与其到选定节点之间的距离相除。
下文中给出了根据本发明的第二碎片整理方法的形式表示。在这里,程序S-DISTANCE是如下所示循环应用于树的一系列节点的:
1.  Procedure S-DISTANCE(D:List(Node))
2.  Begin
3.     first:=head(D);rest:=tail(D);
4.     Foreach(c in rest)do
5.        v(c):=v(c)/dist(C,first);
6.     S-DISTANCE(sort(<=,v,rest));
7.   End
如上文中参考图9~12和本发明相关实施例所述,在程序S-DISTANCE的第5行中更新了那些没有分配给经过碎片整理的传输序列的节点的相关性加权。应该指出的是,这只是一个非限定性实例,在程序S-DISTANCE中,任何类型的相关性加权更新都是适用的。
在第6行中,S-DISTANCE程序的循环调用将会使用一个提供节点列表的排序程序,以便结合经过更新的相关性加权的上升顺序来对节点进行后续处理。因此,选择分配给经过碎片整理的传输序列的下一个节点即为列表的顶点。
图13显示的是将本发明应用于客户机/服务器环境、尤其是涉及移动通信的客户机/服务器环境的一个实例。
如图13所示,如上所述的渐进式传输是相对于一个移动设备来实现的,例如移动电话、个人数字助理、便携计算机或是任何类型的混合设备。虽然没有显示,但是本发明同样适用于固定网络中的客户机/服务器环境。
如图13所示,移动设备可以是任何类型的设备。相关实例包括移动电话、个人数字助理PDA、便携计算机或是任何类型的混合设备(未显示),但这并不对本发明的范围构成限制。
根据本发明的另一个实施例,渐进式传输是通过一个连接来实现的,该连接是依据一个从以下群组中选出的标准而被提供的,该群组包括:GSM、PDC、GPRS、PPP、HSCSD、WLAN、HiperLAN、IrDa、Bluetooth、IS45、IS95、IMT2000。
特别地,本发明的这个优选实施例不但适合移动通信应用,而且还适合将结构化文档传送到移动设备。在这里,GSM,PDC,GPRS,PPP,IS45,HSCSD都是支持所有移动通信的标准。相同的情况也适用于IS95以及代表了宽带CDMA的IMT2000。
然而,本发明还适合无线局域网应用,例如WLAN、HiperLAN。
如图13所示,服务器与客户机之间的通信是无线的,其中没有对例如根据移动通信标准GSM、PDC、GPRS、PPP、HSCSD、IS45、IS95、IMT2000的物理层做出任何限制。另一个实例则是局部网相关标准的应用,其中所述局域网相关标准包括WLAN、HiperLAN、Bluetooth或是使用了IrDA的红外传输。
图14和15显示的是借助于本发明的应用所实现的结果。
特别地,图14显示的是一个用于四种情况的文档量度值:
情况1:在没有应用根据本发明的碎片整理方法的情况下,将相关性加权应用于初始传输序列之后的文档碎片化;
情况2:在将相关性加权应用于初始传输序列并且应用了根据本发明的第一碎片整理方法之后的文档碎片化;
情况3:在将相关性加权应用于初始传输序列并且应用了根据本发明的第二碎片整理方法之后的文档碎片化;
情况4:在将相关性加权应用于初始传输序列并且应用了根据本发明的第一和第二碎片整理方法之后的文档碎片化;
图14显示的是为50种不同的结构化文档实现的结果。这其中分别将量度值在不同情况下的分布以及绝对碎片化量度值、非相干碎片化量度值、可读性量度值这些相关联的经过归一化的碎片化数值显示成介于下限值与上限值之间的线条。此外在这里还使用了矩形来分别描绘均值和方差,在所述矩形中,中线与均值相对应。
如图14的上部所示,第一碎片整理方法与第二碎片整理方法的应用全都能够显著改进绝对碎片化量度和非相干碎片化量度。同时,可读性量度值也得到了显著的改进。
如图15所示,在应用了根据本发明的碎片整理方法之后,对用于文档碎片整理的不同量度值进行优化只会对相关性加权的分布产生很小的影响。换句话说,在依照本发明的渐进式传输方法中,首先传送的仍旧是相关性加权很高的子文档。