基于内容特征信息对链接进行去重处理的方法与设备转让专利

申请号 : CN201010624368.7

文献号 : CN102063498B

文献日 : 2013-01-30

本发明的目的是提供一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法与设备。其中，去重设备获取多个第一链接；对所述第一链接所指向的资源文件执行基于摘要算法的处理操作，以获取与所述第一链接相对应的内容特征信息；根据所述内容特征信息，并结合所述第一链接所属的站点，对所述多个第一链接进行分组，以获取一个或多个第一链接集，其中，所述第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接；对所述第一链接集进行去重处理。本发明使得存储这些链接的设备减少了存储空间，并降低了对这些链接进行后期检测的成本，同时在将去重后的链接作为搜索结果提供给用户时，使得用户获得更好的搜索体验。

1.一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法，其中，该方法包括以下步骤：a获取多个第一链接，其中，所述第一链接指向资源文件；

b对所述第一链接所指向的资源文件执行基于摘要算法的处理操作，以获取与所述第一链接相对应的内容特征信息；

c根据所述内容特征信息，并结合所述第一链接所属的站点，对所述多个第一链接进行分组，以获取一个或多个第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接；

d对所述第一链接集中的第一链接进行去重处理。

2.根据权利要求1所述的方法，其中，所述步骤d中对所述第一链接集中的第一链接的去重处理基于以下至少任一项：-所述第一链接集中第一链接的抓取时间；

-所述第一链接集中第一链接的产生时间；

-所述第一链接集中第一链接对应的网页的流量；

-所述第一链接集中第一链接对应的网页的权威度。

3.根据权利要求1或2所述的方法，其中，所述步骤b被进一步限定为：-按照预定数据量，对所述第一链接所指向的资源文件执行所述处理操作，以获取与所述第一链接相对应的内容特征信息。

4.根据权利要求3所述的方法，其中，所述预定数据量基于以下至少任一项：-所述资源文件的预定大小的头部数据；

-所述资源文件的预定大小的尾部数据；

-所述资源文件的全部数据。

5.根据权利要求1所述的方法，其中，所述步骤c被进一步限定为：-根据所述内容特征信息对所述第一链接进行分组，以获取一个或多个候选链接集，其中，所述候选链接集包括多个内容特征信息相同的第一链接；

-根据所述候选链接集中第一链接所属的站点，对所述候选链接集进行分组，以获取所述第一链接集。

6.根据权利要求1所述的方法，其中，所述步骤c被进一步限定为：-根据所述内容特征信息，并结合所述第一链接所指向的资源文件的资源相关信息及所述第一链接所属的站点，对所述第一链接进行分组，以获取所述第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。

7.根据权利要求6所述的方法，其中，所述资源相关信息包括以下至少任一项：-资源文件的格式；

-资源文件的时长；

-资源文件的数据量大小；

-图片类型资源文件的图片尺寸。

8.根据权利要求1所述的方法，其中，该方法还包括：-对所述第一链接集进行预处理操作，以获得待去重的第一链接集；

其中，所述预处理操作基于以下至少任一项：-所述第一链接集中第一链接的数量；

-所述第一链接集中第一链接所指向的资源文件的大小；

其中，所述步骤d还包括：

-对所述待去重的第一链接集中的第一链接进行去重处理。

9.根据权利要求1所述的方法，其中，所述摘要算法包括以下至少任一项：-MD5算法；

-SHA算法。

10.根据权利要求1所述的方法，其中，所述资源文件包括以下至少任一项：-音乐文件；

-视频文件；

-图片文件；

-文本文件。

11.一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的设备，其中，该设备包括：获取装置，用于获取多个第一链接，其中，所述第一链接指向资源文件；

处理装置，用于对所述第一链接所指向的资源文件执行基于摘要算法的处理操作，以获取与所述第一链接相对应的内容特征信息；

分组装置，用于根据所述内容特征信息，并结合所述第一链接所属的站点，对所述多个第一链接进行分组，以获取一个或多个第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接；

去重装置，用于对所述第一链接集中的第一链接进行去重处理。

12.根据权利要求11所述的设备，其中，所述去重装置中对所述第一链接集中的第一链接的去重处理基于以下至少任一项：-所述第一链接集中第一链接的抓取时间；

-所述第一链接集中第一链接的产生时间；

-所述第一链接集中第一链接对应的网页的流量；

-所述第一链接集中第一链接对应的网页的权威度。

13.根据权利要求11或12所述的设备，其中，所述处理装置被进一步限定来用于：-按照预定数据量，对所述第一链接所指向的资源文件执行所述处理操作，以获取与所述第一链接相对应的内容特征信息。

14.根据权利要求13所述的设备，其中，所述预定数据量基于以下至少任一项：-所述资源文件的预定大小的头部数据；

-所述资源文件的预定大小的尾部数据；

-所述资源文件的全部数据。

15.根据权利要求11所述的设备，其中，所述分组装置被进一步限定来用于：-根据所述内容特征信息对所述第一链接进行分组，以获取一个或多个候选链接集，其中，所述候选链接集包括多个内容特征信息相同的第一链接；

-根据所述候选链接集中第一链接所属的站点，对所述候选链接集进行分组，以获取所述第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接。

16.根据权利要求11所述的设备，其中，所述分组装置被进一步限定来用于：-根据所述内容特征信息，并结合所述第一链接所指向的资源文件的资源相关信息及所述第一链接所属的站点，对所述第一链接进行分组，以获取所述第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。

17.根据权利要求16所述的设备，其中，所述资源相关信息包括以下至少任一项：-资源文件的格式；

-资源文件的时长；

-资源文件的数据量大小；

-图片类型资源文件的图片尺寸。

18.根据权利要求11所述的设备，其中，该设备还包括：预处理装置，用于对所述第一链接集进行预处理操作，以获得待去重的第一链接集；

其中，所述预处理操作基于以下至少任一项：-所述第一链接集中第一链接的数量；

-所述第一链接集中第一链接所指向的资源文件的大小；

其中，所述去重装置还用于：

-对所述待去重的第一链接集中的第一链接进行去重处理。

19.根据权利要求11所述的设备，其中，所述摘要算法包括以下至少任一项：-MD5算法；

-SHA算法。

20.根据权利要求11所述的设备，其中，所述资源文件包括以下至少任一项：-音乐文件；

-视频文件；

-图片文件；

-文本文件。

基于内容特征信息对链接进行去重处理的方法与设备

技术领域

[0001] 本发明涉及网络搜索技术领域，尤其涉及一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的技术。

背景技术

[0002] 随着互联网的飞速发展，网络中存在大量重复的资源文件。例如，大多数用户会将其希望分享的资源文件上传至网络，对于热门的、或者受欢迎度较高的资源文件，会被许多用户上传至网络，这必然造成相同的资源文件被重复上传。同时，不同的网站也会转载、引用以及提供下载相同的资源文件，这进一步扩大了网络中重复资源文件的数量。

[0003] 然后，搜索引擎通过“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等网页抓取工具从网络中抓取网页时，对抓取到的网页不做区分，这些网页中可能包括指向相同的资源文件的网页。如果不对这些指向相同的资源文件的网页去重，搜索引擎在抓取这些网页后，需要大量的存储空间来存储这些网页，并且还需要分配更多的检测设备对存储的网页进行后期检测。

[0004] 因此，如何提供一种基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法，成为目前急需解决的问题之一。

发明内容

[0005] 本发明的目的是提供一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法与设备。

[0006] 根据本发明的一个方面，提供了一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法，其中，该方法包括以下步骤：

[0007] a获取多个第一链接，其中，所述第一链接指向资源文件；

[0008] b对所述第一链接所指向的资源文件执行基于摘要算法的处理操作，以获取与所述第一链接相对应的内容特征信息；

[0009] c根据所述内容特征信息，并结合所述第一链接所属的站点，对所述多个第一链接进行分组，以获取一个或多个第一链接集，其中，所述第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接；

[0010] d对所述第一链接集进行去重处理。

[0011] 根据本发明的另一个方面，还提供了一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的设备，其中，该设备包括：

[0012] 获取装置，用于获取多个第一链接，其中，所述第一链接指向资源文件；

[0013] 处理装置，用于对所述第一链接所指向的资源文件执行基于摘要算法的处理操作，以获取与所述第一链接相对应的内容特征信息；

[0014] 分组装置，用于根据所述内容特征信息，并结合所述第一链接所属的站点，对所述多个第一链接进行分组，以获取一个或多个第一链接集，其中，所述第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接；

[0015] 去重装置，用于对所述第一链接集进行去重处理。

[0016] 与现有技术相比，本发明基于内容特征信息对指向相同资源文件的多个链接进行去重处理，使得存储这些链接的设备，如搜索引擎服务器减少相应的存储空间，并降低了对这些链接进行后期检测的成本，同时在将去重后的链接作为搜索结果提供给用户时，使得用户获得更好的搜索体验。

附图说明

[0017] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

[0018] 图1示出根据本发明一个方面的用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的去重设备的示意图；

[0019] 图2示出根据本发明另一个方面的用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法流程图。

[0020] 附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

[0021] 下面结合附图对本发明作进一步详细描述。

[0022] 图1为根据本发明一个方面的设备示意图，示出用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的去重设备。其中，去重设备1包括获取装置11、处理装置12、分组装置13和去重装置14。具体地，获取装置11获取多个第一链接，其中，所述第一链接指向资源文件；随后，处理装置12对所述第一链接所指向的资源文件执行基于摘要算法的处理操作，以获取与所述第一链接相对应的内容特征信息；接着，分组装置13根据所述内容特征信息，并结合所述第一链接所属的站点，对所述多个第一链接进行分组，以获取一个或多个第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接；随后，去重装置14对所述第一链接集进行去重处理。

[0023] 在此，去重设备1包括但不限于搜索引擎服务器以及与其相连的其他服务器等计算设备，其中，计算设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合。本领域技术人员应能理解上述去重设备仅为举例，其他现有的或今后可能出现的去重设备如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0024] 更具体地，获取装置11获取多个第一链接，其中，所述第一链接指向资源文件。具体地，获取装置11从诸如其自身装置、去重设备1的其他装置、搜索引擎索引信息库、或者其他第三方设备处获取多个第一链接，其中，这些第一链接指向资源文件。例如，获取装置11通过约定的通信方式向搜索引擎的应用程序接口(API)发送获取第一链接的请求，并接收该搜索引擎返回的基于该请求在索引信息库中查询获得的多个第一链接，其中，这些第一链接指向资源文件。又如，获取装置11通过“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等网页抓取工具从网络中抓取多个链接，并根据这些链接指向的内容，获得指向资源文件的多个第一链接。本领域技术人员应能理解上述获取第一链接的方式以及网页抓取工具仅为举例，其他现有的或今后可能出现的获取第一链接的方式或者网页抓取工具如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0025] 随后，处理装置12对所述第一链接所指向的资源文件执行基于摘要算法的处理操作，以获取与所述第一链接相对应的内容特征信息。具体地，处理装置12根据获取装置11获取的多个第一链接，获取这些第一链接所指向的资源文件，并对这些资源文件执行基于摘要算法的处理操作，以获取与这些第一链接分别对应的内容特征信息。例如，获取装置
11获取多个第一链接，处理装置12根据这些第一链接，获取这些第一链接所指向的多个资源文件的前10k字节数据，并基于MD5算法对每个资源文件的前10k字节数据求MD5值，这些MD5值即为与这些第一链接分别对应的内容特征信息。本领域技术人员应能理解上述获取内容特征信息的方式仅为举例，其他现有的或今后可能出现的获取内容特征信息的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0026] 接着，分组装置13根据所述内容特征信息，并结合所述第一链接所属的站点，对所述多个第一链接进行分组，以获取一个或多个第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接。具体地，分组装置13根据处理装置12获取的与每个第一链接对应的内容特征信息，并结合每个第一链接所属的站点，对这些第一链接进行分组，以获取一个或多个第一链接集，其中，这(些)第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接。例如，根据处理装置12获取的与每个第一链接对应的内容特征信息，分组装置13先对具有相同内容特征信息的第一链接进行分组，以获得多个候选链接集，再对这些候选链接集中的第一链接按照这些第一链接所属的站点进行分组，从而得到多个第一链接集，每个第一链接集中包括多个从属于同一站点且内容特征信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例，其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0027] 随后，去重装置14对所述第一链接集进行去重处理。具体地，去重装置14对分组装置13获得的多个第一链接集进行去重处理，诸如保留每个第一链接集中最新抓取的2个第一链接、保留每个第一链接集中权威度最高的3个第一链接等。例如，分组装置13获得多个第一链接集，去重装置14对部分第一链接集保留其中最新抓取的2个第一链接，对其余部分的第一链接集保留其中权威度最高的3个第一链接。在此，去重装置14可以从诸如其自身装置、去重设备1的其他装置、搜索引擎索引信息库、或者其他第三方设备处获取这些第一链接的权威度。本领域技术人员应能理解上述对第一链接集去重的方式以及第一链接的权威度的来源仅为举例，其他现有的或今后可能出现的对第一链接集去重的方式或者第一链接的权威度的来源如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0028] 优选地，获取装置11、处理装置12、分组装置13和去重装置14是持续不断工作的。具体地，获取装置11获取多个第一链接，其中，所述第一链接指向资源文件；随后，处理装置12对所述第一链接所指向的资源文件执行基于摘要算法的处理操作，以获取与所述第一链接相对应的内容特征信息；接着，分组装置13根据所述内容特征信息，并结合所述第一链接所属的站点，对所述多个第一链接进行分组，以获取一个或多个第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接；随后，去重装置14对所述第一链接集进行去重处理。在此，本领域技术人员应理解“持续”是指获取装置11、处理装置12、分组装置13和去重装置14分别按照设定的或实时调整的工作模式要求进行第一链接的获取、内容特征信息的获取，第一链接集的获取以及去重，直至去重设备1在较长时间内停止获取包括指向资源文件的第一链接。

[0029] 优选地，所述去重装置中对所述第一链接集的去重处理基于但不限于，以下至少任一项：

[0030] 1)所述第一链接集中第一链接的抓取时间；

[0031] 2)所述第一链接集中第一链接的产生时间；

[0032] 3)所述第一链接集中第一链接对应的网页的流量；

[0033] 4)所述第一链接集中第一链接对应的网页的权威度。

[0034] 具体地，第一链接集中第一链接的抓取时间指搜索引擎抓取到第一链接并将其放入搜索引擎索引信息库中的时间，该抓取时间越早，表明相应的第一链接被搜索引擎发现的时间越早，这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。第一链接集中第一链接的产生时间指该第一链接及其所指向的资源文件在网络上的发布时间，该产生时间越早，表明相应的第一链接的存续时间越久，这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。第一链接集中第一链接对应的网页的流量指与该第一链接相对应的网页的访问量，该流量可以是日级、周级，甚至是月级的，该流量越大，表明该第一链接对应的网页，也即该第一链接所指向的资源文件所在的网页的用户访问量越大，说明该资源文件的用户关注度和用户欢迎度较高，这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。第一链接集中第一链接对应的网页的权威度指搜索引擎或者第三方设备对与该第一链接相对应的网页的质量及重要程度的评价，该权威度越高，表明该第一链接对应的网页，也即该第一链接所指向的资源文件所在的网页的较高且较为重要，这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。本领域技术人员应能理解上述对第一链接集去重处理的参考因素仅为举例，其他现有的或今后可能出现的对第一链接集去重处理的参考因素如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0035] 在一个优选实施例中(参照图1)，处理装置12还按照预定数据量，对所述第一链接所指向的资源文件执行所述处理操作，以获取与所述第一链接相对应的内容特征信息。具体地，处理装置12还按照预定数据量，如第一链接所指向的资源文件的头部10k字节数据、尾部10k字节数据、或者两者的结合，对该资源文件执行基于摘要算法的处理操作，以获取与这些第一链接分别对应的内容特征信息。例如，获取装置11获取多个第一链接，处理装置12根据这些第一链接，获取这些第一链接所指向的多个资源文件的头部10k字节数据，并基于SHA算法对每个资源文件的头部10k字节数据求SHA序列，这些SHA序列即为与这些第一链接分别对应的内容特征信息。本领域技术人员应能理解上述获取内容特征信息的方式仅为举例，其他现有的或今后可能出现的获取内容特征信息的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0036] 优选地，所述预定数据量基于但不限于，以下至少任一项：

[0037] 1)所述资源文件的预定大小的头部数据；

[0038] 2)所述资源文件的预定大小的尾部数据；

[0039] 3)所述资源文件的全部数据。

[0040] 具体地，处理装置12根据摘要算法，诸如MD5算法、SHA算法等，不但可以对资源文件的全部数据计算内容特征信息，还可以仅基于资源文件的预定大小的头部数据或者尾部数据，甚至是预定大小的头部数据与预定大小的尾部数据相结合，计算与资源文件相对应的内容特征信息。本领域技术人员应能理解上述预定数据量仅为举例，其他现有的或今后可能出现的预定数据量如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0041] 特别地，在资源文件的数据量较大的应用场景，如果只对资源文件的部分数据计算内容特征信息，可以极大地降低计算成本，同时提高处理效率，以更快地对第一链接进行分组，从而在计算量尽可能小的情况下，实现对第一链接集的去重，降低了第一链接的存储设备的存储压力和后期数据检测压力。

[0042] 在另一个优选实施例中(参照图1)，分组装置13还根据所述内容特征信息对所述第一链接进行分组，以获取一个或多个候选链接集，其中，所述候选链接集包括多个内容特征信息相同的第一链接；根据所述候选链接集中第一链接所属的站点，对所述候选链接集进行分组，以获取所述第一链接集。具体地，分组装置13还根据与每个第一链接相对应的内容特征信息，对这些第一链接进行分组，以获取一个或多个候选链接集，其中，每个候选链接集包括具有相同内容特征信息的第一链接；并根据每个候选链接集中第一链接所属的站点，对这些候选链接集再次分组，获得一个多个第一链接集，其中，这(些)第一链接集中包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。例如，根据处理装置12获取的与每个第一链接对应的内容特征信息，分组装置13先对具有相同内容特征信息的第一链接进行分组，以获得多个候选链接集，再对这些候选链接集中的第一链接按照这些第一链接所属的站点进行分组，从而得到多个第一链接集，每个第一链接集中包括多个从属于同一站点且内容特征信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例，其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0043] 优选地，分组装置13还根据所述内容特征信息，并结合所述第一链接所指向的资源文件的资源相关信息及所述第一链接所属的站点，对所述第一链接进行分组，以获取所述第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。具体地，分组装置13根据处理装置12获取的与每个第一链接相对应的内容特征信息，并结合每个第一链接所指向的资源文件的资源相关信息，诸如资源文件的格式、时长等，以及每个第一链接所属的站点，对这些第一链接进行分组，以获取一个或多个第一链接集，其中，这(些)第一链接集包括多个从属于同一站点且具有相同内容特征信息及相同资源相关信息的第一链接。例如，根据处理装置12每个第一链接对应的资源文件的头部10k字节数据计算获得内容特征信息，分组装置13先对资源文件的时长相同的第一链接分组，获得多个第一分组；再对每一个第一分组进行分组，以获得多个第二分组，其中，每个第二分组包括具有相同内容特征信息的第一链接；再对这些第二分组中的第一链接按照这些第一链接所属的站点进行分组，从而得到多个第一链接集，每个第一链接集中包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例，其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0044] 更优选地，所述资源相关信息包括但不限于，以下至少任一项：

[0045] 1)资源文件的格式；

[0046] 2)资源文件的时长；

[0047] 3)资源文件的数据量大小；

[0048] 4)资源文件的图片尺寸。

[0049] 具体地，资源文件的格式指每个第一链接所指向的资源文件的格式，如视频文件的mp4格式、rmvb格式、mov格式等，音乐文件的cd格式、mp3格式、wma格式等，或者图片文件的jpg格式、jpeg格式等。资源文件的时长指每个第一链接所指向的视频文件和音乐文件的时长。资源文件的数据量大小指每个第一链接所指向的资源文件的数据量大小。资源文件的图片尺寸指每个第一链接所指向的图片文件的尺寸，即图片文件的长和宽，有时用图片文件的分辨率来表示。特别地，在处理装置12仅对第一链接所指向的资源文件的部分数据计算内容特征信息的情况下，结合这些资源文件的资源相关信息，分组装置13能够更快地对第一链接进行分组，同时极大地降低了处理装置12和分组装置13的数据处理压力，提高了去重设备1的去重效率，减轻了第一链接的存储设备的存储压力和后期数据检测压力。本领域技术人员应能理解上述资源相关信息仅为举例，其他现有的或今后可能出现的资源相关信息如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0050] 在再一个优选实施例中(参照图1)，去重设备1还包括预处理装置(未示出)，该预处理装置对所述第一链接集进行预处理操作，以获得待去重的第一链接集；其中，所述预处理操作基于但不限于，以下至少任一项：

[0051] 1)所述第一链接集中第一链接的数量；

[0052] 2)所述第一链接集中第一链接所指向的资源文件的数据量；随后，去重装置14还对所述待去重的第一链接集进行去重处理。具体地，预处理装置对分组装置13获取的第一链接集进行预处理操作，诸如过滤包含第一链接的数量低于第一阈值的第一链接集、过滤包含的第一链接所指向的资源文件的数据量小于第二阈值的第一链接集，以获得需要去重装置14进行去重的第一链接集；随后，去重装置14还对经过预处理装置处理的待去重第一链接集进行去重处理。例如，分组装置13获取多个第一链接集，预处理装置过滤这些第一链接集中包含第一链接的数量低于3且包含的第一链接所指向的资源文件的数据量小于10k字节的第一链接集，以获得待去重的第一链接集；随后，去重装置14对这些待去重的第一链接集进行去重处理。本领域技术人员应能理解上述预处理操作的参考因素仅为举例，其他现有的或今后可能出现的预处理操作的参考因素如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0053] 优选地，所述摘要算法包括但不限于，以下至少任一项：

[0054] 1)MD5算法；

[0055] 2)SHA算法。

[0056] 具体地，MD5算法的全称是Message-Digest Algorithm 5(信息-摘要算法)，其将整个资源文件当作一个大文本信息，通过不可逆的字符串变换算法，产生唯一的MD5值。SHA算法是一种数据加密算法，其思想是接收一段明文，然后以一种不可逆的方式将它转换成一段(通常更小)密文，也可以简单的理解为取一串输入码(称为预映射或信息)，并把它们转化为长度较短、位数固定的输出序列即散列值(也称为信息摘要)的过程。本领域技术人员应能理解上述摘要算法仅为举例，其他现有的或今后可能出现的摘要算法如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0057] 优选地，所述资源文件包括但不限于，以下至少任一项：

[0058] 1)音乐文件；

[0059] 2)视频文件；

[0060] 3)图片文件；

[0061] 4)文本文件。

[0062] 具体地，每个第一链接指向的资源文件可以是音乐文件、视频文件、图片文件、或者文本文件等任何一种可以通过摘要算法获得内容特征信息的文件。处理装置12可以根据这些资源文件的部分或者全部数据计算内容特征信息。分组装置13可以基于这些资源文件的内容特征信息，并结合这些资源文件的资源相关信息及对应这些资源文件的第一链接所属的站点对与这些资源文件分别对应的第一链接进行分组，得到多个第一链接集。去重装置14可以对每个指向相同资源文件的第一链接集去重。本领域技术人员应能理解上述资源文件仅为举例，其他现有的或今后可能出现的资源文件如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0063] 图2示出根据本发明另一个方面的用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法流程图。具体地，在步骤S1中，去重设备1获取多个第一链接，其中，所述第一链接指向资源文件；随后，在步骤S2中，去重设备1对所述第一链接所指向的资源文件执行基于摘要算法的处理操作，以获取与所述第一链接相对应的内容特征信息；接着，在步骤S3中，去重设备1根据所述内容特征信息，并结合所述第一链接所属的站点，对所述多个第一链接进行分组，以获取一个或多个第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接；随后，在步骤S4中，去重设备1对所述第一链接集进行去重处理。

[0064] 在此，去重设备1包括但不限于搜索引擎服务器以及与其相连的其他服务器等计算设备，其中，计算设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合。本领域技术人员应能理解上述去重设备仅为举例，其他现有的或今后可能出现的去重设备如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0065] 更具体地，在步骤S1中，去重设备1获取多个第一链接，其中，所述第一链接指向资源文件。具体地，在步骤S1中，去重设备1从诸如其自身装置、搜索引擎索引信息库、或者其他第三方设备处获取多个第一链接，其中，这些第一链接指向资源文件。例如，在步骤S1中，去重设备1通过约定的通信方式向搜索引擎的应用程序接口(API)发送获取第一链接的请求，并接收该搜索引擎返回的基于该请求在索引信息库中查询获得的多个第一链接，其中，这些第一链接指向资源文件。又如，在步骤S1中，去重设备1通过“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等网页抓取工具从网络中抓取多个链接，并根据这些链接指向的内容，获得指向资源文件的多个第一链接。本领域技术人员应能理解上述获取第一链接的方式以及网页抓取工具仅为举例，其他现有的或今后可能出现的获取第一链接的方式或者网页抓取工具如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0066] 随后，在步骤S2中，去重设备1对所述第一链接所指向的资源文件执行基于摘要算法的处理操作，以获取与所述第一链接相对应的内容特征信息。具体地，在步骤S2中，去重设备1根据其在步骤S1中获取的多个第一链接，获取这些第一链接所指向的资源文件，并对这些资源文件执行基于摘要算法的处理操作，以获取与这些第一链接分别对应的内容特征信息。例如，在步骤S1中，去重设备1获取多个第一链接；在步骤S2中，去重设备1根据这些第一链接，获取这些第一链接所指向的多个资源文件的前10k字节数据，并基于MD5算法对每个资源文件的前10k字节数据求MD5值，这些MD5值即为与这些第一链接分别对应的内容特征信息。本领域技术人员应能理解上述获取内容特征信息的方式仅为举例，其他现有的或今后可能出现的获取内容特征信息的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0067] 接着，在步骤S3中，去重设备1根据所述内容特征信息，并结合所述第一链接所属的站点，对所述多个第一链接进行分组，以获取一个或多个第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接。具体地，在步骤S3中，去重设备1根据其在步骤S2中获取的与每个第一链接对应的内容特征信息，并结合每个第一链接所属的站点，对这些第一链接进行分组，以获取一个或多个第一链接集，其中，这(些)第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接。例如，根据其在步骤S2中获取的与每个第一链接对应的内容特征信息，在步骤S3中，去重设备1先对具有相同内容特征信息的第一链接进行分组，以获得多个候选链接集，再对这些候选链接集中的第一链接按照这些第一链接所属的站点进行分组，从而得到多个第一链接集，每个第一链接集中包括多个从属于同一站点且内容特征信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例，其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0068] 随后，在步骤S4中，去重设备1对所述第一链接集进行去重处理。具体地，在步骤S4中，去重设备1对其在步骤S3中获得的多个第一链接集进行去重处理，诸如保留每个第一链接集中最新抓取的2个第一链接、保留每个第一链接集中权威度最高的3个第一链接等。例如，在步骤S3中，去重设备1获得多个第一链接集；在步骤S4中，去重设备1对部分第一链接集保留其中最新抓取的2个第一链接，对其余部分的第一链接集保留其中权威度最高的3个第一链接。在此，去重装置14可以从诸如其自身装置、搜索引擎索引信息库、或者其他第三方设备处获取这些第一链接的权威度。本领域技术人员应能理解上述对第一链接集去重的方式以及第一链接的权威度的来源仅为举例，其他现有的或今后可能出现的对第一链接集去重的方式或者第一链接的权威度的来源如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0069] 优选地，步骤S1、步骤S2、步骤S3和步骤S4是持续不断工作的。具体地，在步骤S1中，去重设备1获取多个第一链接，其中，所述第一链接指向资源文件；随后，在步骤S2中，去重设备1对所述第一链接所指向的资源文件执行基于摘要算法的处理操作，以获取与所述第一链接相对应的内容特征信息；接着，在步骤S3中，去重设备1根据所述内容特征信息，并结合所述第一链接所属的站点，对所述多个第一链接进行分组，以获取一个或多个第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接；随后，在步骤S4中，去重设备1对所述第一链接集进行去重处理。在此，本领域技术人员应理解“持续”是指去重设备1在步骤S1、步骤S2、步骤S3和步骤S4分别按照设定的或实时调整的工作模式要求进行第一链接的获取、内容特征信息的获取，第一链接集的获取以及去重，直至去重设备1在较长时间内停止获取包括指向资源文件的第一链接。

[0070] 优选地，所述步骤S4中对所述第一链接集的去重处理基于但不限于，以下至少任一项：

[0071] 1)所述第一链接集中第一链接的抓取时间；

[0072] 2)所述第一链接集中第一链接的产生时间；

[0073] 3)所述第一链接集中第一链接对应的网页的流量；

[0074] 4)所述第一链接集中第一链接对应的网页的权威度。

[0075] 具体地，第一链接集中第一链接的抓取时间指搜索引擎抓取到第一链接并将其放入搜索引擎索引信息库中的时间，该抓取时间越早，表明相应的第一链接被搜索引擎发现的时间越早，这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。第一链接集中第一链接的产生时间指该第一链接及其所指向的资源文件在网络上的发布时间，该产生时间越早，表明相应的第一链接的存续时间越久，这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。第一链接集中第一链接对应的网页的流量指与该第一链接相对应的网页的访问量，该流量可以是日级、周级，甚至是月级的，该流量越大，表明该第一链接对应的网页，也即该第一链接所指向的资源文件所在的网页的用户访问量越大，说明该资源文件的用户关注度和用户欢迎度较高，这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。第一链接集中第一链接对应的网页的权威度指搜索引擎或者第三方设备对与该第一链接相对应的网页的质量及重要程度的评价，该权威度越高，表明该第一链接对应的网页，也即该第一链接所指向的资源文件所在的网页的较高且较为重要，这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。本领域技术人员应能理解上述对第一链接集去重处理的参考因素仅为举例，其他现有的或今后可能出现的对第一链接集去重处理的参考因素如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0076] 在一个优选实施例中(参照图2)，在步骤S2中，去重设备1还按照预定数据量，对所述第一链接所指向的资源文件执行所述处理操作，以获取与所述第一链接相对应的内容特征信息。具体地，在步骤S2中，去重设备1还按照预定数据量，如第一链接所指向的资源文件的头部10k字节数据、尾部10k字节数据、或者两者的结合，对该资源文件执行基于摘要算法的处理操作，以获取与这些第一链接分别对应的内容特征信息。例如，在步骤S1中，去重设备1获取多个第一链接；在步骤S2中，去重设备1根据这些第一链接，获取这些第一链接所指向的多个资源文件的头部10k字节数据，并基于SHA算法对每个资源文件的头部10k字节数据求SHA序列，这些SHA序列即为与这些第一链接分别对应的内容特征信息。本领域技术人员应能理解上述获取内容特征信息的方式仅为举例，其他现有的或今后可能出现的获取内容特征信息的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0077] 优选地，所述预定数据量基于但不限于，以下至少任一项：

[0078] 1)所述资源文件的预定大小的头部数据；

[0079] 2)所述资源文件的预定大小的尾部数据；

[0080] 3)所述资源文件的全部数据。

[0081] 具体地，在步骤S2中，去重设备1根据摘要算法，诸如MD5算法、SHA算法等，不但可以对资源文件的全部数据计算内容特征信息，还可以仅基于资源文件的预定大小的头部数据或者尾部数据，甚至是预定大小的头部数据与预定大小的尾部数据相结合，计算与资源文件相对应的内容特征信息。本领域技术人员应能理解上述预定数据量仅为举例，其他现有的或今后可能出现的预定数据量如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0082] 特别地，在资源文件的数据量较大的应用场景，如果只对资源文件的部分数据计算内容特征信息，可以极大地降低计算成本，同时提高处理效率，以更快地对第一链接进行分组，从而在计算量尽可能小的情况下，实现对第一链接集的去重，降低了第一链接的存储设备的存储压力和后期数据检测压力。

[0083] 在另一个优选实施例中(参照图2)，在步骤S3中，去重设备1还根据所述内容特征信息对所述第一链接进行分组，以获取一个或多个候选链接集，其中，所述候选链接集包括多个内容特征信息相同的第一链接；根据所述候选链接集中第一链接所属的站点，对所述候选链接集进行分组，以获取所述第一链接集。具体地，在步骤S3中，去重设备1还根据与每个第一链接相对应的内容特征信息，对这些第一链接进行分组，以获取一个或多个候选链接集，其中，每个候选链接集包括具有相同内容特征信息的第一链接；并根据每个候选链接集中第一链接所属的站点，对这些候选链接集再次分组，获得一个多个第一链接集，其中，这(些)第一链接集中包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。例如，根据其在步骤S2中获取的与每个第一链接对应的内容特征信息，在步骤S3中，去重设备1先对具有相同内容特征信息的第一链接进行分组，以获得多个候选链接集，再对这些候选链接集中的第一链接按照这些第一链接所属的站点进行分组，从而得到多个第一链接集，每个第一链接集中包括多个从属于同一站点且内容特征信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例，其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0084] 优选地，在步骤S3中，去重设备1还根据所述内容特征信息，并结合所述第一链接所指向的资源文件的资源相关信息及所述第一链接所属的站点，对所述第一链接进行分组，以获取所述第一链接集，其中，所述第一链接集包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。具体地，在步骤S3中，去重设备1根据其在步骤S2中获取的与每个第一链接相对应的内容特征信息，并结合每个第一链接所指向的资源文件的资源相关信息，诸如资源文件的格式、时长等，以及每个第一链接所属的站点，对这些第一链接进行分组，以获取一个或多个第一链接集，其中，这(些)第一链接集包括多个从属于同一站点且具有相同内容特征信息及相同资源相关信息的第一链接。例如，根据其在步骤S2中每个第一链接对应的资源文件的头部10k字节数据计算获得内容特征信息，在步骤S3中，去重设备1先对资源文件的时长相同的第一链接分组，获得多个第一分组；再对每一个第一分组进行分组，以获得多个第二分组，其中，每个第二分组包括具有相同内容特征信息的第一链接；再对这些第二分组中的第一链接按照这些第一链接所属的站点进行分组，从而得到多个第一链接集，每个第一链接集中包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例，其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0085] 更优选地，所述资源相关信息包括但不限于，以下至少任一项：

[0086] 1)资源文件的格式；

[0087] 2)资源文件的时长；

[0088] 3)资源文件的数据量大小；

[0089] 4)资源文件的图片尺寸。

[0090] 具体地，资源文件的格式指每个第一链接所指向的资源文件的格式，如视频文件的mp4格式、rmvb格式、mov格式等，音乐文件的cd格式、mp3格式、wma格式等，或者图片文件的jpg格式、jpeg格式等。资源文件的时长指每个第一链接所指向的视频文件和音乐文件的时长。资源文件的数据量大小指每个第一链接所指向的资源文件的数据量大小。资源文件的图片尺寸指每个第一链接所指向的图片文件的尺寸，即图片文件的长和宽，有时用图片文件的分辨率来表示。特别地，在去重设备1仅对第一链接所指向的资源文件的部分数据计算内容特征信息的情况下，结合这些资源文件的资源相关信息，去重设备1能够更快地对第一链接进行分组，同时极大地降低了其数据处理压力，提高了去重效率，减轻了第一链接的存储设备的存储压力和后期数据检测压力。本领域技术人员应能理解上述资源相关信息仅为举例，其他现有的或今后可能出现的资源相关信息如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0091] 在再一个优选实施例中(参照图2)，该过程还包括步骤S5(未示出)，在步骤S5中，去重设备1对所述第一链接集进行预处理操作，以获得待去重的第一链接集；其中，所述预处理操作基于但不限于，以下至少任一项：

[0092] 1)所述第一链接集中第一链接的数量；

[0093] 2)所述第一链接集中第一链接所指向的资源文件的数据量；随后，在步骤S4中，去重设备1还对所述待去重的第一链接集进行去重处理。具体地，在步骤S5中，去重设备1对其在步骤S3中获取的第一链接集进行预处理操作，诸如过滤包含第一链接的数量低于第一阈值的第一链接集、过滤包含的第一链接所指向的资源文件的数据量小于第二阈值的第一链接集，以获得需要进行去重的第一链接集；随后，在步骤S4中，去重设备1还对经过步骤S5处理的待去重第一链接集进行去重处理。例如，在步骤S3中，去重设备1获取多个第一链接集；在步骤S5中，去重设备1过滤这些第一链接集中包含第一链接的数量低于3且包含的第一链接所指向的资源文件的数据量小于10k字节的第一链接集，以获得待去重的第一链接集；随后，在步骤S4中，去重设备1对这些待去重的第一链接集进行去重处理。
本领域技术人员应能理解上述预处理操作的参考因素仅为举例，其他现有的或今后可能出现的预处理操作的参考因素如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0094] 优选地，所述摘要算法包括但不限于，以下至少任一项：

[0095] 1)MD5算法；

[0096] 2)SHA算法。

[0097] 具体地，MD5算法的全称是Message-Digest Algorithm 5(信息-摘要算法)，其将整个资源文件当作一个大文本信息，通过不可逆的字符串变换算法，产生唯一的MD5值。SHA算法是一种数据加密算法，其思想是接收一段明文，然后以一种不可逆的方式将它转换成一段(通常更小)密文，也可以简单的理解为取一串输入码(称为预映射或信息)，并把它们转化为长度较短、位数固定的输出序列即散列值(也称为信息摘要)的过程。本领域技术人员应能理解上述摘要算法仅为举例，其他现有的或今后可能出现的摘要算法如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0098] 优选地，所述资源文件包括但不限于，以下至少任一项：

[0099] 1)音乐文件；

[0100] 2)视频文件；

[0101] 3)图片文件；

[0102] 4)文本文件。

[0103] 具体地，每个第一链接指向的资源文件可以是音乐文件、视频文件、图片文件、或者文本文件等任何一种可以通过摘要算法获得内容特征信息的文件。在步骤S2中，去重设备1可以根据这些资源文件的部分或者全部数据计算内容特征信息。在步骤S3中，去重设备1可以基于这些资源文件的内容特征信息，并结合这些资源文件的资源相关信息及对应这些资源文件的第一链接所属的站点对与这些资源文件分别对应的第一链接进行分组，得到多个第一链接集。在步骤S4中，去重设备1可以对每个指向相同资源文件的第一链接集去重。本领域技术人员应能理解上述资源文件仅为举例，其他现有的或今后可能出现的资源文件如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

[0104] 对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

基于内容特征信息对链接进行去重处理的方法与设备转让专利

申请号 : CN201010624368.7

文献号 : CN102063498B

文献日 : 2013-01-30

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 姚远

申请人 : 百度在线网络技术(北京)有限公司

摘要 :

权利要求 :

说明书 :