面向接口迁移的相似语义主题的网页识别方法、装置和设备转让专利

申请号 : CN202211114773.3

文献号 : CN115203620B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄罡张颖蔡思博蔡华谦

申请人 : 北京大学

摘要 :

本发明提供了一种面向接口迁移的相似语义主题网页识别方法、装置和设备,所述方法包括:获取待识别的两个网页的页面信息;对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容;利用多种算法对所述纯文本内容进行关键词提取;将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到两个网页的多个主题词,将两个网页各自的多个主题词进行融合集成,得到两个网页各自的主题特征;根据两个网页各自的语义主题特征,判断两个网页是否为相似网页。本发明通过预处理减弱内容理解的噪声,利用多种算法提取主题词与集成匹配语义主题提升内容理解的覆盖面,提高相似网页识别的准确性,进而支持网页接口迁移到相似网页。

权利要求 :

1.一种面向接口迁移的相似语义主题网页识别方法,其特征在于,包括:获取待识别的两个网页的页面信息;

对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容;

将所述纯文本内容输入多个不同的关键词提取服务,通过所述多个不同的关键词提取服务提取所述纯文本内容中的关键词,其中,不同的关键词提取服务提取的关键词不完全相同;

将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的语义主题,所述预定义主题词集合中的主题词是根据关注的业务场景而定义的,通过改变主题词集合中的主题词以适应不同的业务场景,生成不同的语义主题,在不同的业务场景下,同一个网页的语义主题不同;

根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页,包括:若所述两个网页的语义主题存在交集,则判定所述两个网页为相似网页;或获取所述两个网页各自的实现结构,所述实现结构表征网页源代码的逻辑结构;若所述两个网页的语义主题存在交集,且所述两个网页的实现结构相似,则判断所述两个网页为相似网页。

2.根据权利要求1所述的方法,其特征在于,对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容,包括:去除所述网页中与语义内容无关的代码,并从所述网页中提取出文本内容;

对所述文本内容进行过滤处理,去除所述文本内容中的无用内容,得到纯文本内容,其中,所述无用内容至少包括空格符。

3.根据权利要求1所述的方法,其特征在于,将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,包括:对所述关键词与所述主题词进行词向量提取,得到关键词向量和主题词向量;

根据所述关键词向量和所述主题词向量的余弦相似度,选出与所述关键词最相似的主题词。

4.根据权利要求1所述的方法,其特征在于,针对所述两个网页中的每个网页,将该网页的多个主题词进行融合集成,得到该网页的语义主题,包括:采用投票法的集成策略,将获得票数前N的主题词作为该网页的语义主题。

5.一种面向接口迁移的相似语义主题网页识别装置,其特征在于,所述装置包括:信息获取模块:用于获取待识别的两个网页的页面信息;

信息处理模块,用于对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容;

关键词提取模块,用于将所述纯文本内容输入多个不同的关键词提取服务,通过所述多个不同的关键词提取服务提取所述纯文本内容中的关键词,其中,不同的关键词提取服务提取的关键词不完全相同;

匹配融合模块,用于将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的语义主题,所述预定义主题词集合中的主题词是根据关注的业务场景而定义的,通过改变主题词集合中的主题词以适应不同的业务场景,生成不同的语义主题,在不同的业务场景下,同一个网页的语义主题不同;

判断模块,用于根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页,包括:若所述两个网页的语义主题存在交集,则判定所述两个网页为相似网页;或获取所述两个网页各自的实现结构,所述实现结构表征网页源代码的逻辑结构;若所述两个网页的语义主题存在交集,且所述两个网页的实现结构相似,则判断所述两个网页为相似网页。

6.根据权利要求5所述的装置,其特征在于,所述信息处理模块,包括:内容提取模块,用于去除所述网页中与语义内容无关的代码,并从所述网页中提取出文本内容;

内容过滤模块,用于对所述文本内容进行过滤处理,去除所述文本内容中的无用内容,得到纯文本内容,其中,所述无用内容至少包括空格符。

7.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1‑4任一所述的面向接口迁移的相似语义主题的网页识别方法。

说明书 :

面向接口迁移的相似语义主题的网页识别方法、装置和设备

技术领域

[0001] 本发明涉及计算机技术领域,特别是一种面向接口迁移的相似语义主题的网页识别方法、装置和设备。

背景技术

[0002] 随着互联网技术的发展,Web系统中存在的大量重复网页、相似网页,使得对网页访问效率较低。由于相似网页的访问接口相同,为了提升对网页进行访问效率,通过发现相似页面,将制作好的访问接口直接迁移到相似页面进行访问,进而提升了网页的访问效率。
[0003] 而相关相似网页识别技术中,主要通过比较网页间的语义主题信息来进行相似网页的识别,但由于网页中包含许多与布局、外观和交互行为有关的代码段,这些代码段与页面所描述的语义内容无关,会干扰对页面内容的理解,且不同算法的倾向性不同,使得理解的语义不够全面,进而对网页的语义主题提取不够全面,导致对相似页面识别判断不准确。此外,不同的业务场景关注点不同,不同的业务领域与应用场景可以由同一个网页得到不同的主题,因此,如何提升内容理解在不同业务领域的适用性也是提高相似网页识别的关键。

发明内容

[0004] 在鉴于上述问题,本发明实施例提供了一种面向接口迁移的相似语义主题的网页识别方法、装置、设备和介质,以便克服上述问题或者至少部分地解决上述问题。
[0005] 本发明实施例的第一方面,公开了一种面向接口迁移的相似语义主题的网页识别方法,所述方法包括:
[0006] 获取待识别的两个网页的页面信息;
[0007] 对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容;
[0008] 利用多种算法对所述纯文本内容进行关键词提取,得到所述两个网页页面信息各自对应的多个关键词;
[0009] 将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的语义主题;
[0010] 根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页。
[0011] 可选地,对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容,包括:
[0012] 去除所述网页中与语义内容无关的代码,并从所述网页中提取出文本内容;
[0013] 对所述文本内容进行过滤处理,去除所述文本内容中的无用内容,得到纯文本内容,其中,所述无用内容至少包括空格符。
[0014] 可选地,利用多种算法对所述纯文本内容进行关键词提取,得到所述两个网页页面信息对应的多个关键词,包括:
[0015] 将所述纯文本内容输入多个不同的关键词提取服务,通过所述多个不同的关键词提取服务提取所述纯文本内容中的关键词,其中,不同的关键词提取服务提取的关键词不完全相同。
[0016] 可选地,将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,包括:
[0017] 对所述关键词与所述主题词进行词向量提取,得到关键词向量和主题词向量;
[0018] 根据所述关键词向量和所述主题词向量的余弦相似度,选出与所述关键词最相似的主题词。
[0019] 可选地,针对所述两个网页中的每个网页,将该网页的多个主题词进行融合集成,得到该网页的语义主题,包括:
[0020] 采用投票法的集成策略,将获得票数前N的主题词作为该网页的语义主题。
[0021] 可选地,根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页,包括:
[0022] 若所述两个网页的语义主题存在交集,则判定所述两个网页为相似网页。
[0023] 可选地,根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页,所述方法还包括:
[0024] 获取所述两个网页各自的实现结构,所述实现结构表征网页源代码的逻辑结构;
[0025] 若所述两个网页的语义主题存在交集,且所述两个网页的实现结构相似,则判断所述两个网页为相似网页。
[0026] 本发明实施例的第二方面,公开了一种面向接口迁移的相似语义主题的网页识别装置,所述装置包括:
[0027] 信息获取模块:用于获取待识别的两个网页的页面信息;
[0028] 信息处理模块,用于对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容;
[0029] 关键词提取模块,用于利用多种算法对所述纯文本内容进行关键词提取,得到所述两个网页页面信息各自对应的多个关键词;
[0030] 匹配融合模块,用于将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的语义主题;
[0031] 判断模块,用于根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页。
[0032] 可选地,所述信息处理模块,包括:
[0033] 内容提取模块,用于去除所述网页中与语义内容无关的代码,并从所述网页中提取出文本内容;
[0034] 内容过滤模块,用于对所述文本内容进行过滤处理,去除所述文本内容中的无用内容,得到纯文本内容,其中,所述无用内容至少包括空格符。
[0035] 本发明实施例的第三方面,公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如本发明实施例第一方式实施例所述的面向接口迁移的相似语义主题的网页识别方法。
[0036] 本发明实施例包括以下优点:
[0037] 本发明实施例中,获取待识别的两个网页的页面信息,对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容,再利用多种算法对所述纯文本内容进行关键词提取,得到所述两个网页页面信息各自对应的多个关键词,所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的主题特征,最后根据所述两个网页各自的语义主题特征,判断所述两个网页是否为相似网页。由于在本发明实施例中,通过对网页信息进行预处理减弱内容理解的噪声,再利用多种算法进行网页信息关键词的提取,有助于更好地理解语义主题,通过对关键词进行集成匹配得到最终的语义主题,提升内容理解的覆盖面,进而提高相似页面识别的准确性,以支持网页接口迁移到相似网页。

附图说明

[0038] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0039] 图1是本发明实施例提供的一种基于多源集成的内容理解方法技术构思示意图;
[0040] 图2是本发明实施例提供的一种基于多源集成的内容理解方法流程图;
[0041] 图3是本发明实施例提供的一种面向接口迁移的相似语义主题的网页识别方法步骤流程图;
[0042] 图4是本发明实施例提供的一种关键词提取网页示例;
[0043] 图5是本发明实施例提供的一种云服务输入网页示例;
[0044] 图6是本发明实施例提供的一种包含多个主题网页示例;
[0045] 图7是本发明实施例提供的一种面向接口迁移的相似语义主题的网页识别装置的结构示意图。

具体实施方式

[0046] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047] 针对如何准确的理解网页语义内容,主要存在以下三个问题:1)如何应对内容理解的噪声,在网页中包含许多与布局、外观和交互行为有关的代码段,这些代码段与页面所描述的语义内容无关,会干扰对页面内容的理解;2)如何提升内容理解的覆盖面,当前已经有不少的内容理解算法,但是不同算法的倾向性往往也不同,使得理解的语义不够全面;3)如何提升内容理解在不同业务领域的适用性,由内容理解算法可以得到网页的主题,而不同的业务场景关注点也会不同,我们希望根据不同的业务领域与应用场景可以由同一个网页得到不同的主题。
[0048] 为解决上述问题,提高相似网页识别的准确性,本申请人提出了以下技术构思:利用多源集成的内容理解方法提取网页语义主题,其可以理解页面的语义主题并给出对应的主题标签,将多个内容理解模型通过特定的结合策略集成起来预测页面的主题,其中使用多种不同自然语言处理服务作为内容理解模型以实现更优的效果。如图1所述,该方法包含预处理、关键词提取与匹配集成三个过程,针对上述问题,通过预处理可以减弱内容理解的噪声,通过多源关键词提取与集成可以提升内容理解的覆盖面,通过匹配可以提升内容理解在不同业务领域的适用性。
[0049] 具体地,如图2所示,输入网页,对网页进行预处理去除掉干扰项,得到文本,然后将文本输入多个云服务进行关键词提取,得到网页对应的多个关键词,之后将关键词匹配到预定义的主题词集合中对应的主题词,得到多个主题词,最后将多个主题词进行融合集成得到最终的语义主题。
[0050] 基于上述技术构思,本发明实施例提供了一种面向接口迁移的相似语义主题的网页识别方法,参照图3,图3为本发明实施例提供的一种面向接口迁移的相似语义主题的网页识别方法步骤流程图,如图3所示,所述的方法包括:
[0051] 步骤S301:获取待识别的两个网页的页面信息。
[0052] 分别从Web系统中获取两个待识别网页的页面信息,获取到的页面信息是由HTML、CSS和JavaScript构成的源码,源代码中的包含有与网页实际内容有相关的语义信息,以及很多与样式和交互相关的代码,所述的语义信息在标签中,页面信息中无关的代码主要包括