一种显示网页内容相关信息的方法及系统转让专利

申请号 : CN200610099110.3

文献号 : CN101114284B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陶伟华梅坚史峰

申请人 : 阿里巴巴集团控股有限公司

摘要 :

本发明公开了一种显示网页内容相关信息的方法及系统,所述方法包括:获取网页的来源信息;分析所述来源信息,判断预存的多个搜索引擎的域名信息中是否存在与所述来源信息中的域名信息相符合的域名信息,若是,则确定所述来源信息来自搜索引擎,并提取所述来源信息中的搜索词;否则,分析网页,提取网页核心信息;获取与所述搜索词或网页核心信息对应的相关信息。对于来自搜索引擎网站或网页拥有者网站内部的搜索引擎网页,本发明提高了网页相关信息的显示及时性及获取准确性和高效性,缓解了整个处理过程中服务器的抓取压力。

权利要求 :

1.一种显示网页内容相关信息的方法,其特征在于,包括:获取网页的来源信息;

分析所述来源信息,判断预存的多个搜索引擎的域名信息中是否存在与所述来源信息中的域名信息相符合的域名信息,若是,则确定所述来源信息来自搜索引擎,并提取所述来源信息中的搜索词;否则,分析网页,提取网页核心信息;

获取与所述搜索词或网页核心信息对应的相关信息。

2.根据权利要求1所述的方法,其特征在于:所述搜索引擎包括网页拥有者网站内部的搜索引擎和其他网站的搜索引擎。

3.根据权利要求1所述的方法,其特征在于,执行以下步骤获取相关信息:所述相关信息按照网页内容分类,查找与所述搜索词或网页核心信息对应的类别。

4.根据权利要求1所述的方法,其特征在于,还包括:预设置所述相关信息的控制信息。

5.根据权利要求4所述的方法,其特征在于,还包括:对应所述控制信息,将获取的部分相关信息显示。

6.一种显示网页内容相关信息的系统,其特征在于,包括:分析单元、获取单元、第一存储单元和第二存储单元,其中:所述分析单元,用于获取网页的来源信息;分析所述来源信息,判断所述第二存储单元中是否存在与所述来源信息中的域名信息相符合的域名信息,若是,则确定所述来源信息来自搜索引擎,并提取所述来源信息中的搜索词;否则分析网页,提取网页核心信息;

所述获取单元,用于获取与所述搜索词或网页核心信息对应的相关信息;

所述第一存储单元,用于存储与搜索词或网页核心信息对应的相关信息;

所述第二存储单元,用于存储多个搜索引擎的域名信息。

7.根据权利要求6所述的系统,其特征在于,所述获取单元还包括:查找单元,所述相关信息按照网页内容分类,用于查找与所述搜索词或网页核心信息对应的类别。

8.根据权利要求6所述的系统,其特征在于,还包括:编辑单元,用于预设置所述相关信息的控制信息。

9.根据权利要求8所述的系统,其特征在于,还包括:显示单元,用于对应所述控制信息,将获取的部分相关信息显示。

10.根据权利要求6、7或8所述的系统,其特征在于:所述搜索引擎包括网页拥有者网站内部的搜索引擎和其他网站的搜索引擎。

说明书 :

一种显示网页内容相关信息的方法及系统

技术领域

[0001] 本发明涉及网络信息的提供,特别是涉及一种显示与网页内容相关的信息的方法及系统。

背景技术

[0002] 近年来网络技术的发展日益迅速,网络应用的领域也越来越广泛,许多公司、企事业单位、团体组织或个人等都建有自己的网站,通过在网上发布信息,进行互联网范围内的信息展示与交流。根据不同应用需求,网站能够在用户访问某个网页时提供与该网页内容相关的信息,称为网页相关信息,用于补充网页内容或增强网页的丰富性等。例如,在打开某网页时显示的通知窗口,或者与网页内容相关的提示信息,等等。
[0003] 通常,与网页内容相关的信息的获取方式是:对网页进行动态抓取,然后进行内容提取、分析,可采用多种分析方法,从该网页内容中提取出核心信息,再根据所述核心信息在数据库中搜索到相匹配的相关信息,传送至浏览器显示出来。目前的这种实现方式,由于对网页的分析需要较复杂的缓慢计算过程,导致网页在未抓取处理完成前,浏览器不能及时显示相关信息;由于所述分析过程带来一定的计算误差,并且对网页内容的分析与网站页面的格式有关,不同的网站造成不同的分析错误率;而且,处理大量的网页抓取请求,对网页拥有者的网站造成服务器处理压力,还需要大容量的网络带宽作为抓取处理的硬件基础。
[0004] 广告作为一种信息载体也应用到网络中,在打开网页后,以多种形式显示出来。为了提高广告投放效果,需要显示与网页内容相关的广告信息。通常,首先显示网站默认设置的广告或者不显示任何广告,当获取与网页内容相关的广告后才显示出来。广告作为上述网页相关信息的一种具体应用,同样存在上述问题:目前基于网页内容的广告投放方式,在用户打开网页到显示出与该网页内容相关的广告,需要一段复杂的分析处理过程,导致用户在浏览网页时不能及时显示相关广告;由于网页的分析过程产生误差,影响了所获取广告与该网页的相关性;而且,大量的抓取请求,给服务器带来一定压力,还需要大容量的网络带宽支持。

发明内容

[0005] 本发明所要解决的技术问题是提供一种显示与网页内容相关的信息的方法及系统,以解决获取与网页内容相关信息通过抓取、分析网页方式造成的处理过程缓慢、分析误差带来的相关性问题及给服务器造成的抓取压力问题。
[0006] 为解决上述技术问题,本发明提供了一种显示网页内容相关信息的方法,包括:
[0007] 获取网页的来源信息;
[0008] 分析所述来源信息,判断预存的多个搜索引擎的域名信息中是否存在与所述来源信息中的域名信息相符合的域名信息,若是,则确定所述来源信息来自搜索引擎,并提取所述来源信息中的搜索词;否则,分析网页,提取网页核心信息;
[0009] 获取与所述搜索词或网页核心信息对应的相关信息。
[0010] 其中,所述搜索引擎包括网页拥有者网站内部的搜索引擎和其他网站的搜索引擎。
[0011] 其中,执行以下步骤获取相关信息:所述相关信息按照网页内容分类,查找与所述搜索词或网页核心信息对应的类别。
[0012] 优选的,还包括:预设置所述相关信息的控制信息。
[0013] 还包括:对应所述控制信息,将获取的部分相关信息显示。
[0014] 本发明还提供了一种显示网页内容相关信息的系统,包括:分析单元、获取单元、第一存储单元和第二存储单元,其中:
[0015] 所述分析单元,用于获取网页的来源信息;分析所述来源信息,判断是否来自搜索引擎,若是则提取所述来源信息中的搜索词;否则分析网页,提取网页核心信息;
[0016] 所述获取单元,用于获取与所述搜索词或网页核心信息对应的相关信息;
[0017] 所述第一存储单元,用于存储与搜索词或网页核心信息对应的相关信息;
[0018] 所述第二存储单元,用于存储多个搜索引擎的域名信息。
[0019] 其中,所述获取单元还包括:查找单元,所述相关信息按照网页内容分类,用于查找与所述搜索词或网页核心信息对应的类别。
[0020] 还包括:编辑单元,用于预设置所述相关信息的控制信息。
[0021] 还包括:显示单元,用于对应所述控制信息,将获取的部分相关信息显示。
[0022] 其中,所述搜索引擎包括网页拥有者网站内部的搜索引擎和其他网站的搜索引擎。
[0023] 与现有技术相比,本发明具有以下优点:
[0024] 本发明直接分析网页来源(Referer),若来自网页搜索引擎或网页拥有者网站内部的搜索引擎,则Referer中记录了用户在所述搜索引擎输入的搜索词信息,直接提取搜索词,再根据所述搜索词获取网页相关信息显示出来;若来自其他网页,则按照网页分析方式获取网页的核心信息,根据所述核心信息获取网页相关信息。
[0025] 首先,对于来自搜索引擎网站或网页拥有者网站内部的搜索引擎网页,由于从Referer中提取搜索词不需要任何计算过程,极大地提高了分析速度,保证了网页相关信息的显示及时性。
[0026] 其次,根据网页来源获取的搜索词信息是由用户直接输入,比具有一定分析误差的网页分析结果得到的网页核心信息更准确,由搜索词获取的网页相关信息与网页内容的相关性更高,因此本发明提高了网页相关信息的获取准确性和高效性。
[0027] 再次,在网站服务器获取与网页内容相关信息的处理过程中,针对来自搜索引擎的网页来源,不需复杂缓慢的网页抓取、分析过程,因此能够缓解整个处理过程中服务器的抓取压力。
[0028] 对于网页相关信息的具体应用网络广告的显示,本发明通过分析网页来源,提高了网页相关广告的显示速度,以及显示的相关性和高效性。
[0029] 附图说明
[0030] 图1是本发明所述显示与网页内容相关的信息的步骤流程图;
[0031] 图2是本发明实施例显示与网页内容相关的广告的步骤流程图;
[0032] 图3是本发明所述显示与网页内容相关的信息的系统结构框图。
[0033] 具体实施方式
[0034] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0035] 本发明的核心思想是:通过直接分析网页来源(Referer),若来自网页搜索引擎或网页拥有者网站内部的搜索引擎,则Referer中记录了用户在所述搜索引擎输入的搜索词信息,直接提取搜索词,再根据所述搜索词获取网页相关信息显示出来;若来自其他网站,则按照网页分析方式获取网页的核心信息,根据所述核心信息获取网页相关信息。
[0036] 参照图1,是本发明所述显示与网页内容相关的信息的步骤流程图。
[0037] 步骤101,预设置相关信息的控制参数。在网页脚本代码中嵌入一段Javascript代码,用于控制与网页内容相关信息的显示,如显示位置、显示个数、显示方式等信息。当用户在浏览器窗口打开某网页时,根据所述控制参数,在网页上显示出与该网页内容相关的信息,如通知、提示、图片等。本步骤是本发明的优选步骤,通过预设置参数来优化相关信息的显示,当然也可以按照固定模式显示与网页内容相关的信息。
[0038] 步骤102,获取网页来源(Referer)。所述Referer表示某网页的点击来源,可以根据网页的点击来源得知用户是从何处来到该网页。例如,如果在网页a中存在一个链接b,用户点击b来到网页b后,b的Referer就是a。Referer是用于网络通信链接的协议(如超文本传输协议(HTTP)、远程登录协议(Telnet)等)请求头(request-header)的参考字段,记录了来源统一资源定位符(URL)。所述URL也被称为网页地址,是用在万维网和其他互联网资源中的一种编址系统,用于指定信息位置,包含访问方式的信息(协议类型)、被访问的服务器(域名信息)以及任何被访问的文件(访问路径)。因此,b的Referer中就记录了a的URL。
[0039] 当用户访问某网页时,在Web浏览器输入该网页的地址或点击该网页的链接,浏览器向要访问的网页的Web服务器发送请求。该网页拥有者的Web服务器收到链接请求后,分析该请求的请求头文件(request-header files),从请求头文件的请求头(request-header)中提取出Referer字段。
[0040] 步骤103,分析Referer。判断Referer是否来自搜索引擎,若是,继续步骤104;否则,执行步骤105。任何网站的URL都不是随意设置的,很多网页的URL链接和该网页的内容有着密切的相关。对于来自搜索引擎的URL,记录了用户在搜索引擎中输入的搜索词,这是搜索引擎的网站拥有者设置的,因此不同的搜索引擎,Referer中记录搜索词的位置也不相同。由于搜索词是由用户直接输入,因此所述搜索词与通过搜索引擎链接到的网页内容更相近,比具有一定分析误差的网页分析结果得到的网页核心信息更准确。从而,由搜索词获取的网页相关信息与网页内容的相关性更高,本发明提高了网页相关信息的获取准确性和高效性。
[0041] 所述搜索引擎包括网页拥有者网站内部的搜索引擎和其他网站的搜索引擎。网页拥有者的网站系统预先存储多个搜索引擎的链接特征,所述链接特征主要指搜索引擎网站URL的域名信息,所述域名用于标识网站的名称,通过域名信息即可直接识别是否来自搜索引擎。将Referer中URL的域名信息与网页拥有者的网站系统预先存储的多个搜索引擎网站的域名信息相比较,若存在符合的,则所述Referer来自搜索引擎,可以直接从Referer中获取搜索词;否则来自除搜索引擎网站外的其他网页。
[0042] 步骤104,获取与搜索词相关的信息。在网页拥有者的网站显示的所有相关信息,按照网页内容分类,每一类对应的关键词最大程度代表了该类内容。若某网页Referer来自搜索引擎,则将Referer中的搜索词与相关信息各个类的关键词进行比较,选择最为匹配的一类相关信息,作为与该网页内容最相关的信息。
[0043] 步骤105,分析网页,获取网页相关信息。若网页Referer不是来自搜索引擎,则需要对网页进行分析,可以采用多种分析方法,提取出网页的核心信息。然后将所述核心信息与相关信息各个类的关键词进行比较,选择最为匹配的一类相关信息,作为与该网页内容最相关的信息。
[0044] 步骤106,显示相关信息。选定一类相关信息后,根据预先设置的所述控制参数,在打开的网页上显示出与该网页内容对应的相关信息。优选的,当存在多个与网页内容相关的信息时,可以设置显示个数,每次在访问该网页时,随机从对应类中显示出部分相关信息,或者按照时间段显示部分相关信息。所述优选方法优化了相关信息的显示,可以根据用户或系统的具体需要设置,保证相关信息数据显示的及时更新。
[0045] 本发明中,对于来自搜索引擎网站或网页拥有者网站内部的搜索引擎网页,由于从Referer中提取搜索词不需要任何计算过程,极大地提高了分析速度,保证了网页相关信息的显示及时性。而且,在网站服务器获取与网页内容相关信息的处理过程中,针对来自搜索引擎的网页来源,不需复杂缓慢的网页抓取、分析过程,因此能够缓解整个处理过程中服务器的抓取压力。
[0046] 在具体应用中,最常见的与网页内容相关的信息即为网络广告。随着越来越多的广告商在网络上投放广告,广告显示的及时性和与网页内容的相关性越来越重要,本发明所述方法能够快速显示出与网页内容相关性高的广告。参照图2,是本发明实施例显示与网页内容相关的广告的步骤流程图。
[0047] 步骤201,投放广告代码。网页拥有者在网页脚本代码中投放广告代码,所述广告代码中设置了广告显示的控制参数,用于控制广告在页面的显示位置、显示个数(每次显示几个)、显示方式(如弹出式、横幅式、按钮式等等)、显示顺序(多个广告)、有效期等。
[0048] 步骤202,用户浏览。当用户在浏览器窗口输入网址或点击链接后,对网页进行访问。投放广告代码的网页,在未获取与网页内容相关的广告前,通常先自动播放预设置默认广告,或者不播放任何广告。
[0049] 步骤203,分析Referer。网站服务器收到用户浏览器发来的链接请求,首先提取Referer,通过分析Referer中的URL,判断所述网页是否由搜索引擎链接而来。所述搜索引擎包括网页拥有者网站内部的搜索引擎和其他网站的搜索引擎。系统提供一系列常见的搜索引擎的域名信息,查找是否存在与Referer中URL的域名信息相符合的域名,若存在,则直接提取Referer中的搜索词作为用户主题词,优先显示与此搜索词相关的广告。这样,系统没有必要等待对网页进行抓取、分析的缓慢过程,认为搜索词就可以代表该网页的主题,相关性与显示速度均得到极大的提高。若不存在与Referer中URL的域名信息相符合的域名,则所述Referer来自其他网页,执行步骤206,进行网页分析。
[0050] 步骤204,将搜索词作为主题词,获取相关广告。各个广告商在网页拥有者的网站投放的广告,按照网页内容进行分类,并为每类广告赋予一个关键词,如新闻类、美容类、汽车类、商品类广告等。若某网页Referer来自搜索引擎,则将Referer中的搜索词与广告数据库中的关键词进行比较,选择最为匹配的一类广告,为用户更快速地提供更加贴切的广告内容。
[0051] 以搜索词作为主题是最为简洁的获取主题词的方法,而且所述搜索词是用户直接输入,根据搜索词得到的广告一定比网页分析结果得到的广告更加与用户相关,大大提高了广告显示的相关性和高效性。
[0052] 步骤205,显示广告。根据所述广告代码中设置的控制参数,在页面的适当位置或者动态显示与该网页内容相关的广告。通常,为了给用户提供内容丰富的广告信息,每次随机或者按照时间段显示预定个数的广告。
[0053] 步骤206,按照传统网页上下文广告提取方式显示广告。若网页Referer不是来自搜索引擎,则需要运用现有技术的抓取工具抓取网页后,通常按照上下文分析技术对网页进行分析。所述上下文广告是一种基于网页内容由自动程序输出的匹配广告,上下文广告以针对特定页面的内容为原则进行投放,因此更具有相关性和目标性。例如,一个介绍如何获取银行贷款的网页上就会投放银行贷款或个人贷款广告。所述上下文分析技术是一种语义分析技术,由程序自动分析网页中的文本内容,并与广告商投放的广告关键词相对照,通过确定文本内容以及上下文语义环境与关键词的相关性,将广告自动投放到与之内容相关的文章周围,从而达到“有的放矢”的广告投放效果。
[0054] 当然,也可以按照其他主题词分析方法,对网页进行全面分析来获取网页的主题词。其中,不同的网站,采用不同的分词方法来计算提取网页主题词。然后将所述主题词与广告关键词进行比较,选择最为匹配的一类广告,为用户更快速地提供更加贴切的广告内容。
[0055] 为实现本发明所述的相关信息显示方法,本发明还提供了一种显示网页内容相关信息的系统。参照图3,是本发明所述显示与网页内容相关的信息的系统结构框图。所述系统包括:第一存储单元301,第二存储单元302,编辑单元303,分析单元304,判断单元305,获取单元306,查找单元307,显示单元308。其中,
[0056] 第一存储单元301,用于存储与搜索词或网页核心信息对应的相关信息。在网页拥有者的网站显示的所有相关信息,按照网页内容分类。在实施例中,广告商投放的广告关键词与所述搜索词或网页核心信息相对应。
[0057] 第二存储单元302,用于存储多个搜索引擎的域名信息。所述搜索引擎包括网页拥有者网站内部的搜索引擎和其他网站的搜索引擎。所述域名用于标识网站的名称,通过域名信息即可直接识别是否来自搜索引擎。
[0058] 编辑单元303,用于预设置所述相关信息的控制信息。所述控制信息为嵌入在网页脚本代码中的一段Javascript代码,用于控制与网页内容相关信息的显示,如显示位置、显示个数、显示方式等信息。
[0059] 分析单元304,用于获取网页的来源信息;分析所述来源信息,判断是否来自搜索引擎,若是则提取所述来源信息中的搜索词;否则分析网页,提取网页核心信息。所述分析单元还包括:判断单元305,用于比较所述网页来源信息中的域名信息是否与所述搜索引擎的域名信息符合,若存在符合的,则来自于对应的搜索引擎;否则,来自其他网页。
[0060] 所述分析单元304从链接请求中提取出Referer字段,判断单元305根据第二存储单元302存储的多个搜索引擎的域名信息,判断所述Referer是否来自搜索引擎。将Referer中URL的域名信息与多个搜索引擎网站的域名信息相比较,若存在符合的,则所述Referer来自搜索引擎,可以直接从Referer中获取搜索词;否则来自除搜索引擎网站外的其他网页。
[0061] 获取单元306,用于获取与所述搜索词或网页核心信息对应的相关信息。所述获取单元还包括:查找单元307,所述相关信息按照网页内容分类,用于查找与所述搜索词或网页核心信息对应的类别。若某网页Referer来自搜索引擎,则将Referer中的搜索词与第一存储单元301存储的相关信息各个类的关键词进行比较,选择最为匹配的一类相关信息,作为与该网页内容最相关的信息。
[0062] 显示单元308,用于对应所述控制信息,将获取的部分相关信息显示。根据编辑单元303预先设置的控制信息,每次在访问网页时,随机从对应类中显示出部分相关信息,或者按照时间段显示部分相关信息。
[0063] 在上述系统中,网络广告作为所述相关信息的一种应用,本发明所述实施例中与网页内容相关广告的显示方法也是由上述系统实现的。
[0064] 以上对本发明所提供的一种显示网页内容相关信息的方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。