一种识别被篡改网页的方法及装置转让专利

申请号 : CN201210090778.7

文献号 : CN102663060B

文献日 : 2014-11-19

本发明公开了一种识别被篡改网页的方法及装置，其中，所述方法包括，获取网页搜索结果，所述获取网页搜索结果包括：基于预置的关键词向搜索引擎发起搜索请求，获取搜索引擎返回的网页搜索结果，所述预置的关键词为被篡改网页的特征标识；提取网页搜索结果中的网页链接；对所述提取的网页链接对应的网页进行加载，获取所述网页链接对应的当前页面内容；基于所述预置的关键词对所述网页链接对应的当前页面内容进行分析，根据分析结果，识别出被篡改的网页。通过本发明可以缩短识别问题网页的时间，提高识别被篡改网页的效率。

1.一种识别被篡改网页的方法，其特征在于，包括：

获取网页搜索结果，所述获取网页搜索结果包括基于预置的关键词向搜索引擎发起搜索请求，获取搜索引擎返回的网页搜索结果；所述获取网页搜索结果还包括基于所述预置的关键词，向所述搜索引擎返回的搜索结果中的网页链接所对应的页面服务器发起站内搜索请求，获取页面服务器返回的网页搜索结果；所述获取网页搜索结果还包括对通过搜索引擎所获取到的网页搜索结果所对应的数据包进行分析，如果发现网页内包含有站内搜索入口，则获取该入口，并基于所述预置的关键词及该站内搜索入口构造站内搜索请求，发送到页面服务器，获取相应的网页搜索结果，其中，所述预置的关键词为被篡改网页的特征标识，这些特征标识具体为被篡改的网页中所包含的词语；

提取网页搜索结果中的网页链接；

对所述提取的网页链接对应的网页进行加载，获取所述网页链接对应的当前页面内容；

基于所述预置的关键词对所述网页链接对应的当前页面内容进行分析，根据分析结果，识别出被篡改的网页。

2.根据权利要求1所述的方法，其特征在于，所述提取网页搜索结果中的网页链接包括：对网页搜索结果中包含的所述网页链接对应的网页内容进行语义分析，提取出网页内容中包含语义符合预置条件的内容的网页链接。

3.根据权利要求1所述的方法，其特征在于，所述基于所述预置的关键词对各个网页链接对应的当前页面内容进行分析，根据分析结果，识别出被篡改的网页包括：判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词；

如果包含，则将网页链接对应的网页确定为被篡改的网页。

4.根据权利要求1所述的方法，其特征在于，所述基于所述预置的关键词对各个网页链接对应的当前页面内容进行分析，根据分析结果，识别出被篡改的网页包括：判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词；

如果包含，则对所述当前页面内容进行语义分析，将语义分析结果符合预置条件的网页链接对应的网页确定为被篡改的网页。

5.一种识别被篡改网页的装置，其特征在于，包括

网页搜索结果获取单元，用于获取网页搜索结果，所述网页搜索结果获取单元包括第一获取子单元，用于基于预置的关键词向搜索引擎发起搜索请求，获取搜索引擎返回的网页搜索结果；所述网页搜索结果获取单元还包括第二获取子单元，用于基于所述预置的关键词，向所述搜索引擎返回的搜索结果中的网页链接所对应的页面服务器发起站内搜索请求，获取页面服务器返回的网页搜索结果；所述网页搜索结果获取单元还用于对通过搜索引擎所获取到的网页搜索结果所对应的数据包进行分析，如果发现网页内包含有站内搜索入口，则获取该入口，并基于所述预置的关键词及该站内搜索入口构造站内搜索请求，发送到页面服务器，获取相应的网页搜索结果，其中，所述预置的关键词为被篡改网页的特征标识，这些特征标识具体为被篡改的网页中所包含的词语；

网页链接提取单元，用于提取网页搜索结果中的网页链接；

网页加载单元，用于对所述提取的网页链接对应的网页进行加载，获取所述网页链接对应的当前页面内容；

识别单元，基于所述预置的关键词对所述网页链接对应的当前页面内容进行分析，根据分析结果，识别出被篡改的网页。

6.根据权利要求5所述的装置，其特征在于，所述网页链接提取单元包括：语义分析子单元，用于对网页搜索结果中包含的所述网页链接对应的网页内容进行语义分析，提取子单元，用于提取出网页内容中包含语义符合预置条件的内容的网页链接。

7.根据权利要求5所述的装置，其特征在于，所述识别单元包括：

第一识别子单元，用于判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词，如果包含，则将网页链接对应的网页确定为被篡改的网页。

8.根据权利要求5所述的装置，其特征在于，所述识别单元包括：

第二识别子单元，用于判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词，如果包含，则对所述当前页面内容进行语义分析，将语义分析结果符合预置条件的网页链接对应的网页确定为被篡改的网页。

一种识别被篡改网页的方法及装置

技术领域

[0001] 本发明涉及计算机技术领域，特别是涉及一种识别被篡改网页的方法及装置。

背景技术

[0002] 随着互联网的迅速发展，网页上提供了足够丰富的内容，供用户在网上查找资料及个人所需要的各种信息。但是，现实中网页内所显示的信息很有可能是已经被黑客篡改后的内容，而并不是客户真正所需要的信息。例如，用户输入某一个查询关键词，打开搜索结果中的某一网页，其中的内容并不是与该关键词相关的内容，而是一些美女或色情的图片，等等。由于这些被篡改的网页给用户的日常浏览造成了不良影响，因此网络安全工具一个很重要的工作就是，需要将网络中存在的一些被篡改的网页识别出来。

[0003] 现有技术中，通常是通过遍历网页的各个目录的方式来判断是否存在可疑的文件，如果存在，则证明该网页可能被篡改过。对于一个网页而言，实际上对应着一个数据包，在数据包中可能存在多个目录，对各种资源进行分类管理，例如，包含图片、视频、音乐等等目录；黑客在篡改网页时，可能会将篡改后的内容放到其中的某个目录中，或者用篡改后的文件替换某目录中的某文件等等。采用遍历网页的方式识别网页是否被篡改，如果完整的遍历所有的网页可能需要几个小时。因此，目前的判断网页是否被篡改的方法所需要的时间长，占用系统资源量大。

发明内容

[0004] 本发明提供了一种识别被篡改网页的方法及装置，能够在较短的时间内识别网页是否被篡改。

[0005] 本发明提供了如下方案：

[0006] 一种识别被篡改网页的方法，包括：

[0007] 获取网页搜索结果，所述获取网页搜索结果包括基于预置的关键词向搜索引擎发起搜索请求，获取搜索引擎返回的网页搜索结果，所述预置的关键词为被篡改网页的特征标识；

[0008] 提取网页搜索结果中的网页链接；

[0009] 对所述提取的网页链接对应的网页进行加载，获取所述网页链接对应的当前页面内容；

[0010] 基于所述预置的关键词对所述网页链接对应的当前页面内容进行分析，根据分析结果，识别出被篡改的网页。

[0011] 其中，所述获取网页搜索结果还包括：

[0012] 基于所述预置的关键词，向所述搜索引擎返回的搜索结果中的网页链接所对应的页面服务器发起站内搜索请求，获取页面服务器返回的网页搜索结果。

[0013] 其中，所述提取网页搜索结果中的网页链接包括：

[0014] 对网页搜索结果中包含的所述网页链接对应的网页内容进行语义分析，提取出网页内容中包含语义符合预置条件的内容的网页链接。

[0015] 其中，所述基于所述预置的关键词对各个网页链接对应的当前页面内容进行分析，根据分析结果，识别出被篡改的网页包括：

[0016] 判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词；

[0017] 如果包含，则将网页链接对应的网页确定为被篡改的网页。

[0018] 其中，所述基于所述预置的关键词对各个网页链接对应的当前页面内容进行分析，根据分析结果，识别出被篡改的网页包括：

[0019] 判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词；

[0020] 如果包含，则对所述当前页面内容进行语义分析，将语义分析结果符合预置条件的网页链接对应的网页确定为被篡改的网页。

[0021] 一种识别被篡改网页的装置，包括：

[0022] 网页搜索结果获取单元，用于获取网页搜索结果，所述网页搜索结果获取单元包括第一获取子单元，用于基于预置的关键词向搜索引擎发起搜索请求，获取搜索引擎返回的网页搜索结果，所述预置的关键词为被篡改网页的特征标识；

[0023] 网页链接提取单元，用于提取网页搜索结果中的网页链接；

[0024] 网页加载单元，用于对所述提取的网页链接对应的网页进行加载，获取所述网页链接对应的当前页面内容；

[0025] 识别单元，基于所述预置的关键词对所述网页链接对应的当前页面内容进行分析，根据分析结果，识别出被篡改的网页。

[0026] 其中，所述网页搜索结果获取单元还包括：

[0027] 第二获取子单元，用于基于所述预置的关键词，向所述搜索引擎返回的搜索结果中的网页链接所对应的页面服务器发起站内搜索请求，获取页面服务器返回的网页搜索结果。

[0028] 其中，所述网页链接提取单元包括：

[0029] 语义分析子单元，用于对网页搜索结果中包含的所述网页链接对应的网页内容进行语义分析，

[0030] 提取子单元，用于提取出网页内容中包含语义符合预置条件的内容的网页链接。

[0031] 其中，所述识别单元包括：

[0032] 第一识别子单元，用于判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词，如果包含，则将网页链接对应的网页确定为被篡改的网页。

[0033] 其中，所述识别单元包括：

[0034] 第二识别子单元，用于判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词，如果包含，则对所述当前页面内容进行语义分析，将语义分析结果符合预置条件的网页链接对应的网页确定为被篡改的网页。

[0035] 根据本发明提供的具体实施例，本发明公开了以下技术效果：

[0036] 本发明基于预置的搜索关键词向搜索引擎发起搜索请求，获取网页搜索结果，所述预置的关键词为被篡改网页的特征标识，提取搜索结果中的网页链接，并对链接对应的页面内容基于所述的预置关键词进行分析，根据分析识别出网页是否被篡改。通过上述分析可以看到，本发明是通过预置的关键词，有目地的抓取疑似被篡改的网页，之后再通过验证所述的关键词是否包含在所述的网页内来确认该网页是否被篡改。而一般抓取搜索结果可以在几秒或者更短的时间内完成。遍历网页的方法要将网页内的所有目录都进行扫描，再将扫描的网页内容与原始的网页内容对比来判断其是否被篡改，而将所有网页完整的遍历一遍，通常需要几个小时。因此，相对于遍历网页来识别其是否被篡改而言，本发明的方法可以缩短识别问题网页的时间。

附图说明

[0037] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0038] 图1是本发明实施例提供的方法的流程图；

[0039] 图2是本发明实施例提供的装置的示意图。

具体实施方式

[0040] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

[0041] 本发明实施例提供了一种识别被篡改网页的方法，参见图1，该方法包括：

[0042] S101：获取网页搜索结果，所述获取网页搜索结果包括：基于预置的关键词向搜索引擎发起搜索请求，获取搜索引擎返回的网页搜索结果，所述预置的关键词为被篡改网页的特征标识；

[0043] 其中的搜索关键词可以是用户所提供的，或者是专门人员自己所搜集到的，也可以通过其它方法获得。

[0044] 在具体实施的过程中，为了便于用户提供搜索关键词，可以预置与用户交互的接口，由用户通过接口主动上报关键词，也可以由专门人员向用户定期或不定期地主动获取关键词。所述的关键词一般为被篡改网页的特征标识，这些特征标识通常包括被篡改的网页中所包含的词语、被篡的URL(Uniform Resource Locator，统一资源定位符)链接、被篡改的js(javascript)、css(Cascading Style Sheet，级联样式表)资源文件等等。例如“传奇私服site：gov.cn”、“六合彩”等等，这样的词经常会出现在被篡改的网页内容中，因此这些词可以作为本发明实施例中的关键词。为了便于描述，并与普通的搜索关键词相区别，本发明实施例中可以将其称为“黑词”。基于这样的黑词抓取搜索结果，可以更快捷准确地抓取到疑似被篡改的网页。

[0045] 在实际操作的过程中，获取搜索结果的时候，可以根据需要，利用一个或几个关键词，通过搜索引擎发起搜索请求。具体操作的方法可以是预先获取与搜索引擎之间的交互接口，基于关键词以及交互接口构造搜索请求，通过该接口向搜索引擎发送该构造的搜索请求，相应的搜索引擎将符合条件的(也即页面内容中包含有搜索请求中携带的关键词的)搜索结果返回。

[0046] 需要说明的是，一个典型的搜索引擎系统，通常由网络爬虫系统、索引生成系统和在线检索系统构成。而搜索引擎爬虫程序的任务，可以归纳为两个主要方面：一个是不断发现网络上的URL，另一个就是下载URL所对应的页面进行分析，以便生成索引库。而在响应用户的搜索请求时，又是将关键词与网页的页面内容中包含的文字进行匹配，如果匹配成功则作为搜索结果返回。也就是说，只有当一个网页的URL被爬虫发现，并且页面内容被下载下来保存到数据库中的情况下，该网页才有可能被作为搜索结果返回给用户。然而，在如今互联网上的网页数量极其庞大，而且增长速度又非常快的情况下，要想在短时间内对每一个抓取到的网页都进行下载分析，几乎是一个不可能完成的任务。也就是说搜索引擎的爬虫程序在互联网上抓取到的URL可能会很多，但是真正对其页面内容进行了下载的却只是其中的一部分。而对于那些没被下载并保存到搜索引擎数据库中，但可能已经被篡改的网页，通过直接向搜索引擎获取搜索结果的方法并不能获得到。也就是说，如果仅用搜索引擎来获取网页搜索结果，并识别网页是否被篡改，最终得到的判断结果可能并不全面。

[0047] 而另一方面，搜索引擎给出的搜索结果中有些可能具有如下特点：对应的网页的页面内容是由一系列的链接组成的(例如各类门户网站的首页等，通常可以将链接所在的网页称为源网页，点击链接之后打开的网页称为目标网页)，当搜索引擎将这种源网页作为搜索结果返回时，一般是由于其中的某个或某些链接的链接文本(或称锚文本anchor)中包含查询关键词(本发明实施例中则对应黑词)。但是，源网页中的这些链接分别对应各自的目标网页，这些链接对应的目标网页URL可能会被搜索引擎的爬虫全部抓取到，也可能只能抓取其中的一部分，而即使能全部抓取到，也可能由于前述原因，只对其中的一部分链接对应的目标网页的页面内容进行了下载。这就使得，该网页中的一部分链接对应的目标网页的页面内容中即使包含指定的黑词，可能也无法从搜索引擎给出的搜索结果中得到。然而，对于同一个源网页中的不同链接而言，可能会具有某种共性，如果其中某一个或几个链接对应的目标网页被黑客篡改，那么其他链接对应的目标网页也很有可能成为黑客的篡改对象。换言之，如果搜索引擎给出的搜索结果中存在包含有大量链接的源网页，则该源网页中的各个链接指向的目标网页，甚至是目标网页中包含的链接都应该被作为重点怀疑对象。因此，如果能够对这种源网页中的链接进行进一步地搜索，则可能能够更全面地发现被篡改网页。

[0048] 而上述这种特殊的源网页恰恰通常会提供“站内搜索”入口，所谓的站内搜索与通用的搜索之间的区别就在于，仅在自身网站内部进行搜索，但能够保证网站内部搜索的全面性。例如各种电商网站、购物网站、团购网站等等首页中，都存在站内搜索入口，用户可以在站内搜索的输入框中输入关键词，就会得到网站内部与该关键词相关的搜索结果。

[0049] 因此，综合以上原因，在本发明实施例中，在从搜索引擎获取到搜索结果之后，还可以向网页搜索结果中包含的网页链接所对应的页面服务器发起站内搜索请求，进一步获取站内的搜索结果。具体操作方式可以为：对通过搜索引擎所获取到的网页搜索结果所对应的数据包进行分析，如果发现网页内包含有站内搜索入口，则获取该入口，并基于黑词及该站内搜索入口构造站内搜索请求，发送到页面服务器，获取相应的网页搜索结果。当然，在实际应用中，也不限于上述发起站内搜索的实现方式，例如，可以预先获取并记录下一些常见网页中的站内搜索入口，这样，当搜索结果中出现这样的网页时，直接根据记录的内容获知到网页的站内搜索入口，并构造站内搜索请求即可。总之，通过站内搜索的方式，可以进一步获取到网页内容包含有黑词，但没有被保存到搜索引擎数据库中的网页，因此可以从一定程度上保证发现被篡改网页的全面性。

[0050] S102：提取搜索结果中的网页链接；

[0051] 搜索引擎的工作方式一般是，利用“蜘蛛”程序对一定I P地址范围内的互联网站进行检索，一旦发现新的网站就会提取网站的信息和网址(当然，也可以是网站拥有者主动向搜索引擎提交网址)并加入自己的数据库。当用户以关键词查找信息时，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容相符的网站，便采用特殊的算法(通常根据网页中关键词的匹配程度，出现的位置/频次，链接质量等)计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将这些网页链接返回给用户。但是，在实践中，“蜘蛛”爬取网页信息是有一定的频率的(同样，主动向搜索引擎提交网址也是有一定的频率的)。因此，利用搜索引擎所获取到的网页结果，是“蜘蛛”程序最近一次爬取该网页所获取的一个结果。例如，“蜘蛛”是在两天前对某一网页进行爬取，并将网页结果保存在搜索引擎的数据库中，那么利用搜索引擎获取网页结果的时候，如果保存在数据库的该网页内容刚好与客户的搜索请求相匹配，搜索引擎会将该网页信息反馈给客户。通过上述分析，可以知道，该返回给客户的结果是两天前该网页所显示的内容信息，两天后，该网页内容可能已经发生了变化，当然也可能没有变化。也就是说，利用搜索引擎或搜索引擎和站内搜索获取到的结果并不一定是网页的实时内容，需要进行进一步确认。因此，搜索结果中的这些页面是否被篡改，需将各个页面对应的网页链接提取出来进行进一步判断(后续会有对此的详细介绍)。

[0052] 具体实现时，可以是将搜索结果中的所有网页链接都提取出来，进行后续的进一步验证。但在实际应用中，利用黑词通过搜索引擎和站内搜索获取到的搜索结果中，有部分网页链接所对应的页面可能是未被篡改的，但是恰好这些网页的内容中包含有搜索所利用的关键词，因此这些网页也会被获取到并列在搜索结果中。如果对这部分搜索结果也与其它搜索结果一样进行后续判断，无疑会增加工作量，耗费时间。

[0053] 基于以上原因，可以在获取到网页搜索结果之后，首先对获取到的搜索结果进行进一步筛选，从中提取出一部分确实需要进行后续进一步分析的网页链接。具体实现时，由于利用搜索引擎和站内搜索获取到的结果都包含有每个链接所对应的网页内容，这些网页内容是由搜索引擎服务器备份存储的，因此可以通过以下方式对搜索结果进行进一步过滤：对搜索引擎服务器备份存储的网页链接对应的网页内容进行语义分析，提取出网页内容中包含语义符合预置条件的内容的网页链接，也即通过语义分析将正常的未被篡改的网页链接排除掉，这样所述的搜索结果中所包含的链接都是疑似被篡改的网页链接。其中，预置条件可以根据实际应用中的需要来进行设定，或者，针对不同的黑词，还可以设定不同的预置条件。例如，针对“法轮功”这一黑词，可以将预置条件设定为：网页链接对应的当前页面内容中包含宣传法轮功含义的内容时，则网页可能就是被篡改的网页，等等，这里不再一一列举。

[0054] 为了更好的理解该步骤，下面简单介绍一下语义分析法。语义分析可以使电脑模拟人脑，感知语言的过程，从逻辑思维的角度对语言进行判断，从领域、情景、背景三方面分析得到结果。也就是说使电脑建立起人脑的概念，通过概念入手完成对语言的认知，依靠上下文、篇章来判断语言本身的含义。当接收到信息后，计算机就能够立刻对信息进行理解甄别→加工提纯→挖掘，从而在互联网数据库中寻找到匹配度最高的信息。也就是说，利用语义分析，可以更加精准的过滤信息，得到用户最想要的结果。

[0055] 举例来说，搜索引擎在给出搜索结果时主要利用关键词匹配技术来实现，而这种方法只能过滤出与关键词相关的文本，但不能区分出文章的立场和态度。而有些网页中的文章，虽然也包含相关的关键词，但却可能对主题持有不同的立场。例如，包含“法轮功”主题的文章，有些是站在批判法轮功的立场上来表达观点的，有些却是站在支持法轮功的立场上。但是根据法律规定，任何形式的对法轮功的宣传都是违法的，所以专门用来宣传法轮功的网站一般不可能获得审核通过，因此，黑客可能只能通过篡改正常的网页内容来达到其宣传的目的，相应的，可能会将“法轮功”作为黑词进行搜索并发现被篡改网页。但是，正如前文所述，站在支持法轮功的立场上来表达观点的网页很可能是被黑客篡改后的网页。然而一些批判法轮功的文章，或者关于法轮功的新闻报道等，却可能是正常的。此时，如果仅仅通过关键词匹配技术，将“法轮功”作为黑词进行搜索，最后获取的结果既包含内容支持法轮功的网页，同时也包含内容为批判法轮功的网页。也就是说只要包含“法轮功”这个关键词，就会被作为搜索结果过滤出来。但是本发明实施例的目的是识别被篡改的网页，所以，站在支持法轮功立场来发表观点的网页才是本发明实施例所关注的网页，此时利用语义分析法，对网页内容所表达的主题思想进行分析，则可以将内容为支持法轮功的网页提取出来，将批判法轮功的正常的网页排除掉。

[0056] 另外，黑客采取的可能并不是将整个页面内容都篡改的方式，而是将其内容进行部分篡改。例如：某一网页的内容通篇都是在报道某一新闻事实，但是在正文的某一段或某几段会穿插着出现“法轮大法可以挽救生命”等与报道的内容完全不符的字样，这种情况下，采用语义分析，通过对上下文以及语境的判断，可以将该疑似被篡改的网页提取出来，而其它完全符合语言表达习惯，上下文连贯的网页则被排除掉，不作为后续识别判断的对象，等等。

[0057] 通过上述分析可以看到，利用语义分析，可以对所述的网页搜索结果进行进一步过滤，将页面内容包含所述关键词但正常的网页从被判断对象范围内排除掉，缩小判断范围，减少工作量，从而提高判断效率。

[0058] S103：对所述网页链接对应的网页进行加载，获取所述网页链接对应的当前页面内容；

[0059] 具体实现时，可以根据网页链接对应的目标URL对网页链接对应的目标网页进行加载，对目标网页进行加载时，相当于是将请求发送给了目标网页的页面服务器，因此，获得的不再是搜索引擎保存备份的页面内容，而是网页链接对应的当前页面内容。

[0060] S104：基于所述预置的关键词对各个网页链接对应的当前页面内容进行分析，根据分析结果，识别出被篡改的网页。

[0061] 在本发明的实施例中，利用上述所说的搜索引擎和站内搜索获取到疑似被篡改的网页链接后，识别所述提取的网页链接所对应的页面是否存在篡改，主要的方法仍然是基于搜索时所用到的关键词。具体实施方式可以为根据提取的网页链接对应的统一资源定位符URL，对所述网页链接对应的网页进行加载，获取所述网页链接对应的当前页面内容，对各个网页链接对应的当前页面内容进行分析，根据分析结果，识别出被篡改的网页。

[0062] 具体在根据分析结果识别被篡改网页时，可以有多种实现方式。例如，在其中一种实现方式中，可以简单地通过分析确认所述的搜索关键词是否存在，如果存在，则可以认定该网页存在篡改。但是，在基于黑词对当前页面内容进行分析的过程中，仅仅通过确认黑词是否存在的方式来识别网页是否被篡改，可能仍然会出现误判的情况。也就是说，如果网页链接对应的当前页面内容中包含黑词，但是仍有可能并不是被篡改的网页。因此，为了降低误判的概率，具体在基于黑词对网页链接的当前页面内容进行分析时，同样可以进一步对当前页面内容进行语义分析法，来进一步进行判断，以提高识别的准确度。具体实现时，可以是首先判断各个网页链接对应的当前页面内容中是否包含黑词，如果包含，则进一步对当前页面内容进行语义分析，将语义分析结果符合预置条件的网页链接对应的网页确定为被篡改的网页。其中，预置条件以及具体的语义分析方法与前文所述类似，这里不再赘述。

[0063] 另外需要说明的是，对于站内搜索的搜索结果而言，一般可能会与当前页面内容的更新保持同步，因此，针对这种搜索结果，也可以不再进行重新加载操作，而是直接将网页内容中包含有黑词的的搜索结果作为被篡改的网页，或者在对页面内容进行语义分析之后，来确定是否为被篡改的网页。

[0064] 与本发明实施例提供的识别被篡改网页的方法相对应，本发明实施例还提供了一种识别被篡改网页的装置，参见图2，该装置包括：

[0065] 网页搜索结果获取单元201，用于获取网页搜索结果，其中，网页搜索结果获取单元201具体可以包括第一获取子单元，用于基于预置的关键词向搜索引擎发起搜索请求，获取搜索引擎返回的网页搜索结果，所述预置的关键词为被篡改网页的特征标识；

[0066] 网页链接提取单元202，用于提取网页搜索结果中的网页链接；

[0067] 网页加载单元203，用于对所述提取的网页链接对应的网页进行加载，获取所述网页链接对应的当前页面内容；

[0068] 识别单元204，基于所述预置的关键词对所述网页链接对应的当前页面内容进行分析，根据分析结果，识别出被篡改的网页。

[0069] 在实际应用中，为了更全面地发现被篡改网页，网页搜索结果获取单元201还可以包括：

[0070] 第二获取子单元，用于基于所述预置的关键词，向所述搜索引擎返回的搜索结果中的网页链接所对应的页面服务器发起站内搜索请求，获取页面服务器返回的网页搜索结果。

[0071] 为了提高识别的准确率，也为了减少后续分析工作的工作量，可以从搜索结果中提取出一部分被篡改可能性比较高的网页链接进行进一步地分析。此时，网页链接提取单元202可以包括：

[0072] 语义分析子单元，用于对所述搜索结果中的网页链接所对应的网页内容进行语义分析；

[0073] 提取子单元，用于提取出网页内容中包含语义符合预置条件的内容的网页链接。

[0074] 具体实现时，识别单元204可以包括：

[0075] 第一识别子单元，用于判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词，如果包含，则将网页链接对应的网页确定为被篡改的网页。

[0076] 或者，识别单元204也可以包括：

[0077] 第二识别子单元，用于判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词，如果包含，则对所述当前页面内容进行语义分析，将语义分析结果符合预置条件的网页链接对应的网页确定为被篡改的网页。

[0078] 总之，通过本发明实施例提供的上述装置，可以基于预置的搜索关键词向搜索引擎发起搜索请求，获取网页搜索结果，所述预置的关键词为被篡改网页的特征标识，提取搜索结果中的网页链接，并对链接对应的页面内容基于所述的预置关键词进行分析，根据分析识别出网页是否被篡改。通过上述分析可以看到，本发明是通过预置的关键词，有目地的抓取疑似被篡改的网页，之后再通过验证所述的关键词是否包含在所述的网页内来确认该网页是否被篡改。而一般抓取搜索结果可以在几秒或者更短的时间内完成。遍历网页的方法要将网页内的所有目录都进行扫描，再将扫描的网页内容与原始的网页内容对比来判断其是否被篡改，而将所有网页完整的遍历一遍，通常需要几个小时。因此，相对于遍历网页来识别其是否被篡改而言，本发明的方法可以缩短识别问题网页的时间。

[0079] 通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

[0080] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

[0081] 以上对本发明所提供的一种识别被篡改网页的方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

一种识别被篡改网页的方法及装置转让专利

申请号 : CN201210090778.7

文献号 : CN102663060B

文献日 : 2014-11-19

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李继峰 , 赵武

申请人 : 北京奇虎科技有限公司 , 奇智软件(北京)有限公司

摘要 :

权利要求 :

说明书 :