一种检测方法、装置、电子设备及存储介质转让专利

申请号 : CN202110797679.1

文献号 : CN115700566A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 许云中王晓波郜振锋闫凡王雄宁阳郑景中

申请人 : 深信服科技股份有限公司

摘要 :

本申请公开了一种检测方法,所述检测方法包括:确定目标网页,并提取所述目标网页的下级网页;其中,所述下级网页包括内链页面和/或外链页面,所述外链页面的链接所在页面为所述目标网页或所述内链页面,所述内链页面为与所述目标网页域名相同的网页;获取所述目标网页和所述下级网页中的页面图片;判断所述页面图片是否为违规图片;若所述页面图片为所述违规图片,则判定检测到网页篡改行为。本申请能够提高检测网页篡改行为的准确率。本申请还公开了一种检测装置、一种电子设备及一种存储介质,具有以上有益效果。

权利要求 :

1.一种检测方法,其特征在于,包括:

确定目标网页,并提取所述目标网页的下级网页;其中,所述下级网页包括内链页面和/或外链页面,所述外链页面的链接所在页面为所述目标网页或所述内链页面,所述内链页面为与所述目标网页域名相同的网页;

获取所述目标网页和所述下级网页中的页面图片;

判断所述页面图片是否为违规图片;

若所述页面图片为所述违规图片,则判定检测到网页篡改行为。

2.根据权利要求1所述检测方法,其特征在于,判断所述页面图片是否为违规图片,包括:将所述页面图片输入深度学习模型,以便所述深度学习模型预测所述页面图片的图片类型;

根据所述图片类型判断所述页面图片是否为违规图片。

3.根据权利要求1所述检测方法,其特征在于,判断所述页面图片是否为违规图片,包括:识别所述页面图片中的文字内容,并将所述文字内容与异常关键词集合进行关键词匹配;

根据关键词匹配结果判断所述页面图片是否为违规图片。

4.根据权利要求1所述检测方法,其特征在于,提取所述目标网页的下级网页,包括:将所述目标页面作为爬取入口进行递归爬取直至爬取到的页面为外链页面,得到所述目标网页的下级网页。

5.根据权利要求1所述检测方法,其特征在于,所述确定目标网页包括:接收网页篡改检测请求,并根据所述网页篡改检测请求确定待检测网站;

将所述待检测网站的网站首页设置为所述目标网页。

6.根据权利要求1所述检测方法,其特征在于,在获取所述目标网页和所述下级网页中的页面图片之前,还包括:对所述下级网页执行去重处理,并将去重后的下级网页存储至内存。

7.根据权利要求1至6任一项所述检测方法,其特征在于,在判定检测到网页篡改行为之后,还包括:将所述违规图片的图片链接标记为违规链接,并对所述违规链接进行屏蔽。

8.一种检测装置,其特征在于,包括:

页面提取模块,用于确定目标网页,并提取所述目标网页的下级网页;其中,所述下级网页包括内链页面和/或外链页面,所述外链页面的链接所在页面为所述目标网页或所述内链页面,所述内链页面为与所述目标网页域名相同的网页;

图片获取模块,用于获取所述目标网页和所述下级网页中的页面图片;

篡改判断模块,用于判断所述页面图片是否为违规图片;还用于若所述页面图片为所述违规图片,则判定检测到网页篡改行为。

9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述检测方法的步骤。

10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述检测方法的步骤。

说明书 :

一种检测方法、装置、电子设备及存储介质

技术领域

[0001] 本申请涉及计算机技术领域,特别涉及一种检测方法、装置、电子设备及存储介质。

背景技术

[0002] 网页篡改时一种利用木马等病毒程序篡改网页内容的黑客技术。网页篡改具有传播速度快、复制容易、事后消除影响难和实时防范难的特点。通常博彩网站、色情网站等违规网站为了提高网站排名来获取更多的流量,在排名权重较高的网站上进行网页篡改,网页篡改的常用手法是暗链攻击和网页劫持。
[0003] 目前的网页篡改检测技术主要是针对网页的文本内容,使用关键词匹配和传统的机器学习方法进行检测,但是基于文本内容的网页篡改检测的准确率较低。
[0004] 因此,如何提高检测网页篡改行为的准确率是本领域技术人员目前需要解决的技术问题。

发明内容

[0005] 本申请的目的是提供一种检测方法、装置、一种电子设备及一种存储介质,能够提高检测网页篡改行为的准确率。
[0006] 为解决上述技术问题,本申请提供一种检测方法,该检测方法包括:
[0007] 确定目标网页,并提取所述目标网页的下级网页;其中,所述下级网页包括内链页面和/或外链页面,所述外链页面的链接所在页面为所述目标网页或所述内链页面,所述内链页面为与所述目标网页域名相同的网页;
[0008] 获取所述目标网页和所述下级网页中的页面图片;
[0009] 判断所述页面图片是否为违规图片;
[0010] 若所述页面图片为所述违规图片,则判定检测到网页篡改行为。
[0011] 可选地,判断所述页面图片是否为违规图片,包括:
[0012] 将所述页面图片输入深度学习模型,以便所述深度学习模型预测所述页面图片的图片类型;
[0013] 根据所述图片类型判断所述页面图片是否为违规图片。
[0014] 可选地,判断所述页面图片是否为违规图片,包括:
[0015] 识别所述页面图片中的文字内容,并将所述文字内容与异常关键词集合进行关键词匹配;
[0016] 根据关键词匹配结果判断所述页面图片是否为违规图片。
[0017] 可选地,提取所述目标网页的下级网页,包括:
[0018] 将所述目标页面作为爬取入口进行递归爬取直至爬取到的页面为外链页面,得到所述目标网页的下级网页。
[0019] 可选地,所述确定目标网页包括:
[0020] 接收网页篡改检测请求,并根据所述网页篡改检测请求确定待检测网站;
[0021] 将所述待检测网站的网站首页设置为所述目标网页。
[0022] 可选地,在获取所述目标网页和所述下级网页中的页面图片之前,还包括:
[0023] 对所述下级网页执行去重处理,并将去重后的下级网页存储至内存。
[0024] 可选地,在判定检测到网页篡改行为之后,还包括:
[0025] 将所述违规图片的图片链接标记为违规链接,并对所述违规链接进行屏蔽。
[0026] 本申请还提供了一种检测装置,该装置包括:
[0027] 页面提取模块,用于确定目标网页,并提取所述目标网页的下级网页;其中,所述下级网页包括内链页面和/或外链页面,所述外链页面的链接所在页面为所述目标网页或所述内链页面,所述内链页面为与所述目标网页域名相同的网页;
[0028] 图片获取模块,用于获取所述目标网页和所述下级网页中的页面图片;
[0029] 篡改判断模块,用于判断所述页面图片是否为违规图片;还用于若所述页面图片为所述违规图片,则判定检测到网页篡改行为。
[0030] 本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述检测方法执行的步骤。
[0031] 本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述检测方法执行的步骤。
[0032] 本申请提供了一种检测方法,包括:确定目标网页,并提取所述目标网页的下级网页;其中,所述下级网页包括内链页面和/或外链页面,所述外链页面的链接所在页面为所述目标网页或所述内链页面,所述内链页面为与所述目标网页域名相同的网页;获取所述目标网页和所述下级网页中的页面图片;判断所述页面图片是否为违规图片;若所述页面图片为所述违规图片,则判定检测到网页篡改行为。
[0033] 本申请在确定目标网页后提取目标网页的下级网页,根据目标网页和下级网页中的图片链接确定目标网页及其下级网页中包含的页面图片。黑客篡改网页时通常在页面上植入色情、博彩、游戏广告等违规图片,从而达到引流的目的。基于上述网页篡改行为的特征,本申请对目标网页及其下级网页中包含的页面图片进行判断,若页面图片为违规图片,则判定检测到网页篡改行为。上述方案使用网页中的图片内容进行网页篡改行为的识别,能够提高检测网页篡改行为的准确率。本申请同时还提供了一种检测装置、一种电子设备和一种存储介质,具有上述有益效果,在此不再赘述。

附图说明

[0034] 为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035] 图1为本申请实施例所提供的一种网页篡改检测方法的流程图;
[0036] 图2为本申请实施例所提供的一种基于违规图片识别的网页篡改检测方法流程图;
[0037] 图3为本申请实施例所提供的一种网页篡改检测装置的结构示意图。

具体实施方式

[0038] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0039] 下面请参见图1,图1为本申请实施例所提供的一种网页篡改检测方法的流程图。
[0040] 具体步骤可以包括:
[0041] S101:确定目标网页,并提取所述目标网页的下级网页;
[0042] 其中,在本步骤之前可以存在接收网页篡改检测请求的操作,可以根据网页篡改检测请求确定目标网页,并提取目标网页的下级网页。目标网页的下级网页指目标页面上的链接所代表的界面,用户可以通过点击目标网页中的链接地址访问下级网页。下级网页中包括还可以包括跳转至其他页面的链接,下级网页的下级网页也属于目标网页的下级网页。例如,网页A包括跳转至网页B和网页C的链接,网页B包括跳转至网页D的链接,网页D包括跳转至网页E的连接,则网页A的下级网页包括网页B、网页C、网页D和网页E,网页B的下级网页包括网页D和网页E。
[0043] 本步骤中获取的下级网页可以包括内链页面,可以包括外链页面,还可以包括内链页面和外链页面。上述内链页面为与所述目标网页域名相同的网页,外链页面为与所述目标网页域名不同的网页。
[0044] 当黑客使用暗链攻击实现网页篡改时,通过隐形篡改技术在被攻击网站的网页植入暗链,上述暗链为被篡改网页的域名不同的外链。在查询到外链页面后,继续查询外链页面的下级网页对于网页篡改行为的检测意义不大,因此可以在检测到外链页面后停止查询该外链页面的下级网页,即本方案中所提取的外链页面的链接所在页面为所述目标网页或所述内链页面。故,本步骤可以通过以下方式提取下级网页:将所述目标页面作为爬取入口进行递归爬取直至爬取到的页面为外链页面,得到所述目标网页的下级网页。
[0045] S102:获取所述目标网页和所述下级网页中的页面图片;
[0046] 其中,在得到目标网页及其下级网页的基础上,本实施例可以根据目标网页和下级网页中的图片链接获取目标网页中的页面图片和下级网页中的页面图片。
[0047] 进一步的,目标网页可以存在多个相同的下级网页的情况,为了避免重复提取相同网页中的页面图片,本实施例可以在获取目标网页和下级网页中的页面图片之前,对所述下级网页执行去重处理并将去重后的下级网页存储至内存。相应的,本实施例可以对内存中去重后的下级网页和目标网页中的页面图片进行获取。
[0048] S103:判断所述页面图片是否为违规图片;若是,则进入S104;若否,则结束流程。
[0049] 其中,在本步骤中可以通过对页面图片执行图片识别操作来判断页面图片是否为违规图片,本实施例中的违规图片可以为不符合相关法律法规的图片,例如,违规图片为图片内容涉及色情、赌博、暴恐、反动等信息的图片。此外,本实施例还可以为目标网页设置合法图片库,不在合法图片库内的图片属于违规图片。
[0050] 具体的,在本步骤中可以使用深度学习模型判断页面图片是否为违规图片,还可以使用OCR(Optical Character Recognition,光学字符识别)技术判断页面图片是否为违规图片,还可以同时使用深度学习模型和OCR技术判断页面图片是否为违规图片。使用深度学习模型和OCR技术判断页面图片是否为违规图片时,可以在深度学习模型判断页面图片的类型为违规类型、且页面图片中的文字内容包括违规关键字时判定页面图片为违规图片。
[0051] S104:判定检测到网页篡改行为。
[0052] 其中,在检测到违规图片之后,可以判定目标网页及其下级网页中存在被篡改的网页。在判定检测到网页篡改行为之后,还可以将所述违规图片的图片链接标记为违规链接,并对所述违规链接进行屏蔽。
[0053] 进一步的,本实施例还可以根据违规图片所在的位置对网页篡改行为进行定位,并上报定位结果,以便拒绝客户端对被篡改的网页的访问请求。具体的,若违规图片所在的页面为内链网页,则判断包含违规图片的内链网页被篡改;若违规图片所在的页面为外链网页,则判断包含违规图片的外链网页的上一级网页(内链网页)被篡改。
[0054] 本实施例在确定目标网页后提取目标网页的下级网页,根据目标网页和下级网页中的图片链接确定目标网页及其下级网页中包含的页面图片。黑客篡改网页时通常在页面上植入色情、博彩、游戏广告等违规图片,从而达到引流的目的。基于上述网页篡改行为的特征,本实施例对目标网页及其下级网页中包含的页面图片进行判断,若页面图片为违规图片,则判定检测到网页篡改行为。上述方案使用网页中的图片内容进行网页篡改行为的识别,能够提高检测网页篡改行为的准确率。
[0055] 作为对于图1对应实施例的进一步介绍,S103中可以通过以下方式识别违规图片:将所述页面图片输入深度学习模型,以便所述深度学习模型预测所述页面图片的图片类型;根据所述图片类型判断所述页面图片是否为违规图片。本实施例可以使用图像分类技术,在自建的数据集上使深度学习模型学习图片的全局语义特征。例如深度学习模型可以通过学习裸露身体敏感部位,性行为等特征判断图片是否涉黄;深度学习模型可以通过学习赌博广告特征判断图片是否涉赌;深度学习模型可以通过学习恐怖主义特征判断图片是否涉恐等。
[0056] 作为对于图1对应实施例的进一步介绍,S103中还可以通过以下方式识别违规图片:识别所述页面图片中的文字内容,并将所述文字内容与异常关键词集合进行关键词匹配;根据关键词匹配结果判断所述页面图片是否为违规图片。具体的,本实施例可以使用OCR技术识别页面图片中的文字内容。在使用OCR技术识别违规图片的过程中,可以使用文字检测模型和文字识别模型识别图中文字,然后根据关键词匹配的结果判断是否包含反动言论信息。
[0057] 作为对于图1对应实施例的进一步介绍,本实施例可以通过以下方式确定进行网页篡改检测的目标网页:接收其他终端发送的网页篡改检测请求,并根据所述网页篡改检测请求确定待检测网站;将所述待检测网站的网站首页设置为所述目标网页。通过将待检测网站的网站首页设置为目标网页,能够对待检测网站中所有的相关网页进行网页篡改检测,能够避免出现漏检的情况。
[0058] 进一步的,上述实施例提供了基于违规图片识别网页篡改行为的方案可以与基于文本内容识别网页篡改行为的方案相集合,可以先针对网页中的文本内容使用关键词匹配和传统的机器学习方法进行检测,若未检测到网页篡改行为,则使用上述实施例提供的基于违规图片识别网页篡改行为的方案继续检测。通过上述方案能够从文本内容和图片内容两个维度对网页篡改行为进行检测,提高了检测网页篡改行为的准确率。
[0059] 下面通过在实际应用中的实施例说明上述实施例描述的流程。
[0060] 目前的网页篡改检测技术主要是针对网页的文本内容,即:使用关键词匹配和传统的机器学习方法(包括但不局限于Han和Textcnn模型)进行检测。但是上述基于文本内容的检测输入比较单一,无法识别仅包含违规图片不包含黑词文本的网页,对这类篡改无法检测。
[0061] 黑客主要通过暗链攻击或网页劫持实现网页篡改。暗链攻击指黑客通过隐形篡改技术在被攻击网站的网页植入暗链的操作,这些暗链往往被非法链接到色情、博彩、反动信息等。网页劫持指:访问正常的网站时,跳转到其他网站,一般跳转后的页面是色情、博彩、广告营销等。网页劫持常见类型包括域名泛解析,黑客劫持,浏览器劫持等。
[0062] 无论是暗链还是劫持跳转后的页面,大多数会存在一些违规图片,例如色情,赌博广告图片。针对上述相关技术存在的缺陷和网页篡改的特征,本申请提供了一种通过识别违规图片检测网页篡改的方案。请参见图2,图2为本申请实施例所提供的一种基于违规图片识别的网页篡改检测方法流程图,本实施例使用了网页中图片内容信息,通过识别图片内容是否违规从而检测网页篡改,具体包括以下内容:
[0063] 步骤1:以网站首页作为爬取页面的入口,采用递归爬取策略爬取页面,直到页面是外链停止。
[0064] 步骤2:对爬取到的页面进行去重缓存到内存中,从页面池中取页面,根据页面内容中的图片链接获取图片。
[0065] 步骤3:从图片池中取图片,使用深度学习模型预测图片内容。
[0066] 其中,步骤3中也可以使用OCR技术识别图中文字,然后根据关键词匹配的结果判断图片是否含有违规信息。
[0067] 步骤4:如果图片内容含有违规信息,则判断违规图片所在页面被篡改。
[0068] 相关技术中的网页篡改检测方案没有使用网页中图片信息,且如今存在较多的篡改事件是黑客恶意的在页面上植入色情、博彩、游戏广告等违规图片。针对目前网页篡改检测方法无法检出仅有违规图片的篡改,本实施例提出一种基于违规图片识别网页篡改的方案填补了当前的空白。本实施例先对网站进行递归爬取页面,直到页面是外链停止,然后根据页面内容中的图片链接获取图片,对图片内容进行识别,如果是违规图片,则可判断为篡改网页。本实施例相比仅检测网页文本的技术,对网页图片篡改起到较好的查缺补漏的作用。本实施例通过识别网页中图片是否违规,可以较好防范此类网页篡改攻击,进而保护网站主体的形象和利益不受损失。
[0069] 请参见图3,图3为本申请实施例所提供的一种网页篡改检测装置的结构示意图;
[0070] 该装置可以包括:
[0071] 页面提取模块301,用于确定目标网页,并提取所述目标网页的下级网页;其中,所述下级网页包括内链页面和/或外链页面,所述外链页面的链接所在页面为所述目标网页或所述内链页面,所述内链页面为与所述目标网页域名相同的网页;
[0072] 图片获取模块302,用于获取所述目标网页和所述下级网页中的页面图片;
[0073] 篡改判断模块303,用于判断所述页面图片是否为违规图片;还用于若所述页面图片为所述违规图片,则判定检测到网页篡改行为。
[0074] 本实施例在确定目标网页后提取目标网页的下级网页,根据目标网页和下级网页中的图片链接确定目标网页及其下级网页中包含的页面图片。黑客篡改网页时通常在页面上植入色情、博彩、游戏广告等违规图片,从而达到引流的目的。基于上述网页篡改行为的特征,本实施例对目标网页及其下级网页中包含的页面图片进行判断,若页面图片为违规图片,则判定检测到网页篡改行为。上述方案使用网页中的图片内容进行网页篡改行为的识别,能够提高检测网页篡改行为的准确率。
[0075] 进一步的,篡改判断模块303包括:
[0076] 图片输入单元,用于将所述页面图片输入深度学习模型,以便所述深度学习模型预测所述页面图片的图片类型;
[0077] 第一判断单元,用于根据所述图片类型判断所述页面图片是否为违规图片。
[0078] 进一步的,篡改判断模块303包括:
[0079] 文字识别单元,用于识别所述页面图片中的文字内容,并将所述文字内容与异常关键词集合进行关键词匹配;
[0080] 第二判断单元,用于根据关键词匹配结果判断所述页面图片是否为违规图片。
[0081] 进一步的,页面提取模块301包括:
[0082] 页面爬取单元,用于将所述目标页面作为爬取入口进行递归爬取直至爬取到的页面为外链页面,得到所述目标网页的下级网页。
[0083] 进一步的,页面提取模块301包括:
[0084] 网页确定单元,用于接收网页篡改检测请求,并根据所述网页篡改检测请求确定待检测网站;还用于将所述待检测网站的网站首页设置为所述目标网页。
[0085] 进一步的,还包括:
[0086] 网页去重模块,用于在获取所述目标网页和所述下级网页中的页面图片之前,对所述下级网页执行去重处理,并将去重后的下级网页存储至内存。
[0087] 进一步的,还包括:
[0088] 篡改处理模块,用于在判定检测到网页篡改行为之后,将所述违规图片的图片链接标记为违规链接,并对所述违规链接进行屏蔽。
[0089] 由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
[0090] 本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0091] 本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
[0092] 说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
[0093] 还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。