以图片为主的欺诈网页的识别方法、系统、装置和介质转让专利

申请号 : CN202011244992.4

文献号 : CN112214737B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘广卫梁彦博王兆丽曹佃国乔志刚张笃强张安波

申请人 : 山东比特智能科技股份有限公司

摘要 :

本发明公开了以图片为主的欺诈网页的识别方法、系统、装置和介质,属于诈骗网页识别技术领域,要解决的技术问题为如何克服欺诈网页检测在图片为主的网页上的不足,以快速有效的识别欺诈网页。方法,包括如下步骤:基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库;将待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页;对于可疑欺诈网页,如果所述恶意关键词的恶意度满足预设值,认定为欺诈网页;更新上述新的欺诈标签树序列对应的恶意值,并将所述新的欺诈标签序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。

权利要求 :

1.以图片为主的欺诈网页的识别方法,其特征在于包括如下步骤:

收集以图片为主的欺诈网页构建网页样本;

对于每个欺诈网页,通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列,所述标签树序列作为欺诈标签树序列;

对于每个欺诈标签树序列对应的恶意值,基于样本统计值初始化所述恶意值,所述恶意值为恶意关键词的恶意度数值;

基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库,所述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间;

对于以图片为主的待测网页,通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列,所述标签树序列作为待测标签树序列;

将所述待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页;

对于可疑欺诈网页,随机选取少量图片进行图片识别并查找恶意关键词,如果所述恶意关键词的恶意度满足预设值,认定所述可疑欺诈网页为欺诈网页,对应的所述待测标签树为新的欺诈标签树序列,与所述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列;

更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值,并将所述相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。

2.根据权利要求1所述的以图片为主的欺诈网页的识别方法,其特征在于还包括如下步骤:基于欺诈标签树序列的更新时间和恶意值,在离线状态下对特征库进行更新清理。

3.根据权利要求2所述的以图片为主的欺诈网页的识别方法,其特征在于所述更新清理步骤为:每隔预定时间,查看欺诈标签树序列对应的恶意值和最后的更新时间,将高于阈值且时间在有效期内的欺诈标签树序列进行保留。

4.根据权利要求1、2或3所述的以图片为主的欺诈网页的识别方法,其特征在于对于每个欺诈网页以及待测网页,通过网页标签树提取工具提取标签树信息后,对标签树进行剪裁,保留的标签包括但不限于div、href、table和img。

5.根据权利要求1、2或3所述的以图片为主的欺诈网页的识别方法,其特征在于通过一个映射关系记录标签树所有的标签。

6.根据权利要求1、2或3所述的以图片为主的欺诈网页的识别方法,其特征在于基于距离,将待检测标签树序列与欺诈标签树序列特征库中的欺诈标签树序列进行相似度计算。

7.根据权利要求1、2或3所述的以图片为主的欺诈网页的识别方法,其特征在于对于可疑欺诈网页,随机选取少量图片并通过OCR技术进行图片识别。

8.以图片为主的欺诈网页的识别系统,其特征在于用于通过如权利要求1‑7任一项所述的以图片为主的欺诈网页的识别方法识别欺诈网页,所述系统包括:采集模块,所述采集模块用于收集以图片为主的欺诈网页构建网页样本;

标签提取模块,所述标签提取模块用于通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列;或者,用于通过网页标签树提取工具提取标签树信息并对标签树进行剪裁,通过字符对剪裁后标签树进行编码,根据标签对应的字符构建标签树序列;

欺诈标签树模块,所述欺诈标签树模块调用标签提取模块,通过标签提取模块构建每个欺诈网页的标签树序列作为欺诈标签树;

恶意值初始化模块,所述恶意值初始化模块用于对于每个欺诈标签树序列对应的恶意值,基于样本统计值初始化所述恶意值,所述恶意值为恶意关键词的恶意度数值;

特征库初始化模块,所述特征库初始化模块用于基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库,所述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间;

待测网页初判模块,所述待测网页初判模块用于获取待测网页并判断所述待测网页是否为以图片为主的待测网页;

可疑欺诈网页判断模块,所述可疑欺诈网页判断模块用于调用标签提取模块,通过标签提取模块构建待测网页的标签树序列作为待测标签树,并用于将所述待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页;

欺诈网页判断模块,所述欺诈网页判断模块用于对于可疑欺诈网页,随机选取少量图片进行图片识别并查找恶意关键词,并用于判断所述恶意关键词的恶意度是否满足预设值,如果是,认定所述可疑欺诈网页为欺诈网页,对应的所述待测标签树为新的欺诈标签树序列,与所述新的欺诈标签树序列的相似度高于阈值的欺诈标签树序列为相关欺诈标签树序列;

特征库更新模块,所述特征库更新模块用于更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值,并将所述相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库;

特征库清理模块,所述特征库清理模块用于基于欺诈标签树序列的更新时间和恶意值,在离线状态下对特征库进行更新清理。

9.装置,其特征在于,包括:至少一个存储器和至少一个处理器;

所述至少一个存储器,用于存储机器可读程序;

所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至7中任一所述的方法。

10.计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至7任一所述的方法。

说明书 :

以图片为主的欺诈网页的识别方法、系统、装置和介质

技术领域

[0001] 本发明涉及诈骗网页识别技术领域,具体地说是以图片为主的欺诈网页的识别方法、系统、装置和介质。

背景技术

[0002] 检测一个网页是否存在欺诈信息通常采用两种方法,分别为专家系统法和机器学习方法,专家系统法即在网页中提取主要内容,包括题目、摘要和内容等,然后根据专家系统中预存的关键词等规则信息,判断网页中是否包含欺诈信息,该方法中特征词等规则信息需要人工进行维护,人力投入大。机器学习方法通过大量的网页内容提取和分类,将其分为欺诈网页和非欺诈网页,通过训练得到分类器后,使用分类器判断网页的欺诈属性,该方法中需要大量的标注。
[0003] 即专家系统法和机器学习法均存在一定的问题,现存方法能够使用的关键前提在于网页中有比较丰富的文本信息,而在欺诈网页中,尤其是售卖假药的网页中,比较常见到的是大量的图片堆积起来,所有的有效信息都在图片中展示,这样现存的方法并不能拿到任何有效信息,导致检测结果不理想。如果使用OCR技术进行所有图片的识别,速度慢,效果差。
[0004] 如何克服欺诈网页检测在图片为主的网页上的不足,以快速有效的识别欺诈网页,是需要解决的技术问题。

发明内容

[0005] 本发明的技术任务是针对以上不足,提供以图片为主的欺诈网页的识别方法、系统、装置和介质,来解决如何克服欺诈网页检测在图片为主的网页上的不足,以快速有效的识别欺诈网页的问题。
[0006] 第一方面,本发明提供一种以图片为主的欺诈网页的识别方法,包括如下步骤:
[0007] 收集以图片为主的欺诈网页构建网页样本;
[0008] 对于每个欺诈网页,通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列,所述标签树序列作为欺诈标签树序列;
[0009] 对于每个欺诈标签树序列对应的恶意值,基于样本统计值初始化所述恶意度,所述恶意值为恶意关键词的恶意度数值;
[0010] 基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库,所述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间;
[0011] 对于以图片为主的待测网页,通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列,所述标签树序列作为待测标签树序列;
[0012] 将所述待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页;
[0013] 对于可疑欺诈网页,随机选取少量图片进行图片识别并查找恶意关键词,如果所述恶意关键词的恶意度满足预设值,认定所述可疑诈骗网页为欺诈网页,对应的所述待测标签树为新的欺诈标签树序列,与所述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列;
[0014] 更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值,并将所述相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。
[0015] 更优的,还包括如下步骤:
[0016] 基于欺诈标签树序列的更新时间和恶意值,在离线状态下对特征库进行更新。
[0017] 作为优选,所述清理步骤为:每隔预定时间,查看欺诈标签树序列对应的恶意值和最后的更新时间,将高于阈值且时间在有效期内的欺诈标签树序列进行保留。
[0018] 作为优选,对于每个欺诈网页以及待测网页,通过网页标签树提取工具提取标签树信息后,对标签树进行剪裁,保留的标签包括但不限于div、href、table和img。
[0019] 作为优选,通过一个映射关系记录标签树所有的标签。
[0020] 作为优选,基于距离,将待检测标签树序列与欺诈标签树序列特征库中的欺诈标签树序列进行相似度计算。
[0021] 作为优选,对于可疑欺诈网页,随机选取少量图片并通过OCR技术进行图片识别。
[0022] 第二方面,本发明提供一种以图片为主的欺诈网页的识别系统,用于通过如第一方面任一项所述的以图片为主的欺诈网页的识别方法识别欺诈网页,所述系统包括:
[0023] 采集模块,所述采集模块用于收集以图片为主的欺诈网页构建网页样本;
[0024] 标签提取模块,所述标签提取模块用于通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列;或者,用于通过网页标签树提取工具提取标签树信息并对标签树进行剪裁,通过字符对剪裁后标签树进行编码,根据标签对应的字符构建标签树序列;
[0025] 欺诈标签树模块,所述欺诈标签树模块调用标签提取模块,通过标签提取模块构建每个欺诈网页的标签树序列作为欺诈标签树;
[0026] 恶意值初始化模块,所述恶意值初始化模块用于对于每个欺诈标签树序列对应的恶意值,基于样本统计值初始化所述恶意度,所述恶意值为恶意关键词的恶意度数值;
[0027] 特征库初始化模块,所述特征库初始化模块用于基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库,所述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间;
[0028] 待测网页初判模块,所述待测网页初判模块用于获取待测网页并判断所述待测网页是否为以图片为主的待测网页;
[0029] 可疑欺诈网页判断模块,所述可疑欺诈网页判断模块用于调用标签提取模块,通过标签提取模块构建待测网页的标签树序列作为待测标签树,并用于将所述待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页;
[0030] 欺诈网页判断模块,所述欺诈网页判断模块用于对于可疑欺诈网页,随机选取少量图片进行图片识别并查找恶意关键词,并用于判断所述恶意关键词的恶意度是否满足预设值,如果是,认定所述可疑诈骗网页为欺诈网页,对应的所述待测标签树为新的欺诈标签树序列,与所述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列;
[0031] 特征库更新模块,所述特征库更新模块用于更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值,并将所述相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库;
[0032] 特征库清理模块,所述特征库清理模块用于基于欺诈标签树序列的更新时间和恶意值,在离线状态下对特征库进行更新。
[0033] 第三方面,本发明提供一种装置,包括:至少一个存储器和至少一个处理器;
[0034] 所述至少一个存储器,用于存储机器可读程序;
[0035] 所述至少一个处理器,用于调用所述机器可读程序,执行第一方面任一所述的方法。
[0036] 第三方面,本发明提供一种介质,为计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行第一方面任一所述的方法。
[0037] 本发明的以图片为主的欺诈网页的识别方法、系统、装置和介质具有以下优点:
[0038] 1、获取图片为主的欺诈网页构建样本网页,构建欺诈网页对应欺诈标签树序列,通过欺诈标签树序列及其更新时间和恶意值构建特征库,计算待测网页对应的待测标签树序列,基于待测标签树序列与欺诈标签树序列的相似度判断可疑欺诈网页,进一步基于恶意值判断可疑欺诈网页是否为欺诈网页,并更新特征库,实现了欺诈网页的识别,该方法不需要很多的以图片为主的欺诈网页数据,可以持续的生成多种网页框架特征,快速建立和维护一个欺诈网页框架,使用这个特征集,检测速度快,而且准确率和召回率都较高,可以弥补当前欺诈网页检测方法在图片为主的网页上的不足;
[0039] 2、在对标签树进行编码前,对编码树进行剪裁,保留需要的部分,可提高计算速率及准确率。

附图说明

[0040] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041] 下面结合附图对本发明进一步说明。
[0042] 图1为实施例1以图片为主的欺诈网页的识别方法的流程框图。

具体实施方式

[0043] 下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
[0044] 本发明实施例提供以图片为主的欺诈网页的识别方法、系统、装置和介质,用于解决如何克服欺诈网页检测在图片为主的网页上的不足,以快速有效的识别欺诈网页的技术问题。
[0045] 实施例1:
[0046] 本发明的一种以图片为主的欺诈网页的识别方法,包括如下步骤:
[0047] S100、收集以图片为主的欺诈网页构建网页样本;
[0048] S200、对于每个欺诈网页,通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列,标签树序列作为欺诈标签树序列;
[0049] 对于每个欺诈标签树序列对应的恶意值,基于样本统计值初始化上述恶意度,恶意值为恶意关键词的恶意度数值;
[0050] S300、基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库,上述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间;
[0051] S400、对于以图片为主的待测网页,通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列,标签树序列作为待测标签树序列;
[0052] S500、将待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页;
[0053] S600、对于可疑欺诈网页,随机选取少量图片进行图片识别并查找恶意关键词,如果恶意关键词的恶意度满足预设值,认定可疑诈骗网页为欺诈网页,对应的待测标签树为新的欺诈标签树序列,与上述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列;
[0054] S700、更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值,并将相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。
[0055] 其中,对标签树进行字符编码时,编码规则根据需求自定义。使用一个map来记录所有的标签,然后使用标签对应的字母key来替换标签,这样就获得了一个由对应字母组成的可以用来表示标签树的标签树序列,该标签树序列作为欺诈标签树序列。在map中,记录标签和字母的映射关系,例如{“”:”a”“, ”:”b”“, ”:”c”,…}那么标签树就可以用对应的字符来替代。