一种侵权风险自动化检测方法、装置和电子设备转让专利
申请号 : CN202110508305.3
文献号 : CN112990792B
文献日 : 2021-08-31
发明人 : 董龙飞
申请人 : 北京智源人工智能研究院
摘要 :
权利要求 :
1.一种侵权风险自动化检测方法,其特征在于,包括:采集多个类型的风险数据,所述风险数据包括:网页的页面截图信息、网页内的图片信息和/或通过采集所述网页的源代码和结构化信息获得的所述风险数据的上下文信息,其中所述网页的页面截图信息和所述网页内的图片信息为图像类数据;所述结构化信息包括域名;
基于所采集的多个类型风险数据分别进行侵权风险计算,得到多个风险值;以及利用侵权风险等级评定算法,基于所述多个风险值计算得到侵权风险等级;
所述基于所采集的多个类型的风险数据进行侵权风险计算,包括域名相似度计算、页面相似度计算、登录组件检测、PassiveDNS信息查询、对抗攻击图像检测和图上微粒度实例检索中的一种或多种,其中:
所述域名相似度计算包括通过向量检索计算所述网页的所述域名和品牌基础信息库中的域名的相似度数值作为第一风险值,若所述第一风险值等于或大于第一阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第一风险值小于第一阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述网页的所述域名和所述品牌基础数据库中的域名信息确定所述域名相似度计算中的所述关联关系;
所述页面相似度计算包括通过向量检索计算所述网页的所述页面截图信息和品牌基础信息库中品牌图像信息的相似度数值作为第二风险值,若所述第二风险值大于或等于第二阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第二风险值小于第二阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述网页的所述页面截图信息和所述品牌基础数据库中的图像信息确定所述页面相似度计算中的所述关联关系;
所述登录组件检测包括通过所述网页的源代码检测所述网页中是否包含登录组件,若所述第二风险值大于或等于第二阈值,所述网页的所述页面截图与所述品牌基础信息库中品牌图像信息不存在关联关系并且所述网页中包含登陆组件,则存在疑似侵权风险并进入钓鱼仿冒检测流程,若不包含登录组件,则不存在疑似侵权风险;
所述PassiveDNS信息查询包括对于DNS首次解析时间距今的时间间隔小于第一预定值的网站查询对应域名的PassiveDNS信息,将域名的首次解析时间与当前时间进行比对获得时间跨度,对于不同的所述时间跨度赋予不同等级的疑似风险值;
所述对抗攻击图像检测包括检测所述图像类数据是否为对抗攻击图像,如果是则存在疑似侵权风险,否则无风险;同时基于PixelDenoising将所述图像类数据去噪后,通过向量检索计算所述图像类数据和品牌基础信息库中的品牌关联图像的相似度数值作为第三风险值,若所述第三风险值大于或等于第三阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第三风险值小于第三阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述图像类数据和所述品牌基础数据库中的品牌关联图像的比较确定所述对抗攻击图像检测中的所述关联关系;以及
所述图上微粒度实例检索包括构建优化后的pipeline图上微粒度实例检索模型,将可疑网站的截图经过处理后输入所述模型中获得由网页截图分割出的侵权实体图像,通过向量检索计算所述处理后的所述侵权实体图像和所述品牌基础信息库中的品牌图像信息的相似度数值作为第四风险值,若所述第四风险值大于或等于第四阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第四风险值小于第四阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述处理后的所述侵权实体图像和所述品牌基础信息库中的所述品牌图像信息的比较确定所述图上微粒度实例检测中的所述关联关系。
2.根据权利要求1所述的方法,其特征在于,所述图上微粒度实例检索包括:图像分割预处理,包括输入可疑网站的截图,将所述截图切分为顶部、尾部和中下部;
识别候选区域,包括基于神经网络模型识别候选区域并基于所述向量检索进行所述候选区域的图像分类;
将所述候选区域的识别与所述候选区域的图像分类进行组合,形成优化后的所述图上微粒度实例检索的模型;
裁剪和修饰所述候选区域,将基于所述神经网络模型标注的框内图片进行剪切,将剪切后的所述图片缩放成标准大小;
比对图像相似性,通过向量检索计算所述处理后由网页截图分割出的侵权实体图像和所述品牌基础信息库中的品牌图像信息的相似度数值作为第四风险值,若所述第四风险值大于或等于第四阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第四风险值小于第四阈值,则不存在疑似侵权风险。
3.根据权利要求2所述的方法,其特征在于,所述神经网络模型包括样本训练阶段,所述样本训练阶段采用数据增强方法提高所述神经网络模型的精度并提高样本数量,所述数据增强方法包括对所述图片随机旋转、翻转、裁剪,随机设置所述图片的亮度和对比度以及对所述图片进行数据标准化设置。
4.根据权利要求1所述的方法,其特征在于,所述侵权风险等级评定算法如下所示:侵权风险等级分为10个等级,1表示最高风险等级,10表示最低的风险等级,其中 表示第 个影响因素对应的风险值, 表示第 个因素在侵权风险等级评定体系中的权重,通过层次分析法得出, 为增加评定方法稳定性的扰动因子, 为所述扰动因子对应的权重,影响因素的权重。
5.一种执行如权利要求1‑4任一所述的方法的侵权风险自动化检测装置,其特征在于,包括:
采集模块,用于采集风险数据;
计算模块,用于基于所采集的风险数据进行侵权风险计算;以及评定模块,用于基于侵权风险等级评定算法评定侵权风险等级。
6.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1‑4任一所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1至4任一所述的方法。
说明书 :
一种侵权风险自动化检测方法、装置和电子设备
技术领域
背景技术
各个企业通过严厉打击假冒,侵权等行为对商标,知识产权成果进行保护来预防和化解危
机以保护品牌权益不受侵犯。
自动化程度不高。
发明内容
的页面截图信息和所述网页内的图片信息为图像类数据。
例检索中的一种或多种,其中:
二者不存在关联关系,则存在疑似侵权风险,若所述第一风险值小于第一阈值或二者存在
关联关系,则不存在疑似侵权风险,通过所述网页的所述域名和所述品牌基础数据库中的
域名信息确定所述域名相似度计算中的所述关联关系;
于第二阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第二风险值小于第二阈
值或二者存在关联关系,则不存在疑似侵权风险,通过所述网页的所述页面截图信息和所
述品牌基础数据库中的图像信息确定所述页面相似度计算中的所述关联关系;
息库中品牌图像信息不存在关联关系并且所述网页包含登陆组件,则存在疑似侵权风险并
进入钓鱼仿冒检测流程,若不包含登录组件,则不存在疑似侵权风险;
获得时间跨度,对于不同的所述时间跨度赋予不同等级的疑似风险值;
向量检索计算所述图像类数据和品牌基础信息库中的品牌关联图像的相似度数值作为第
三风险值,若所述第三风险值大于或等于第三阈值,且二者不存在关联关系,则存在疑似侵
权风险,若所述第三风险值小于第三阈值或二者存在关联关系,则不存在疑似侵权风险,通
过所述图像类数据和所述品牌基础数据库中的品牌关联图像的比较确定所述对抗攻击图
像检测中的所述关联关系;以及
实体图像,通过向量检索计算所述处理后的所述侵权实体图像和所述品牌基础信息库中的
所述品牌图像信息的相似度数值作为第四风险值,若所述第四风险值大于或等于第四阈
值,且二者不存在关联关系,则存在疑似侵权风险,若所述第四风险值小于第四阈值或二者
存在关联关系,则不存在疑似侵权风险,通过所述处理后的所述侵权实体图像和所述品牌
基础信息库中的所述品牌图像信息的比较确定所述图上微粒度实例检测中的所述关联关
系。
或等于第四阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第四风险值小于第
四阈值,则不存在疑似侵权风险。
随机旋转、翻转、裁剪,随机设置所述图片的亮度和对比度以及对所述图片进行数据标准化
设置。
重,通过层次分析法得出, 为增加评定方法稳定性的扰动因子, 为所述扰动因子对应的
权重,影响因素的权重。
选区域识别和图搜图的向量检索方式结合实现目标检测的功能,使得该模块可以在不更新
候选区域识别模型的情况下可以适配识别海量品牌LOGO的业务需求。
附图说明
图进行缩放和对比度调节后的图片。
具体实施方式
加载并执行以实现下述实施例所述的方法。
用存储在存储器内的数据,执行终端的各种功能和处理数据。
包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
其中网页的页面截图信息和网页内的图片信息为图像类数据。基于用户可见内容检测的思
路,通过页面截图信息和网页图片地采集为多模态侵权风险计算部分提供图像类数据。为
提高侵权风险计算的精度,风险数据采集部分还通过网页源代码和结构化信息地采集为侵
权风险计算提供丰富的上下文数据。其中采集信息示例如下:
索中的一种或多种,其中:
系,则存在疑似侵权风险,若第一风险值小于第一阈值或二者存在关联关系,则不存在疑似
侵权风险。其中,关联关系的判定可以在计算第一风险值之前、之后或者并行地进行,所述
关联关系包括网页的域名对应的机构主体和品牌基础信息库中的域名对应的机构主体之
间的关联关系,例如授权关系、股权关系等;
者不存在关联关系,则存在疑似侵权风险,若第二风险值小于第二阈值或二者存在关联关
系,则不存在疑似侵权风险,其中,关联关系的判定可以在计算第二风险值之前、之后或者
并行地进行,所述关联关系包括网页的页面截图信息对应的机构主体和品牌基础信息库中
的品牌图像信息对应的机构主体之间的关联关系,例如授权关系、股权关系等;
录组件,则不存在疑似侵权风险。
名的首次解析时间与当前时间进行比对获得时间跨度,对于不同的时间跨度赋予不同等级
的疑似风险值;本实施例中,如表1所示,将时间跨度分为四个等级,并给定不同等级的疑似
风险值:
在侵权风险。同时基于PixelDenoising将图像去噪后,通过向量检索引擎查询是否和品牌
向量信息库中的品牌关联图像相似。对抗攻击图像检测包括检测图像类数据是否为对抗攻
击图像,如果是则存在疑似侵权风险,否则无风险;同时基于PixelDenoising将图像类数据
去噪后,通过向量检索计算图像类数据和品牌基础信息库中的品牌关联图像的相似度数值
作为第三风险值,若第三风险值大于或等于第三阈值,且二者不存在关联关系,则存在疑似
侵权风险,若第三风险值小于第三阈值或二者存在关联关系,则不存在疑似侵权风险,其
中,关联关系的判定可以在计算第三风险值之前、之后或者并行地进行,所述关联关系包括
图像对应的机构主体和品牌基础信息库中的品牌关联图像对应的机构主体之间的关联关
系,例如授权关系、股权关系等;以及
类问题,进行图上的微粒度实例检索。图上微粒度实例检索包括构建优化后的pipeline图
上微粒度实例检索模型,将可疑网站的截图经过处理后输入模型中获得经过处理后的侵权
实体图像(针对本实施例,即在网页截图中经过模型计算,分割出侵权实体所在区域的图
像,如网页截图中品牌logo所在的那一部分图像区域),通过向量检索计算处理后的侵权实
体图像和品牌基础信息库中的品牌图像信息(如品牌LOGO等图像信息)的相似度数值作为
第四风险值,若第四风险值大于或等于第四阈值,且二者不存在关联关系,则存在疑似侵权
风险,若第四风险值小于第四阈值或二者存在关联关系,则不存在疑似侵权风险,其中,关
联关系的判定可以在计算第四风险值之前、之后或者并行地进行,所述关联关系包括可疑
网站截图对应的机构主体和品牌基础信息库中的网站截图对应的机构主体之间的关联关
系,例如授权关系、股权关系等。根据业务数据分析,企业LOGO的滥用在侵权类风险中占较
大比重。因此,基于YOLO v3目标检测模型实现优选区域识别,基于图像向量检索引擎实现
候选区域分类,两部分组成优化后的pipeline图上微粒度实例检索模型。输入可疑网站的
截图,进行图像分割预处理,然后利用YOLO v3模型对该截图进行目标检测,预测出该网站
截图中的企业LOGO的位置,再将YOLO v3标注的框内图片进行剪切。将剪切后图片缩放成标
准大小,通过向量检索引擎查询品牌基础信息库中是否有相似图片。若待检测图片和某品
牌的关联图像相似且无关联关系,那么可以判定存在侵权行为。图上的微粒度实例检索流
程如图3所示,图上微粒度实例检索包括:
在关联关系,则存在疑似侵权风险,若第四风险值小于第四阈值,则不存在疑似侵权风险。
片的亮度和对比度以及对图片进行数据标准化设置。
为多张图片,对于提高模型的准确率和提升模型的泛化能力非常有帮助。具体操作有对图
片进行随机的旋转、翻转、裁剪、随机设置图片的亮度和对比度以及对数据进行标准化(数
据的均值为0,方差为1)等。
部,减少冗余计算。
域的图像分类。
类问题,实现高效的候选区域识别。
及底部,所以可以加重左上角和底部来重点进行attention。在YOLO v3的基础上,在最后一
层卷积的基础上改进,加入attention层,使得左上角和底部的权重增加,让模型在训练的
过程中更加关注左上角和底部,从而使得YOLO v3在进行候选框的提取模块中得到更加准
确的框,使得在后续的图像分类取得更好的效果。
的品牌LOGO等信息为扫描件,因此为提升图像相似性比对的精度,需要原图和对应的灰度
图。
而使用IVF(Inverted File,倒排文件) 索引进行向量搜索,获取该LOGO的品牌信息。
心做距离比较,选出nprobe个最近单元。然后比较这些被选中单元里的所有向量,得到最终
的结果。
重,通过层次分析法得出, 为增加评定方法稳定性的扰动因子, 为所述扰动因子对应的
权重,影响因素的权重。
今的时间间隔作为一个风险评定影响因素;
险;
无关联关系,则大概率存在侵权风险;
在该图片。为了解决该问题,提高侵权风险检测的精度和侵权风险等级评价的准确性,将整
个网页截图进行图上的微粒度侵权实体检测,细节请参考侵权风险检测部分。将图上的微
粒度侵权实体检测结果作为侵权风险等级评定的一个影响因素可以提高评定方法对于特
殊情况的适配性,提高侵权风险等级评定的鲁棒性和精确性。
使所述处理器能够执行如实施例一所述的方法。
选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明
进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型
属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在
内。