页面内容采集方法、装置、电子设备和可读介质转让专利
申请号 : CN202110917265.8
文献号 : CN113360737B
文献日 : 2021-12-14
发明人 : 郑少胤
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种页面内容采集方法,其特征在于,包括:获取页面图像集合,所述页面图像集合中的页面图像包含链接元素;
从所述页面图像集合中选出M张页面图像;
根据裁剪位置参数,从所述M张页面图像的每个页面图像中裁剪出一个图像块,得到M个图像块,其中,所述裁剪位置参数用于将页面图像划分为M个区域,所述M个图像块分别来自所述M个区域中的不同区域,所述M个图像块均包括对应的页面图像中链接元素的部分特征;
将所述M个图像块按照在对应的页面图像中的位置拼接为增强图像,并将得到的增强图像加入到所述页面图像集合中;
对所述页面图像集合中的各个图像进行图像预处理,得到训练图像集合;
根据所述训练图像集合对待训练检测模型进行训练,得到目标检测模型;
访问待处理的目标页面,以获取所述目标页面的页面内容;
对所述目标页面的页面内容进行图形文件转换,得到所述目标页面的页面图像;
通过目标检测模型对所述页面图像进行链接元素检测,得到在所述页面图像中页面对象的所在区域;
根据所述页面对象的所在区域在所述页面图像中的位置,确定所述页面对象对应的链接元素在所述目标页面中的区域位置;
根据所述链接元素在所述目标页面中的区域位置,触发所述目标页面中的链接元素以访问待采集页面;
采集所述待采集页面的页面内容。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标页面的页面内容进行图形文件转换,得到所述目标页面的页面图像,包括:针对所述目标页面触发网页浏览指令,以加载所述目标页面中的页面内容;
对已加载的页面内容进行截图,得到所述目标页面的页面图像,其中,所述页面图像包括所述目标页面当前显示的内容。
3.根据权利要求2所述的方法,其特征在于,所述对已加载的页面内容进行截图,得到所述目标页面的页面图像,包括:根据单次图像采集长度和所述目标页面的页面内容长度,对所述目标页面中已加载的页面内容进行截图,得到所述目标页面的分段图;
若存在一个分段图,则将所述分段图确定为所述页面图像;
若存在至少两个分段图,则按照所述至少两个分段图的截取顺序对所述至少两个分段图进行拼接,得到所述页面图像。
4.根据权利要求1所述的方法,其特征在于,所述触发所述目标页面中的链接元素以访问所述待采集页面,包括:
根据所述链接元素在所述目标页面中的区域位置,对所述目标页面中处于所述区域位置的链接元素触发点击操作,得到待采集页面地址;
根据所述待采集页面地址,对所述待采集页面进行访问。
5.根据权利要求4所述的方法,其特征在于,所述采集所述待采集页面的页面内容,包括:
从所述待采集页面地址中获取所述待采集页面的地址域名;
若所述待采集页面的地址域名与所述目标页面的地址域名不同,则采集所访问的待采集页面的页面内容。
6.根据权利要求1所述的方法,其特征在于,所述对所述目标页面的页面内容进行图形文件转换,得到所述目标页面的页面图像之前,所述方法还包括:获取候选目标页面以及对应的页面地址;
根据所述候选目标页面,获取所述候选目标页面中的页面链接,所述页面链接用于访问其他目标页面;
若所述页面链接的域名与所述页面地址的域名相同,则获取所述页面链接对应的其他目标页面;
根据所述候选目标页面和所述其他目标页面,生成信息页面集合;
从所述信息页面集合中获取待处理的目标页面。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述对所述页面图像进行链接元素检测,得到在所述页面图像中页面对象的所在区域,包括:通过目标检测模型,对所述页面图像进行链接元素检测,得到所述页面图像中页面对象的区域框和对应的置信度,所述置信度用于表示所述页面对象是链接元素的概率;
所述根据所述页面对象的所在区域在所述页面图像中的位置,确定所述页面对象对应的链接元素在所述目标页面中的区域位置,包括:若所述置信度大于置信度阈值,则将所述页面对象和对应的区域框确定为链接元素和对应的区域位置,并根据所确定的链接元素和对应的区域位置生成所述检测结果。
8.根据权利要求7所述的方法,其特征在于,所述获取页面图像集合,包括:获取页面背景图像,其中,所述页面背景图像中不包括链接元素;
从含有链接元素的页面图像中,截取链接元素的对象图像;
将所述对象图像和所述页面背景图像合并,得到页面图像;
将所述页面图像与所生成的其他页面图像组成页面图像集合。
9.根据权利要求8所述的方法,其特征在于,所述将所述对象图像和所述页面背景图像合并,得到页面图像,包括:
根据文字图片设置参数和预设的文字信息,生成预设文字图片;
将所述预设文字图片和所述对象图像合并粘贴到所述页面背景图像上,得到页面图像。
10.根据权利要求7所述的方法,其特征在于,所述对所述页面图像集合中的各个图像进行图像预处理,得到训练图像集合,包括:对所述页面图像集合中的各个图像进行归一化处理;
对归一化后的页面图像集合,基于卷积网络进行降采样处理,得到图像特征图集合;
基于图像特征图集合进行特征融合,得到融合特征图集合;
确定融合特征图集合中的各个特征图的先验框数据,得到训练图像集合,其中,所述先验框数据用于指示对于所述融合特征图中链接元素的预测结果。
11.一种页面内容采集装置,其特征在于,包括:页面图像集合获取模块,用于获取页面图像集合,所述页面图像集合中的页面图像包含链接元素;
数据增强处理模块,包括:
页面图像选择单元,用于从所述页面图像集合中选出M张页面图像;
页面图像裁剪单元,用于根据裁剪位置参数,从所述M张页面图像的每个页面图像中裁剪出一个图像块,得到M个图像块,其中,所述裁剪位置参数用于将页面图像划分为M个区域,所述M个图像块分别来自所述M个区域中的不同区域,所述M个图像块均包括对应的页面图像中链接元素的部分特征;
增强图像拼接单元,用于将所述M个图像块按照在对应的页面图像中的位置拼接为增强图像,并将得到的增强图像加入到所述页面图像集合中;
图像预处理模块,用于对所述页面图像集合中的各个图像进行图像预处理,得到训练图像集合;
训练模块,用于根据所述训练图像集合对待训练检测模型进行训练,得到目标检测模型;
页面访问模块,用于访问待处理的目标页面,以获取所述目标页面的页面内容;
图像采集模块,用于对所述目标页面的页面内容进行图形文件转换,得到所述目标页面的页面图像;
链接元素检测模块,用于通过目标检测模型对所述页面图像进行链接元素检测,得到在所述页面图像中页面对象的所在区域,并且根据所述页面对象的所在区域在所述页面图像中的位置,确定所述页面对象对应的链接元素在所述目标页面中的区域位置;
链接元素触发模块,用于根据所述链接元素在所述目标页面中的区域位置,触发所述目标页面中的链接元素以访问待采集页面;
内容采集模块,用于采集所述待采集页面的页面内容。
12.一种电子设备,其特征在于,包括:处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至10中任意一项所述的页面内容采集方法。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的页面内容采集方法。
说明书 :
页面内容采集方法、装置、电子设备和可读介质
技术领域
背景技术
便进行分析。
信息。
并且扩充采集范围的难度大。
发明内容
本并且提升了信息采集的效率。
象是链接元素的概率;
置生成所述检测结果。
区域,所述M个图像块分别来自所述M个区域中的不同区域;
行如以上技术方案中的页面内容采集方法。
中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机
指令,使得该计算机设备执行上述各种可选实现方式中提供页面内容采集方法。
述方式,可以自动从页面中识别到的链接元素的所在位置,从而不再需要对各个不同的页
面布局设置不同的采集策略,降低了页面采集的难度,降低了人工成本并且提升了信息采
集的效率。
附图说明
的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
这些附图获得其他的附图。
具体实施方式
全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,
或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方
法、装置、实现或者操作以避免模糊本申请的各方面。
这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
放进行调研时,需要从大量网站获取其中显示的各类广告,并且访问各个广告的具体内容
页面来收集广告的具体内容,例如具体图片和文字信息。不同网站的页面布局通常不同,显
示广告的位置、大小和形式通常不同,因此,通常的方法是需要人工去各个网站的页面寻找
广告的在页面上的位置和大小等信息,并且制定相应的策略脚本,再利用电脑等终端设备
运行脚本来自动采集网站上投放的广告数据。根据本申请的方法,可以利用服务器等设备
自动对不同页面布局上的广告进行识别,并且跳转到广告的具体页面上收集相关的广告信
息,并且还可以根据页面上的连接进一步对各个网页上的相关页面进行递归式的识别和分
析,从而能够充分地获取到网站的多个页面的广告信息来充实广告信息库,以便于后续基
于收集的大量数据进行进一步的数据分析。本申请的方案应用于其他场景中的方式与广告
采集的方式类似,例如视频网站、信息共享网站等,本申请的方法都可以从页面上识别到所
需要采集的信息的链接入口,并且通过该入口转到具体的信息页面收集数据并且进一步收
集更多的页面以供采集更多信息。
相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的
有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及
应用服务层。
户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授
权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);
基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求
完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处
理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传
输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合
约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约
注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提
供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合
约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控
节点设备健康状态等。
应用服务给业务参与方进行使用。
上的应用程序和脚本运行本申请的方案并收集广告信息,并且将数据存储到服务器上的数
据库中以供后续使用。为了便于介绍,请参阅图1,图1示意性地示出了示例性物理构架的示
意图。
定的网站或者网页。具体地,终端设备上可以安装用于运行脚本和进行截图、访问网站以及
收集信息等操作的软件或者装置。此类软件或者装置控制终端设备通过浏览器对需要采集
的网站进行访问,并且从网站中获取所需要广告信息并发送给服务器进行存储。
行的操作由服务器上的后台服务运行,或者由专用的服务器运行。
作限制。
本实施例的方法可以包括如下步骤S201至步骤S205:
括若干网站的主页或者核心信息展示页面,例如新闻门户、论坛和贴吧等网页。这些页面中
会通过嵌入、弹出、浮动等显示方式向用户展示广告图片。如果点击广告图片,则可以跳转
到广告的详情页面上,即待采集页面上。待采集页面可以是广告中商品的展示宣传页面,也
可以是商品的在线购买页面或者预定页面等。待处理的目标页面可以采用数据表的形式存
储在数据库中,或者以文件的形式存储在存储器中。在需要进行页面信息采集时,采集装置
则从数据库或者文件中读取到各个目标页面的页面地址,并且根据页面地址对各个目标页
面依次进行访问,从而获取目标页面。对于网页进行访问具体可以采用程序或者脚本进行,
通过浏览器模拟真实用户的浏览和点击操作,从而获取到用户浏览时的真实状态。
范围进行识别,并且截取浏览器显示的页面作为页面图像。或者,页面内容采集装置可以通
过调用浏览器中嵌入的接口或者浏览器中提供的插件等方式对浏览器当前展示的页面进
行截图或者保存。
是否存在以及其在目标页面中的位置。例如根据相对于页面边框的距离,或者在页面中的
坐标位置等。具体地,页面内容采集装置基于网页的截图对网页中的广告进行检测,从而确
定广告所在的位置。通常,在网页中展示的广告采用图片的形式,因此广告的区域位置具体
可以是广告图片的边界,即广告框。此外,区域位置还可以包括广告图片周边的文字内容。
例如,广告图片通常会在下方设置文字说明和链接,页面内容采集装置可以对广告图片中
的文字和商品进行识别,通过比较识别结果与周边的说明文字内容来确定该文字是否是与
广告图片相关的内容,以便确定是否将文字纳入链接元素的区域位置的范围内。区域位置
通常是方形的,因此,区域位置可以用对角线点上的左边,或者中心点的坐标来表示。在一
个实施例中,区域位置可以是广告图片或者广告框范围的内切圆或者小于广告图片的覆盖
范围的方框等形式,只要确保能够通过点击区域位置的范围能够触发广告的跳转即可。
所确定的广告框位置,页面内容采集装置可以在目标页面的对应位置上触发点击操作,从
而对目标页面上的广告图片或文字进行点击。浏览器会响应对广告图片或者文字的点击跳
转到广告的具体页面,从而访问到待采集页面。
面内容采集装置可以对广告详情页面中的文字、图片以及音视频等信息进行获取和保存。
页面内容采集装置可以将采集到的页面内容保存到服务器中。在一个实施例中,页面内容
采集装置会对待采集页面进行检查,以便确认打开的页面确实是广告页面而非网站的其他
内容页面。例如,可以通过对广告详情页面中文字和图片进行识别,并且将识别结果与目标
页面中广告的内容进行比较,从而确定所打开的页面确实是与目标页面的广告框对应的页
面。
述方式,可以自动从页面中识别到的链接元素的所在位置,从而不再需要对各个不同的页
面布局设置不同的采集策略,降低了页面采集的难度,降低了人工成本并且提升了信息采
集的效率。
到所述目标页面的页面图像,包括如下步骤:
页面内容。具体地,页面内容采集装置可以通过脚本或者软件控制打开目标页面的浏览器
进行页面滑动操作或者滚动操作来浏览目标页面以加载页面中的内容。具体地,页面内容
采集装置会通过脚本等控制方式将浏览器打开的网页向下滚动至底部,以使网页中包括广
告在内的内容全部被加载,然后再滚动到网页顶部以便进行下一步操作。页面内容采集装
置在进行截图操作之前,还可以等待预定的时间以留出充足的时间进行内容加载,或者页
面内容采集装置可以获取浏览器的加载状态来判断是否加载完成,从而能够避免加载不完
全的情况。
面所展示的内容进行截图,从而一次性得到整个目标页面的长图。然而,由于浏览器的分辨
率以及翻页定位的问题,长图中广告的相对位置通常与浏览器中显示的相对位置不同,因
此还需要在后续步骤中进行进一步的换算和分割,以便将其转换为浏览器窗口中实际显示
的状态。
页面的页面图像,包括如下步骤:
行数来表示。单次图像采集的长度通常取决于浏览器单次能够展示的网页长度,按照浏览
器能够展示的长度对网页进行截图,就可以得到分段截图。根据网页的页面长度和图像采
集长度,可以确定需要进行采集的次数,从而对网页进行截图。以行数为例,假定网页长度
为500行,而浏览器每次可以展示100行,则需要分5次对目标页面进行截图,得到5个分段
图。若网页长度等于或者小于浏览器的单次显示长度,则仅会得到一个分段图,则该分段图
就可以被确定为页面图像。如果得到两个或者以上的分段图,则可以按照截图的顺序或者
按照图中的网页的顺序来将分段图组合成页面图像。图像采集长度通常等于浏览器能够显
示页面的最大长度,然而,页面长度可能不是图像采集长度的整数倍,从而会导致最后截图
分段图与前一张分段图之间存在重复的内容。此时,可以根据页面长度来调整图像采集长
度,将其缩短而使得页面长度能够被图像采集长度整除。或者,可以不调整图像采集长度,
而在将分段图进行拼接时,通过图像分析技术对比最后一张图像和倒数第二张图像,得到
其中重复的部分并从其中一张图像中去除后再进行拼接。
的分辨率进行调整,保证了页面图像的清晰度,从而能够提升链接元素检测的准确性。
中的链接元素以访问所述待采集页面,包括如下步骤:
页面地址,页面内容采集装置则根据待采集页面地址,访问待采集页面。具体地,页面内容
采集装置根据识别出的网页图像中的广告的位置,对实际网页上对应的位置触发点击操
作。触发点击操作的方式可采用浏览器插件、脚本或者采用单独的程序来模拟人工点击等
方式。页面内容采集装置确定对应位置的具体方式可以采用相对位置的方式来将页面图片
中的位置转化为浏览器窗口中的位置或者显示屏幕中的位置。首先确定区域位置在页面图
片的哪张分段图上,并且确定该区域位置相对于一个固定点的距离,例如相对于左上角的
横向距离和纵向距离。随后,在网页中滑动到分段图所对应的显示页面,在浏览器的窗口大
小不变的情况(通常会最大化浏览器的窗口)下,可以根据在图片中区域位置相对于左上角
的横向距离和纵向距离,确定广告的位置相对于整个显示屏幕的左上角的位置,从而在该
位置触发点击操作。
或销售店铺地址,而对网站或者应用进行宣传推广的广告则会跳转到要宣传的网站主页或
者应用的下载地址。跳转的目标网页就是要从中采集信息的待采集页面,而目标网页地址
即是待采集页面地址。在进行跳转时,页面内容采集装置可以获取到将要跳转到的目标网
页的目标网页地址,从而可以访问该目标网页地址。具体地,页面内容采集装置可以等待浏
览器自动跳转到目标网页地址,或者等浏览器自动创建新的窗口来访问目标网页地址,而
页面内容采集装置则对跳转后的页面或者新创建的窗口页面进行识别。页面内容采集装置
也可以阻止浏览器的跳转或创建新窗口的操作,而是根据所获得的广告网页地址,主动在
浏览器中进行访问,避免浏览器的自动跳转和自动创建操作可能造成的浏览器窗口位置变
动而影响脚本的运行。
址访问待采集页面,从而能够模拟用户真实点击广告区域时所获取到的广告内容,避免依
赖图像分析而导致页面上的隐藏框体触发的内容被忽略,提升了方案的准确性。
S205,采集所述待采集页面的页面内容,包括如下步骤:
名。页面内容采集装置可以用想用的方式解析得到目标页面的地址域名,并且将所得到的
两个地址域名进行比较。具体地,广告的投放通常不会在需要进行宣传的网站里,而是在广
告落地的网站之外的其他网站进行,因此,如果待采集页面的地址域名与目标页面的地址
域名不同,则说明目标页面的链接元素的确引向了另一个网站域名,可以确定待采集页面
的确是广告落地的页面,进而可以继续访问待采集页面地址所指向的网页。如果待采集页
面的地址域名与目标页面的地址域名相同,则说明待采集页面地址所指向的页面与目标页
面在同一个网站,可以认为该待采集页面地址指向的并非广告内容,而是站内的内容,因此
可以停止对该广告框的处理,继续处理下一个识别到的广告框或者处理下一个目标页面。
的页面并非需要进行内容采集的页面(例如广告页面),而是目标页面所在的网站内的内
容,该待采集页面实际应为目标页面,即包括广告的页面。因此可以将该页面加入到信息页
面集合,从而在后续的过程中对该页面进行分析,采集页面中广告的广告信息。将待采集页
面加入到信息页面集合的方式可以是写入数据库的表格中或者记录到目标页面的文件中。
在实际加入到信息页面集合之前,页面内容采集装置还可以对页面进行重复性检查,确定
该待采集页面地址并未包含在信息页面集合中。
围,避免人工选择需要采集的页面,降低人工成本。
集,得到所述目标页面的页面图像之前,本方法还包括如下步骤:
面的页面地址,并且访问该页面地址从而获得候选目标页面。最初的候选目标页面由人工
指定,它们通常是各大门户网站或者浏览量较大的网站的首页。页面内容采集装置对候选
目标页面中内容进行分析,从中获取指向其他页面的链接地址。需要注意的是,所获取的链
接地址通常指的是用于访问其他页面的地址,其中即包括指向候选目标页面所在的网站的
其他页面的地址,也可能包括指向其他网站的广告或者推广地址。因此,页面内容采集装置
会对从候选目标页面中获取到的页面链接进行过滤。例如,假定候选目标页面为网站A的页
面,如果页面内容采集装置发现所得到页面链接的域名与候选目标页面的页面地址的域名
相同,则说明该页面链接也指向网站A的某个页面,则可以将该页面链接指向的页面作为候
选目标页面。如果页面链接的域名与候选目标页面的页面地址的域名不相同,则说明该页
面链接指向另一个网站B的页面,则其可能为广告链接或者友情推广链接等情况,因此不能
将其作为候选目标页面,可以直接舍弃该页面链接。
成信息页面集合。具体地,页面内容采集装置可以将各个目标页面直接保存到文件系统中,
以便后续进行处理时直接获取,或者,也可以仅将目标页面的地址保存到数据库中,在需要
进行信息采集时再依次访问各个目标页面。在需要进行页面内容采集时,可以直接从信息
页面集合中获取待处理的目标页面。
分析得到首页上的所有链接作为一级页面,然后依次对各个一级页面进行分析,从而得到
一级页面上的二级页面,如此进行循环,直至达到了预定的页面数量、页面层级或者获取到
了网站里的所有页面为止。
页面集合,降低了选择候选目标页面的人力投入,提高生成效率。
到检测结果,包括如下步骤:
采集装置将获取到的页面图像输入到目标检测模型中,目标检测模型会对页面图像中广告
图片或者文字进行识别,并且输出页面图像中的广告框(即区域框)的位置以及相应的置信
度。具体地,请参考图3,图3为本申请实施例中目标检测模型的输出内容的示例图,目标检
测模型可以将广告框和置信度直接标记到页面图像中。置信度用于指示所标记的广告框中
的内容为广告内容的概率。因此,若置信度大于置信度阈值,则表示该广告框的确为广告,
可以将广告框所覆盖的范围确定为广告的区域位置。根据广告框的识别结果以及广告的区
域位置,则可以生成检测结果。
了方案的复杂性。
骤S203,通过目标检测模型,对所述页面图像进行链接元素检测,得到所述页面图像中页面
对象的区域框和对应的置信度之前,本方法还包括如下步骤:
色以及透明度等属性以及进行翻转、拉伸或混合拼接等操作,从而生成新的网页图片。所生
成的网页图片与原始的网页图片一起形成页面图像集合。
变化和操作,例如噪声、模糊、颜色变换、擦除、填充等操作,也可以采用人工少数类过采样
法或者样本配对法等方式来进行数据增强。数据增强所得到的结果图像将被添加到页面图
像集合中,以用于后续的训练。数据增强的目标可以是页面图像集合中的一部分图像,或者
页面图像集合中的所有图像。
链接元素。此外,还需要对页面图像进行图像标注,具体确定出其中的链接元素的区域位
置,以用于进行训练和测试。
习模型。在一个实施例中,待训练检测模型采用YOLO‑V4模型结构。在进行模型测试时,通过
页面图像集合中的图像进行聚类得到的各个不同尺寸的广告框进行测试,并且中心点预
测、预测框长宽、置信度、类别判断作为损失函数的维度来对待训练检测模型进行参数调
整,从而得到目标检测模型。
之后的显示内容,其中即包括网页的本身的背景,也包括网页正常需要显示的内容。例如,
小说网站的页面背景图像中即包括页面的底色背景,也包括版头、版尾和小说正文的内容。
由人工设置脚本,由程序控制执行。
象图像直接粘贴到页面背景图像上的随机任一位置,一张页面背景图像上可以粘贴一个以
上的任意数量的图像。在一个实施例中,对于页面顶部、底部,左右两侧和左下角和右下角
等常见的广告嵌入位置,可以设置重点位置,在生成页面图像时尽量保证重点位置上存在
广告图像,以使得所生成的图像与实际情况相符合。对于所有的页面背景图像和对象图像
进行随机的排列组合,就可以得到大量的页面图像,从而组成页面图像集合。
图像集合,包括如下步骤:
容采集装置还可以根据文字图片设置参数和预设的文字信息,生成预设文字图片。对于广
告采集场景,预设的文字信息可以是“广告”二字,而文字图片设置参数则是文字的颜色、大
小、透明度和厚度等参数。根据这两种信息,则可以生成多种内容为“广告”的文字图片。
的周边,例如上下左右等位置,或者直接粘贴到对象图像上。例如,可以将含有“广告”二字
的文字图片粘贴到广告图片下方的网页背景图片上或者粘贴在广告图片的角落。
如下步骤:
别来自所述M个区域中的不同区域;
出的数量为四张图像。
个区域,所述M个图像块分别来自所述M个区域中的不同区域。具体地,裁剪位置参数可以确
定一种对图像进行分割的方式,所选择出的图像都按照裁剪位置参数规定的方式进行分
割。为了便于介绍,请参阅图4,图4为本申请实施例中图像增强处理的示意图。如图所示,四
张图片A、B、C、D按照相同的参数被分割成四个区域1、2、3和4,并且从每个图片中分别选出
一个位置不重复的区域,从而得到选择出的四个图像块。四个图像块按照在原本图像中的
位置被拼接合成为新的图像,从而生成增强图像。所生成的增强图像被加入到页面图像集
合中,以便后续作为训练数据。
中移除这些图像,然后,在选择出的一批图像中随机选择4个图像执行上述的步骤,生成增
强图像,并且重复进行随机选择和生成过程,直至所生成的增强图像的数量与选择出的一
批图像的数量相同,然后将所生成的增强图像加入到页面图像集合中进行后续训练。
型识别小链接元素的准确性。
处理,得到训练图像集合,包括如下步骤:
放等仿射变换具有不变特性,从而提升模型的抗干扰能力。按照实际的需求,归一化的图像
的大小通常设置为320×320或者460×460,在实际的实现中,取决于想要达到的准确率以
及可以接收的计算消耗,也可以采用更大或者更小的图像大小,更大的图像则意味着更高
的准确性和更高的计算消耗,更小的图像则与之相反,准确性和计算消耗都更小。
的降采样,例如32倍降采样、16倍降采样以及8倍降采样,得到对应的图像特征图集合。随
后,对特征图集合进行融合,得到融合特征图集合。为了便于介绍,请参阅图5,图5为本申请
实施例中降采样的示意图。如图5所示,输入的图像通过卷积分别进行32倍降采样,得到最
底层的结果,然后对32倍降采样的结果再进行2倍上采样,并且将结果与16倍降采样的结果
融合,随后在对融合结果进行2倍上采样,再与8倍降采样的结果相融合,得到融合特征图集
合。
而降低图像预处理的所需要处理的数据量。
目标检测模型进行训练。具体地,训练过程首先包括收集基础数据并生成训练数据。在步骤
S601中,获取页面背景图像,在步骤S602中,从含有链接元素的页面图像中,截取链接元素
的对象图像。含有链接元素的页面图像可以是由人工筛选并且截图获得的页面图像或者从
历史数据中筛选的页面图像。在步骤S603中,根据文字图片设置参数和预设的文字信息,生
成预设文字图片。具体地,预设文字图片的大小、文字大小、颜色、字体、透明度等设置参数
可以预先设定或者随机生成,而预设的文字信息可以是任意的标识文字。可以理解的是,步
骤S601、S602和S603之间不存在先后顺序,可以按照任意顺序执行。在步骤S604中,预设文
字图片与对象图像合并并且粘贴到页面背景图像上,得到页面图像,并且进一步地,可以将
所得到的预设文字图片、对象图像和页面背景图像进行任意的随机组合,从而得到多张页
面图像,形成页面图像集合。在步骤S605中,对于页面图像集合中的页面图像进行数据增强
处理,并将得到的增强图像加入到页面图像集合中。在步骤S606中,则可以进一步对图像进
行归一化处理,从而得到大小一致的页面图像。随后,在步骤S607中,对归一化后的页面图
像集合,基于卷积网络对页面图像集合进行降采样处理;在步骤S608中,基于图像特征图集
合进行多尺度特征融合;在步骤S609中,确定页面图像集合中的各个特征图的先验框数据,
从而得到训练数据集合。随后,在步骤S610中,根据训练图像集合对待训练检测模型进行训
练,得到目标检测模型。训练好的目标检测模型则可以用于进行页面采集。在步骤S611中,
访问待处理的目标页面,以获取目标页面的页面内容。在步骤S612中,对目标页面的页面内
容进行图形文件转换,得到目标页面的页面图像。在步骤S613中,利用训练的到的目标检测
模型,对目标页面的页面图像进行链接元素检测,得到检测结果。在步骤S614中,根据检测
结果指示的链接元素,触发目标页面中的链接元素以访问待采集页面。最后,在步骤S615
中,采集待采集页面的页面内容。
流程的示意图。如图7所示,训练过程得到的预测模型将用于进行页面采集。如图7所示,在
模型的训练过程中,收集网站的背景图、对广告进行抠图得到广告框并且生成广告文字图
片,然后根据收集到的资料进行贴图生成大量网页图片。随后,对所生成的网页图片进行图
像增强和归一化,并且还进行图像特征降采样、多尺度特征融合和先验框设置,从而得到训
练数据。最后,利用得到的训练数据来对YOLOV4模型进行训练,得到目标检测模型。训练好
的目标检测模型被用于进行广告页面采集。在广告页面采集的过程中,首先访问目标网页,
滑动网页并且进行整个网页的截图。最后,利用训练好的目标检测模型来对网页截图进行
预测,并且根据预测结果确定是否有广告。如果有广告,则点击识别出的广告框,得到广告
落地页,并且判断广告落地页的域名与原本的目标网页是否一样,如果不一样,则进行后续
的采集。关于图中各个步骤的详细内容,以上实施例中已经介绍,此处不再赘述。
实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,
以及/或者将一个步骤分解为多个步骤执行等。
块结构可以运行在上述图1中所示出的物理架构中。如图9所示,该系统模块结构中包括网
页访问模块、网页截图模块、广告框检测模块、广告跳转模块以及广告信息库。广告信息库
用于存储待采集的网页以及后后续采集到的广告信息。网页访问模块从广告信息库获取到
需要进行信息采集的待采集网页的地址,并且对待采集网页进行访问。网页截图模块用于
对访问的待采集网页的整体内容进行截图,来得到网页截图。广告框检测模块用于对网页
截图进行检测,从而识别出截图中的广告框。广告跳转模块用于通过识别出的广告框跳转
到广告详细页面,从而对广告页面上的具体广告信息进行采集,并且把广告信息存储到广
告信息库中。在一个实施例中,系统模块结构还包括待采集网页获取模块,该模块用于从待
采集网页中获取其他网页作为待采集网页。
象是链接元素的概率;
置生成所述检测结果。
区域,所述M个图像块分别来自所述M个区域中的不同区域;
述。
存部分1008加载到随机访问存储器(Random Access Memory,RAM)1003中的程序而执行各
种适当的动作和处理。在RAM 1003中,还存储有系统操作所需的各种程序和数据。CPU
1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input /Output,I/O)接
口1005也连接至总线1004。
器等的输出部分1007;包括硬盘等的储存部分1008;以及包括诸如LAN(Local Area
Network,局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如
因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质
1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于
从其上读出的计算机程序根据需要被安装入储存部分1008。
介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样
的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸
介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本申请的系统中
限定的各种功能。
是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上
的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的
电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程
只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑
磁盘只读存储器(Compact Disc Read‑Only Memory,CD‑ROM)、光存储器件、磁存储器件、或
者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序
的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申
请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其
中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于
电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读
存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由
指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程
序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适
的组合。
表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个
用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所
标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际
上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要
注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规
定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组
合来实现。
模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模
块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失
性存储介质(可以是CD‑ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算
设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的
方法。
者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识
或惯用技术手段。