信息处理方法、装置、终端设备以及存储介质转让专利

申请号 : CN201910838477.X

文献号 : CN112445961A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张朝旭丁如敏叶方正

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本申请实施例公开了一种信息处理方法、装置、终端设备以及存储介质,该方法包括:获取目标应用程序推送的通知信息数据包,并解析得到通知信息数据包中包括的所有属性值;从所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从至少一个第一属性值中确定出目标属性值;基于目标属性值对通知信息数据包进行分类。采用本申请实施例,提高有效信息收集的效率,降低信息处理的成本,适用性高。

权利要求 :

1.一种信息处理方法,其特征在于,所述方法包括:

获取目标应用程序推送的通知信息数据包,并解析得到所述通知信息数据包中包括的所有属性值;

从所述所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从所述至少一个第一属性值中确定出目标属性值;

基于所述目标属性值对所述通知信息数据包进行分类。

2.根据权利要求1所述方法,其特征在于,所述目标格式信息包括统一资源定位符URL格式信息;所述从所述所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从所述至少一个第一属性值中确定出目标属性值,包括:从所述所有属性值中获取与所述URL格式信息相匹配的至少一个URL;

分别根据所述至少一个URL获取对应网页的超文本标记语言文件,其中一个URL对应一个网页;

从各URL对应的网页的超文本标记语言文件中提取各标签属性值;

根据所述各标签属性值与所述通知信息数据包中包括的第二属性值确定目标属性值。

3.根据权利要求2所述方法,其特征在于,所述标签属性值包括网页标题,所述第二属性值包括文章标题;所述根据所述各标签属性值与所述通知信息数据包中包括的第二属性值确定目标属性值,包括:若任一URL对应的网页的超文本标记语言文件中提取出的网页标题与所述通知信息数据包中包括的文章标题的文本相似度不小于预设阈值,则确定所述任一URL为目标属性值。

4.根据权利要求2或3所述方法,其特征在于,所述基于所述目标属性值对所述通知信息数据包进行分类,包括:获取目标属性值对应的网页中的正文内容,根据所述正文内容对所述通知信息数据包进行分类。

5.根据权利要求1所述方法,其特征在于,所述目标格式信息包括图片格式信息;所述从所述所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从所述至少一个第一属性值中确定出目标属性值,包括:从所述所有属性值中获取与所述图片格式信息相匹配的至少一张图片;

将所述至少一张图片输入图片分类模型以确定各张图片的图片主题;

获取所述通知信息数据包中包括的摘要信息,并提取所述摘要信息中包括的关键词;

若任一张图片的图片主题与所述关键词相匹配,则确定所述任一张图片为目标属性值。

6.根据权利要求1所述方法,其特征在于,所述通知信息数据包中还包括属性名,其中一个属性名对应一个属性值,所述目标格式信息包括插件代码格式信息;所述从所述所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从所述至少一个第一属性值中确定出目标属性值,包括:从所述所有属性值中获取与所述插件代码格式信息相匹配的至少一个插件代码;

提取所述至少一个插件代码中各插件代码包括的属性名调用逻辑,其中所述属性名调用逻辑中包括属性名;

若任一插件代码包括的属性名调用逻辑中包括的属性名与所述通知信息数据包中包括的第三属性值对应的属性名相同,则确定所述任一插件代码为目标属性值。

7.根据权利要求1所述方法,其特征在于,所述基于所述目标属性值对所述通知信息数据包进行分类之后,所述方法还包括:确定所述目标属性值对应的目标属性名;

根据所述目标属性名生成所述目标应用程序对应的数据包解析方案,以便当再次接收到所述目标应用程序推送的第一通知信息数据包时,根据所述数据包解析方案中包括的所述目标属性名从所述第一通知信息数据包中解析出对应的目标属性值。

8.一种信息处理装置,其特征在于,所述装置包括:

通知信息数据包解析模块,用于获取目标应用程序推送的通知信息数据包,并解析得到所述通知信息数据包中包括的所有属性值;

目标属性值获取模块,用于从所述所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从所述至少一个第一属性值中确定出目标属性值;

通知信息数据包分类模块,用于基于所述目标属性值对所述通知信息数据包进行分类。

9.一种终端设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;

所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。

说明书 :

信息处理方法、装置、终端设备以及存储介质

技术领域

[0001] 本申请涉及计算机技术领域,尤其涉及一种信息处理方法、装置、终端设备以及存储介质。

背景技术

[0002] 移动互联网蓬勃发展的今天,手机上大部分的应用程序(Application,APP)都提供了消息推送功能,如新闻客户端的热点新闻推荐,即时通讯软件的聊天消息提醒,电商应用程序的产品促销信息,企业应用的通知和审批流程等等。消息推送对于提高产品活跃度、提高功能模块使用率以及提升用户粘性起到了重要作用。当前,市面上同类型的APP层出不穷,如何优化和提升自身APP所推送消息的质量,以提升用户留存率成为当前亟待解决的问题。

发明内容

[0003] 本申请实施例提供一种信息处理方法、装置、终端设备以及存储介质,可提高有效信息收集的效率,降低信息处理的成本,适用性高。
[0004] 第一方面,本申请实施例提供了一种信息处理方法,该方法包括:
[0005] 获取目标应用程序推送的通知信息数据包,并解析得到上述通知信息数据包中包括的所有属性值;
[0006] 从上述所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从上述至少一个第一属性值中确定出目标属性值;
[0007] 基于上述目标属性值对上述通知信息数据包进行分类。
[0008] 本申请实施例通过解析出通知信息数据包中包括的所有属性值,根据目标格式信息从所有属性值中确定出目标属性值,可提高有效信息的收集效率,再基于目标属性值对上述通知信息数据包进行分类,降低了信息处理的成本,可操作性强,适用性高。
[0009] 结合第一方面,在一种可能的实施方式中,上述目标格式信息包括统一资源定位符URL格式信息;上述从上述所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从上述至少一个第一属性值中确定出目标属性值,包括:
[0010] 从上述所有属性值中获取与上述URL格式信息相匹配的至少一个URL;
[0011] 分别根据上述至少一个URL获取对应网页的超文本标记语言文件,其中一个URL对应一个网页;
[0012] 从各URL对应的网页的超文本标记语言文件中提取各标签属性值;
[0013] 根据上述各标签属性值与上述通知信息数据包中包括的第二属性值确定目标属性值。
[0014] 结合第一方面,在一种可能的实施方式中,上述标签属性值包括网页标题,上述第二属性值包括文章标题;上述根据上述各标签属性值与上述通知信息数据包中包括的第二属性值确定目标属性值,包括:
[0015] 若任一URL对应的网页的超文本标记语言文件中提取出的网页标题与上述通知信息数据包中包括的文章标题的文本相似度不小于预设阈值,则确定上述任一URL为目标属性值。
[0016] 结合第一方面,在一种可能的实施方式中,上述基于上述目标属性值对上述通知信息数据包进行分类,包括:
[0017] 获取目标属性值对应的网页中的正文内容,根据上述正文内容对上述通知信息数据包进行分类。
[0018] 结合第一方面,在一种可能的实施方式中,上述目标格式信息包括图片格式信息;上述从上述所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从上述至少一个第一属性值中确定出目标属性值,包括:
[0019] 从上述所有属性值中获取与上述图片格式信息相匹配的至少一张图片;
[0020] 将上述至少一张图片输入图片分类模型以确定各张图片的图片主题;
[0021] 获取上述通知信息数据包中包括的摘要信息,并提取上述摘要信息中包括的关键词;
[0022] 若任一张图片的图片主题与上述关键词相匹配,则确定上述任一张图片为目标属性值。
[0023] 结合第一方面,在一种可能的实施方式中,上述通知信息数据包中还包括属性名,其中一个属性名对应一个属性值,上述目标格式信息包括插件代码格式信息;上述从上述所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从上述至少一个第一属性值中确定出目标属性值,包括:
[0024] 从上述所有属性值中获取与上述插件代码格式信息相匹配的至少一个插件代码;
[0025] 提取上述至少一个插件代码中各插件代码包括的属性名调用逻辑,其中上述属性名调用逻辑中包括属性名;
[0026] 若任一插件代码包括的属性名调用逻辑中包括的属性名与上述通知信息数据包中包括的第三属性值对应的属性名相同,则确定上述任一插件代码为目标属性值。
[0027] 结合第一方面,在一种可能的实施方式中,上述基于上述目标属性值对上述通知信息数据包进行分类之后,上述方法还包括:
[0028] 确定上述目标属性值对应的目标属性名;
[0029] 根据上述目标属性名生成上述目标应用程序对应的数据包解析方案,以便当再次接收到上述目标应用程序推送的第一通知信息数据包时,根据上述数据包解析方案中包括的上述目标属性名从上述第一通知信息数据包中解析出对应的目标属性值。
[0030] 第二方面,本申请实施例提供了一种信息处理装置,该装置包括:
[0031] 通知信息数据包解析模块,用于获取目标应用程序推送的通知信息数据包,并解析得到上述通知信息数据包中包括的所有属性值;
[0032] 目标属性值获取模块,用于从上述所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从上述至少一个第一属性值中确定出目标属性值;
[0033] 通知信息数据包分类模块,用于基于上述目标属性值对上述通知信息数据包进行分类。
[0034] 结合第二方面,在一种可能的实施方式中,上述目标格式信息包括统一资源定位符URL格式信息;上述目标属性值获取模块具体用于:
[0035] 从上述所有属性值中获取与上述URL格式信息相匹配的至少一个URL;
[0036] 分别根据上述至少一个URL获取对应网页的超文本标记语言文件,其中一个URL对应一个网页;
[0037] 从各URL对应的网页的超文本标记语言文件中提取各标签属性值;
[0038] 根据上述各标签属性值与上述通知信息数据包中包括的第二属性值确定目标属性值。
[0039] 结合第二方面,在一种可能的实施方式中,上述标签属性值包括网页标题,上述第二属性值包括文章标题;上述目标属性值获取模块用于:
[0040] 若任一URL对应的网页的超文本标记语言文件中提取出的网页标题与上述通知信息数据包中包括的文章标题的文本相似度不小于预设阈值,则确定上述任一URL为目标属性值。
[0041] 结合第二方面,在一种可能的实施方式中,上述通知信息数据包分类模块具体用于:
[0042] 获取目标属性值对应的网页中的正文内容,根据上述正文内容对上述通知信息数据包进行分类。
[0043] 结合第二方面,在一种可能的实施方式中,上述目标格式信息包括图片格式信息;上述目标属性值获取模块用于:
[0044] 从上述所有属性值中获取与上述图片格式信息相匹配的至少一张图片;
[0045] 将上述至少一张图片输入图片分类模型以确定各张图片的图片主题;
[0046] 获取上述通知信息数据包中包括的摘要信息,并提取上述摘要信息中包括的关键词;
[0047] 若任一张图片的图片主题与上述关键词相匹配,则确定上述任一张图片为目标属性值。
[0048] 结合第二方面,在一种可能的实施方式中,上述通知信息数据包中还包括属性名,其中一个属性名对应一个属性值,上述目标格式信息包括插件代码格式信息;上述目标属性值获取模块用于:
[0049] 从上述所有属性值中获取与上述插件代码格式信息相匹配的至少一个插件代码;
[0050] 提取上述至少一个插件代码中各插件代码包括的属性名调用逻辑,其中上述属性名调用逻辑中包括属性名;
[0051] 若任一插件代码包括的属性名调用逻辑中包括的属性名与上述通知信息数据包中包括的第三属性值对应的属性名相同,则确定上述任一插件代码为目标属性值。
[0052] 结合第二方面,在一种可能的实施方式中,上述信息处理装置还包括数据包解析方案生成模块;上述数据包解析方案生成模块包括:
[0053] 确定上述目标属性值对应的目标属性名;
[0054] 根据上述目标属性名生成上述目标应用程序对应的数据包解析方案,以便当再次接收到上述目标应用程序推送的第一通知信息数据包时,根据上述数据包解析方案中包括的上述目标属性名从上述第一通知信息数据包中解析出对应的目标属性值。
[0055] 第三方面,本申请实施例提供了一种终端设备,该终端设备包括处理器和存储器,该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用上述程序指令,执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
[0056] 第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
[0057] 本申请实施例通过获取目标应用程序推送的通知信息数据包,然后对获取到的通知信息数据包进行解析,可解析得到通知信息数据包中包括的所有属性值,通过从所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,可从至少一个第一属性值中确定出目标属性值,最后可基于目标属性值对通知信息数据包进行分类。在本申请实施例中,根据目标格式信息从所有属性值中确定出第一属性值,再从第一属性值中确定出目标属性值,可提高有效信息的收集效率,可操作性强,再基于目标属性值对上述通知信息数据包进行分类,降低了信息处理的成本,适用性高。

附图说明

[0058] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0059] 图1是本申请实施例提供的信息处理方法的一流程示意图;
[0060] 图2是本申请实施例提供的信息处理方法的另一流程示意图;
[0061] 图2a是本申请实施例提供的新闻网页的应用场景示意图;
[0062] 图2b是本申请实施例提供的新闻网页对应的HTML文件的应用场景示意图;
[0063] 图3是本申请实施例提供的信息处理方法的另一流程示意图;
[0064] 图4是本申请实施例提供的信息处理方法的另一流程示意图;
[0065] 图5是本申请实施例提供的信息处理装置的结构示意图;
[0066] 图6是本申请实施例提供的终端设备的结构示意图。

具体实施方式

[0067] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0068] 本申请实施例提供的信息处理方法,可广泛适用于能够对信息进行处理的服务器或终端设备。其中,终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)等,在此不做限制。本申请实施例提供的方法,通过获取目标应用程序推送的通知信息数据包,然后对获取到的通知信息数据包进行解析,可解析得到通知信息数据包中包括的所有属性值,通过从所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,可从至少一个第一属性值中确定出目标属性值,最后可基于目标属性值对通知信息数据包进行分类。在本申请实施例中,根据目标格式信息从所有属性值中确定出第一属性值,再从第一属性值中确定出目标属性值,可提高有效信息的收集效率,可操作性强,再基于目标属性值对所述通知信息数据包进行分类,可降低信息处理的成本,适用性高。
[0069] 下面将结合图1至图6分别对本申请实施例提供的方法及相关装置分别进行详细说明。本申请实施例提供的方法中可包括用于获取通知信息数据包、解析通知信息数据包、确定目标属性值、以及基于目标属性值对通知信息数据包进行分类等数据处理阶段。其中,上述各个数据处理阶段的实现方式可参见如下图1至图4所示的实现方式。
[0070] 参见图1,图1为本申请实施例提供的信息处理方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤101至103:
[0071] 101、获取目标应用程序推送的通知信息数据包,并解析得到通知信息数据包中包括的所有属性值。
[0072] 在一些可行的实施方式中,作为移动端APP产品运营最重要的运营手段,消息推送(push)被越来越多的APP厂商所重视,在信息泛滥的移动互联网时代,手机APP应用安装得越来越多,小小的手机屏幕上每天收到的消息推送也越来越频繁。目前,APP消息推送主要包括即时通讯类APP的消息推送和非即时通讯类APP的消息推送,其中对于即时通讯类APP而言(例如微信、QQ等),APP消息推送除了是一种运营的方法和手段外,更是实现通信功能的必要条件,比如当用户离开即时通讯类APP的界面且有新的会话消息时,APP消息推送功能可以通知用户有未读消息。对于非即时通讯类APP的消息推送,主要分为新闻资讯类,活动推送类,产品推荐类以及系统功能类等四大类的消息推送。为方便描述,本申请实施例以非即时通讯类APP的消息推送中的新闻资讯类消息推送为例进行说明,一般而言,新闻资讯类消息的表现形式通常为新闻文章,例如可以是纯文字报道或者是文字与图片结合的图文并茂的报道。
[0073] 当前,市面上新闻资讯类APP层出不穷,各APP厂商间的竞争也愈发激烈,因此通过监控其他厂商APP所推送消息的文章质量,有利于优化自身APP消息推送的文章质量。在本申请实施例中,目标应用程序可以为与自身APP有竞争关系的其他竞品APP,或者也可以是用户认为有必要监控的任意APP,具体根据实际应用场景确定,在此不做限制。通过获取目标应用程序推送的通知信息数据包,并对获取到的通知信息数据包进行解析,可得到通知信息数据包中包括的所有属性值。其中,通知信息数据包为目标应用程序所封装构造的数据包,该通知信息数据包中包括了某次信息推送时的所有推送内容或推送信息,例如包括文章标题、文章摘要、推送时间、文章链接、相关推荐信息、广告信息以及其他详细信息等,在此不做限制。因此通过对获取到的通知信息数据包进行解析,可得到通知信息数据包中包括的所有属性值,即通知信息数据包中包括的所有推送内容或推送信息。
[0074] 具体地,本申请实施例通过在终端中安装Xposed框架后,可基于Xposed框架的hook钩子编程捕获到终端中已经安装的所有应用程序所推送的通知信息数据包,例如通过调用NotificationManager#notify()即可获取到终端中已安装的所有应用程序所推送的通知信息数据包。然后通过获取目标应用程序的包名,可根据目标应用程序的包名,从所有通知信息数据包中匹配出目标应用程序对应的通知信息数据包。且由于通知信息数据包中包括的所有推送信息都已进行了封装,因此可通过反射机制或借助Debug调试工具解析或打印得到通知信息数据包中包括的所有属性值,即与推送有关的所有推送内容或推送信息。
[0075] 102、从所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从至少一个第一属性值中确定出目标属性值。
[0076] 在一些可行的实施方式中,通知信息数据包中包括了所有属性值,但实际上并非所有的属性值都是有用的,例如广告信息等被认为是无效信息或无用信息。因此,为了得到通知信息数据包中包括的有效信息,即目标属性值,可通过确定出目标格式信息后,从所有属性值中获取与目标格式信息相匹配的至少一个第一属性值,然后从上述至少一个第一属性值中确定出目标属性值。其中,目标格式信息包括统一资源定位符(Uniform Resource Location,URL)格式信息、图片格式信息以及插件代码格式信息等,在此不做限制。目标属性值包括文章链接,文章内的插图以及插件代码等,在此不做限制。
[0077] 103、基于目标属性值对通知信息数据包进行分类。
[0078] 在一些可行的实施方式中,在确定出目标属性值后,可基于目标属性值对通知信息数据包进行分类。即通过对目标属性值进行分类以确定通知信息数据包所属类别。
[0079] 在本申请实施例中,通过获取目标应用程序推送的通知信息数据包,然后对获取到的通知信息数据包进行解析,可解析得到通知信息数据包中包括的所有属性值,通过从所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,可从至少一个第一属性值中确定出目标属性值,最后可基于目标属性值对通知信息数据包进行分类。采用本申请实施例,可提高有效信息的收集效率,降低信息处理的成本,可操作性强,适用性高。
[0080] 参见图2,图2是本申请实施例提供的信息处理方法的另一流程示意图。本申请实施例提供的方法可通过如下步骤201至204提供的实现方式进行说明:
[0081] 201、获取目标应用程序推送的通知信息数据包,并解析得到通知信息数据包中包括的所有属性值。
[0082] 其中,上述步骤201的具体实现方式可参见图1对应的实施例中对步骤101的描述,这里不再进行赘述。
[0083] 202、从所有属性值中确定出与URL格式信息相匹配的至少一个URL,并从至少一个URL中确定出目标属性值。
[0084] 在一些可行的实施方式中,若想要获取的有效信息为文章链接,即目标属性值为文章链接,则目标格式信息为URL格式信息。一般而言,URL格式信息被定义为协议://主机名:端口号/文件路径/文件名,因此通过分析各属性值的格式信息,可从所有属性值中获取与URL格式信息相匹配的至少一个URL,然后根据各URL可获取到对应网页的超文本标记语言(HyperText Mark-up Language,HTML)文件。通过从各URL对应的网页的HTML文件中提取各标签属性值,最后根据各标签属性值与通知信息数据包中包括的第二属性值,可从至少一个URL中确定出目标属性值,其中一个URL对应一个网页,第二属性值包括文章标题等,在此不做限制。参见图2a,图2a是本申请实施例提供的新闻网页的应用场景示意图。不难理解的是,HTML是一种用来制作网页的语言,这种语言由一个个的标签组成,用这种语言制作的文件保存的是一个文本文件,文件的扩展名为html或者htm,其中一个HTML文件就是一个网页,HTML文件用编辑器打开显示的是文本,可以用文本的方式编辑它,如果用浏览器打开,浏览器会按照标签描述内容将文件渲染成网页,且显示的网页可以从一个网页链接跳转到另外一个网页。在本申请实施例中,可基于Jsoup工具解析出HTML文件中包括的标签,并提取出标签中的文字,即标签属性值。例如,参见图2b,图2b是本申请实施例提供的新闻网页对应的HTML文件的应用场景示意图。通过Jsoup工具可以把标题标签“【新中国的第一】我国首款大型水陆两栖飞机_央广网”中的文字“【新中国的第一】我国首款大型水陆两栖飞机_央广网”解析出来。
[0085] 在一些可行的实施方式中,若标签属性值包括网页标题,第二属性值包括文章标题,则通过提取出各HTML文件中标题标签对应的网页标题以及获取到通知信息数据包中包括的文章标题后,通过计算各HTML文件中包括的网页标题与通知信息数据包中包括的文章标题的文本相似度,可得到各URL对应的网页中的网页标题与通知信息数据包中包括的文章标题的文本相似度。若任一URL对应的网页中提取出的网页标题与通知信息数据包中包括的文章标题的文本相似度不小于预设阈值,则确定上述任一URL为目标属性值。可选的,在一些可行的实施方式中,HTML文件中的标签描述了网页中各个文本的显示属性(例如文本的字体、字体尺寸、字体颜色等),一般来说文本显示的突出程度和文本内容的重要程度成正比,例如文本显示时字号越大和/或加粗和/或彩色说明该文本越重要。通常而言,网页中网页标题显示的突出程度是最大的,因此可将突出显示的文本确定为网页标题,例如可将字体尺寸最大且加粗的文本内容确定为网页标题。
[0086] 可选的,在一些可行的实施方式中,与新闻报道或新闻文章具有关联性的属性值在通知信息数据包中的出现次数或出现频率通常比其他无关属性值要高,因此在确定出与目标格式信息想匹配的至少一个第一属性值后,还可以通过统计各第一属性值在通知信息数据包中的出现次数,将出现次数最多的第一属性值确定为目标属性值。
[0087] 203、获取目标属性值对应的网页中的正文内容,根据正文内容对通知信息数据包进行分类。
[0088] 在一些可行的实施方式中,若目标属性值为文章链接,则通过获取文章链接对应的网页中的正文内容,可根据得到的正文内容对通知信息数据包进行分类。这里,正文内容可以是整篇新闻报道,或者也可以是整篇新闻报道中的部分内容,例如可以是文章标题、文章摘要和/或推送时间等,在此不做限制。一般而言,基于提取出的正文内容对通知信息数据包进行分类时,首先应该对正文内容进行文本预处理,其中包括对正文内容进行分词处理以得到组成正文内容的多个字和/或多个词,这里所用到的分词工具包括Jieba、SnowNLP、PkuSeg、THULAC和HanLP等,在此不做限制。对正文内容进行分词处理后,可去掉所得到的多个字和/或多个词中常用且意义不大的词(即停用词),通常停用词包括副词、形容词和连接词等,具体根据实际应用场景确定,在此不做限制。然后可通过词频-逆文本频率指数(TermFrequency–Inverse Document Frequency,DF-IDF)法,互信息量,信息增益,χ2统计量等方法对上述预处理后的正文内容进行特征选择和特征提取以得到能够体现出文本特点的特征向量,最后通过将提取出的特征向量输入训练好的文本主题分类模型,可基于文本主题分类模型输出文本主题的分类结果,并将文本主题的分类结果确定为通知信息数据包的分类结果。其中,新闻资讯的文本主题通常可包括财经、教育、体育、娱乐等,在此不做限制。在本申请实施例中,所采用的文本主题分类模型可包括K近邻(k-nearest neighbors,KNN)、朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy)、支持向量机(Support Vector Machine,SVM)、神经网络(Neural Networks,NN),决策树(Decision Tree)和随机森林(Random Forest,RF)等,在此不做限制。
[0089] 204、确定目标属性值对应的目标属性名,根据目标属性名生成目标应用程序对应的数据包解析方案。
[0090] 在一些可行的实施方式中,通知信息数据包中还包括属性名,其中一个属性名对应一个属性值,属性名可以是由数字、字母和/或字符等组成的字符串。不难理解的是,通知信息数据包中包括的某些属性名的含义比较直观,例如属性名“title”,表示文章标题,因此通过调用属性名“title”,即可获取到通知信息数据包中包括的具体标题内容,即属性值。又例如,属性名“content”,表示文章摘要,因此通过调用属性名“content”,即可获取到通知信息数据包中包括的具体摘要内容。然而,有些属性名的含义可能就不那么直观了,例如属性名“A”,我们并不能通过属性名“A”猜测出对应的属性值是什么类型。因此,在获取到目标属性值,并基于目标属性值对通知信息数据包进行分类后,还可以根据目标属性值确定出对应的目标属性名,并根据目标属性名生成目标应用程序对应的数据包解析方案,以便当再次接收到目标应用程序推送的通知信息数据包时,即第一通知信息数据包时,可根据数据包解析方案中包括的目标属性名,从第一通知信息数据包中解析出目标属性名对应的目标属性值,进而简化后续从同一目标应用程序发送的通知信息数据包中获取文章链接的流程。
[0091] 在本申请实施例中,通过获取目标应用程序推送的通知信息数据包,然后对获取到的通知信息数据包进行解析,可解析得到通知信息数据包中包括的所有属性值。通过从所有属性值中确定出与URL格式信息相匹配的至少一个URL,可从至少一个URL中确定出目标属性值,最后基于目标属性值对通知信息数据包进行分类可确定出通知信息数据包的分类结果,同时通过保存目标属性值对应的目标属性名作为目标应用程序对应的数据包解析方案,可简化后续获取URL的流程。采用本申请实施例,可提高有效信息的收集效率,降低信息处理的成本,可操作性强,适用性高。
[0092] 参见图3,图3是本申请实施例提供的信息处理方法的另一流程示意图。本申请实施例提供的方法可通过如下步骤301至304提供的实现方式进行说明:
[0093] 301、获取目标应用程序推送的通知信息数据包,并解析得到通知信息数据包中包括的所有属性值。
[0094] 其中,上述步骤301的具体实现方式可参见图1对应的实施例中对步骤101的描述,这里不再进行赘述。
[0095] 302、从所有属性值中确定出与图片格式信息相匹配的至少一张图片,并从至少一张图片中确定出目标属性值。
[0096] 在一些可行的实施方式中,为了使新闻资讯类的推送信息更加生动形象,新闻资讯类的报道或文章中除了包括文字描述部分,往往还包括了一些与文章主题强相关的插图或图片,以增添阅读趣味性以及给读者带来更大的冲击力和吸引力。因此,若目标属性值为新闻文章中的图片,则通过分析各属性值的格式信息,可从所有属性值中获取与图片格式信息相匹配的至少一张图片。其中,常见的图片格式信息包括bmp、jpg、png、tif、gif、pcx、tga、exif、fpx、svg、psd、cdr、pcd、dxf、ufo、eps、ai、raw、WMF、webp等,在此不做限制。通过将确定出的上述至少一张图片输入训练好的图片分类模型,可根据图片分类模型的输出结果确定出至少一张图片中各张图片的图片主题,然后通过获取通知信息数据包中包括的摘要信息,并提取摘要信息中包括的关键词,可将图片主题与关键词进行匹配,若任一张图片的图片主题与关键词相匹配,则确定上述任一张图片为目标属性值。或者,也可以通过提取通知信息数据包中包括的文章标题,将各图片主题与通知信息数据包中包括的文章标题进行匹配,若任一张图片的图片主题与文章标题相匹配,则确定上述任一张图片为目标属性值。通常来说,关键字的选择,可以从文章标题或摘要信息或者全文中的重要字眼或者多次重复出现的单个词汇或者短语中进行挑选。不难理解的是,摘要信息作为新闻报道或新闻文章中重要内容的简短概括,可高度概括整篇报道或文章所要表达的文章主题,因此,本申请实施例可通过从摘要信息提取出现次数最多的词汇作为关键词。具体地,为提高提取关键词的准确性,可先对摘要信息进行分词处理以得到组成摘要信息的多个字和/或多个词,然后去掉所得到的多个字和/或多个词中常用且意义不大的词(即停用词),这里,停用词包括动词、形容词、数词、量词、副词、代词、连词、介词、助词、语气词等,在此不做限制。最后统计去停用词后剩余各个词的出现次数,并将各个词中出现次数最多的词作为关键词。可选的,在一些可行的实施方式中,也可将摘要信息输入训练好的文本主题分类模型,基于文本主题分类模型的输出结果确定出摘要信息所属的文本主题,并与图片主题进行比较,若图片主题与文本主题一致,则确定与文本主题一致的图片为目标属性值。
[0097] 303、基于目标属性值对通知信息数据包进行分类。
[0098] 在一些可行的实施方式中,在确定出目标属性值后,可基于目标属性值对通知信息数据包进行分类。不难理解的是,由于新闻资讯都是对客观事实的报道,其内容具备针对性和真实性,因此新闻报道中出现的图片与新闻主题也应该具备强相关关系。即当目标属性值为图片时,可将上述获取到的图片主题作为通知信息数据包的分类结果。
[0099] 304、确定目标属性值对应的目标属性名,根据目标属性名生成目标应用程序对应的数据包解析方案。
[0100] 在一些可行的实施方式中,通知信息数据包中还包括属性名,其中一个属性名对应一个属性值,属性名可以是由数字、字母和/或字符等组成的字符串。不难理解的是,通知信息数据包中包括的某些属性名的含义比较直观,例如属性名“title”,表示文章标题,属性名“content”表示文章摘要,属性名“when”表示推送时间等。但是,有些属性名却不那么直观,例如属性名“A”,我们并不能通过属性名“A”猜测出对应的属性值是什么类型。因此,在获取到目标属性值,并基于目标属性值对通知信息数据包进行分类后,还可以根据目标属性值确定对应的目标属性名,并根据目标属性名生成目标应用程序对应的数据包解析方案,以便当再次接收到目标应用程序推送的通知信息数据包时,即第一通知信息数据包时,可根据数据包解析方案中包括的目标属性名,从第一通知信息数据包中解析出目标属性名对应的目标属性值,进而简化后续获取文章中图片的流程。
[0101] 在本申请实施例中,通过获取目标应用程序推送的通知信息数据包,然后对获取到的通知信息数据包进行解析,可解析得到通知信息数据包中包括的所有属性值。通过从所有属性值中确定出与图片格式信息相匹配的至少一张图片,并从至少一张图片中确定出与文章主题一致的目标属性值,可基于目标属性值对通知信息数据包进行分类。采用本申请实施例,可提高有效信息的收集效率,降低信息处理的成本,可操作性强,适用性高。
[0102] 参见图4,图4是本申请实施例提供的信息处理方法的另一流程示意图。本申请实施例提供的方法可通过如下步骤401至403提供的实现方式进行说明:
[0103] 401、获取目标应用程序推送的通知信息数据包,并解析得到通知信息数据包中包括的所有属性值。
[0104] 其中,上述步骤401的具体实现方式可参见图1对应的实施例中对步骤101的描述,这里不再进行赘述。
[0105] 402、从所有属性值中确定出与插件代码格式信息相匹配的至少一个插件代码,并从至少一个插件代码中确定出目标属性值。
[0106] 在一些可行的实施方式中,若想要获取的有效信息为插件代码,即目标属性值为插件代码,则目标格式信息为插件代码格式信息。其中插件代码格式信息中可以包括某些关键字段,例如function等,在此不做限制。从所有属性值中获取与插件代码格式信息相匹配的至少一个插件代码,并提取各插件代码中包括的属性名调用逻辑,可得到各属性名调用逻辑中包括属性名。若任一插件代码包括的属性名调用逻辑中包括的属性名与通知信息数据包中包括的第三属性值对应的属性名相同,则确定任一插件代码为目标属性值。其中,一个插件代码对应一个功能实现,属性名调用逻辑为插件代码中存在属性名调用的一行或多行代码,第三属性值可以是文章标题和/或文章摘要等,在此不做限制。
[0107] 403、基于目标属性值对通知信息数据包进行分类。
[0108] 在一些可行的实施方式中,在确定出目标属性值后,可基于目标属性值对通知信息数据包进行分类。当目标属性值为插件代码时,可根据插件代码的功能对通知信息数据包进行分类,也就是说,将插件代码的功能分类确定为通知信息数据包的分类结果。或者,在某些应用场景中,将通知信息数据包的分类结果分为包括插件代码的通知信息数据包和不包括插件代码的通知信息数据包等,在此不做限制。
[0109] 在本申请实施例中,通过获取目标应用程序推送的通知信息数据包,然后对获取到的通知信息数据包进行解析,可解析得到通知信息数据包中包括的所有属性值。通过从所有属性值中确定出与插件代码格式信息相匹配的至少一个插件代码,可从至少一个插件代码中确定出目标属性值,最后可基于目标属性值对通知信息数据包进行分类。采用本申请实施例,可提高有效信息的收集效率,降低信息处理的成本,可操作性强,适用性高。
[0110] 参见图5,图5是本申请实施例提供的信息处理装置的结构示意图。本申请实施例提供的信息处理装置包括:
[0111] 通知信息数据包解析模块51,用于获取目标应用程序推送的通知信息数据包,并解析得到上述通知信息数据包中包括的所有属性值;
[0112] 目标属性值获取模块52,用于从上述所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从上述至少一个第一属性值中确定出目标属性值;
[0113] 通知信息数据包分类模块53,用于基于上述目标属性值对上述通知信息数据包进行分类。
[0114] 在一些可行的实施方式中,上述目标格式信息包括统一资源定位符URL格式信息;上述目标属性值获取模块52具体用于:
[0115] 从上述所有属性值中获取与上述URL格式信息相匹配的至少一个URL;
[0116] 分别根据上述至少一个URL获取对应网页的超文本标记语言文件,其中一个URL对应一个网页;
[0117] 从各URL对应的网页的超文本标记语言文件中提取各标签属性值;
[0118] 根据上述各标签属性值与上述通知信息数据包中包括的第二属性值确定目标属性值。
[0119] 在一些可行的实施方式中,上述标签属性值包括网页标题,上述第二属性值包括文章标题;上述目标属性值获取模块52具体用于:
[0120] 若任一URL对应的网页的超文本标记语言文件中提取出的网页标题与上述通知信息数据包中包括的文章标题的文本相似度不小于预设阈值,则确定上述任一URL为目标属性值。
[0121] 在一些可行的实施方式中,上述通知信息数据包分类模块53具体用于:
[0122] 获取目标属性值对应的网页中的正文内容,根据上述正文内容对上述通知信息数据包进行分类。
[0123] 在一些可行的实施方式中,上述目标格式信息包括图片格式信息;上述目标属性值获取模块52用于:
[0124] 从上述所有属性值中获取与上述图片格式信息相匹配的至少一张图片;
[0125] 将上述至少一张图片输入图片分类模型以确定各张图片的图片主题;
[0126] 获取上述通知信息数据包中包括的摘要信息,并提取上述摘要信息中包括的关键词;
[0127] 若任一张图片的图片主题与上述关键词相匹配,则确定上述任一张图片为目标属性值。
[0128] 在一些可行的实施方式中,上述通知信息数据包中还包括属性名,其中一个属性名对应一个属性值,上述目标格式信息包括插件代码格式信息;上述目标属性值获取模块52具体用于:
[0129] 从上述所有属性值中获取与上述插件代码格式信息相匹配的至少一个插件代码;
[0130] 提取上述至少一个插件代码中各插件代码包括的属性名调用逻辑,其中上述属性名调用逻辑中包括属性名;
[0131] 若任一插件代码包括的属性名调用逻辑中包括的属性名与上述通知信息数据包中包括的第三属性值对应的属性名相同,则确定上述任一插件代码为目标属性值。
[0132] 在一些可行的实施方式中,上述信息处理装置还包括数据包解析方案生成模块54;上述数据包解析方案生成模块54包括:
[0133] 确定上述目标属性值对应的目标属性名;
[0134] 根据上述目标属性名生成上述目标应用程序对应的数据包解析方案,以便当再次接收到上述目标应用程序推送的第一通知信息数据包时,根据上述数据包解析方案中包括的上述目标属性名从上述第一通知信息数据包中解析出对应的目标属性值。
[0135] 具体实现中,上述信息处理装置可通过其内置的各个功能模块执行如上述图1至图4中各个步骤所提供的实现方式。例如,上述通知信息数据包解析模块51可用于执行上述各个步骤中获取通知信息数据包,以及解析通知信息数据包等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述目标属性值获取模块52可用于执行上述各个步骤中从所有属性值中确定出第一属性值,以及从第一属性值中确定出目标属性值等相关步骤所描述的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述通知信息数据包分类模块53可用于执行上述各个步骤中基于目标属性值对通知信息数据包进行分类等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述数据包解析方案生成模块54可用于执行上述各个步骤中确定目标属性值对应的目标属性名,根据目标属性名生成数据包解析方案等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
[0136] 在本申请实施例中,信息处理装置可基于获取到的目标应用程序推送的通知信息数据包,然后对获取到的通知信息数据包进行解析,可解析得到通知信息数据包中包括的所有属性值,通过从所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,可从至少一个第一属性值中确定出目标属性值,最后可基于目标属性值对通知信息数据包进行分类。采用本申请实施例,可提高有效信息的收集效率,降低信息处理的成本,可操作性强,适用性高。
[0137] 参见图6,图6是本申请实施例提供的终端设备的结构示意图。如图6所示,本实施例中的终端设备可以包括:一个或多个处理器601和存储器602。上述处理器601和存储器602通过总线603连接。存储器602用于存储计算机程序,该计算机程序包括程序指令,处理器601用于执行存储器602存储的程序指令,执行如下操作:
[0138] 获取目标应用程序推送的通知信息数据包,并解析得到上述通知信息数据包中包括的所有属性值;
[0139] 从上述所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,并从上述至少一个第一属性值中确定出目标属性值;
[0140] 基于上述目标属性值对上述通知信息数据包进行分类。
[0141] 在一些可行的实施方式中,上述目标格式信息包括统一资源定位符URL格式信息;上述处理器601用于:
[0142] 从上述所有属性值中获取与上述URL格式信息相匹配的至少一个URL;
[0143] 分别根据上述至少一个URL获取对应网页的超文本标记语言文件,其中一个URL对应一个网页;
[0144] 从各URL对应的网页的超文本标记语言文件中提取各标签属性值;
[0145] 根据上述各标签属性值与上述通知信息数据包中包括的第二属性值确定目标属性值。
[0146] 在一些可行的实施方式中,上述标签属性值包括网页标题,上述第二属性值包括文章标题;上述处理器601用于:
[0147] 若任一URL对应的网页的超文本标记语言文件中提取出的网页标题与上述通知信息数据包中包括的文章标题的文本相似度不小于预设阈值,则确定上述任一URL为目标属性值。
[0148] 在一些可行的实施方式中,上述处理器601用于:
[0149] 获取目标属性值对应的网页中的正文内容,根据上述正文内容对上述通知信息数据包进行分类。
[0150] 在一些可行的实施方式中,上述目标格式信息包括图片格式信息;上述处理器601用于:
[0151] 从上述所有属性值中获取与上述图片格式信息相匹配的至少一张图片;
[0152] 将上述至少一张图片输入图片分类模型以确定各张图片的图片主题;
[0153] 获取上述通知信息数据包中包括的摘要信息,并提取上述摘要信息中包括的关键词;
[0154] 若任一张图片的图片主题与上述关键词相匹配,则确定上述任一张图片为目标属性值。
[0155] 在一些可行的实施方式中,上述通知信息数据包中还包括属性名,其中一个属性名对应一个属性值,上述目标格式信息包括插件代码格式信息;上述处理器601用于:
[0156] 从上述所有属性值中获取与上述插件代码格式信息相匹配的至少一个插件代码;
[0157] 提取上述至少一个插件代码中各插件代码包括的属性名调用逻辑,其中上述属性名调用逻辑中包括属性名;
[0158] 若任一插件代码包括的属性名调用逻辑中包括的属性名与上述通知信息数据包中包括的第三属性值对应的属性名相同,则确定上述任一插件代码为目标属性值。
[0159] 在一些可行的实施方式中,上述处理器601用于:
[0160] 确定上述目标属性值对应的目标属性名;
[0161] 根据上述目标属性名生成上述目标应用程序对应的数据包解析方案,以便当再次接收到上述目标应用程序推送的第一通知信息数据包时,根据上述数据包解析方案中包括的上述目标属性名从上述第一通知信息数据包中解析出对应的目标属性值。
[0162] 应当理解,在一些可行的实施方式中,上述处理器601可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器602可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。例如,存储器602还可以存储设备类型的信息。
[0163] 具体实现中,上述终端设备可通过其内置的各个功能模块执行如上述图1至图4中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
[0164] 在本申请实施例中,终端设备可基于获取到的目标应用程序推送的通知信息数据包,然后对获取到的通知信息数据包进行解析,可解析得到通知信息数据包中包括的所有属性值,通过从所有属性值中确定出与目标格式信息相匹配的至少一个第一属性值,可从至少一个第一属性值中确定出目标属性值,最后可基于目标属性值对通知信息数据包进行分类。采用本申请实施例,可提高有效信息的收集效率,降低信息处理的成本,可操作性强,适用性高。
[0165] 本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图1至图4中各个步骤所提供的信息处理方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
[0166] 上述计算机可读存储介质可以是前述任一实施例提供的信息处理装置或者上述终端设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0167] 本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0168] 在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
[0169] 本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。