一种消息处理方法、装置及系统转让专利

申请号 : CN201511016146.6

文献号 : CN106937262B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王一村

申请人 : 中国移动通信集团公司

摘要 :

本发明公开了一种消息处理方法,所述方法包括:获取用户标记的垃圾消息;将所述用户标记的垃圾消息存储至垃圾消息数据库;将垃圾消息数据库中的垃圾消息数据上报至服务器,以由服务器对具有相似垃圾消息设置的用户进行聚类,并基于聚类结果确定有共同垃圾消息设置属性的用户群,为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。本发明还同时公开了一种消息处理装置及系统。采用本发明技术方案,能基于用户偏好进行垃圾消息过滤,提升用户的使用体验,并能够节省服务器的工作负荷。

权利要求 :

1.一种消息处理方法,其特征在于,所述方法包括:获取用户标记的垃圾消息;

将所述用户标记的垃圾消息存储至垃圾消息数据库;

将垃圾消息数据库中的垃圾消息数据上报至服务器,以由服务器对具有相似垃圾消息设置的用户进行聚类,其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值;并基于聚类结果确定有共同垃圾消息设置属性的用户群,为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。

2.根据权利要求1所述的方法,其特征在于,所述获取用户标记的垃圾消息之前,所述方法还包括:接收待处理消息;

基于垃圾消息数据库判断所述待处理消息是否为垃圾消息;

将判断结果为正常消息的待处理消息推送至终端显示界面并显示;

其中,所述垃圾消息数据库包括下述信息:

基于消息发送者号码的黑白名单;和/或,

基于分词特征的垃圾消息规则库;和/或,

用户自主指定的垃圾消息文本。

3.根据权利要求2所述的方法,其特征在于,所述基于垃圾消息数据库判断所述待处理消息是否为垃圾消息,包括:判断待处理消息的发送者号码是否在与终端对应的私有黑白名单中,当发送者号码在与终端对应的私有黑名单中时,判定待处理消息属于并标记为垃圾消息;当发送者号码在与终端对应的私有白名单中时,判断待处理消息属于并标记为正常消息;

当发送者号码不在与终端对应的私有黑白名单中时,继续判断发送者号码是否在共有黑白名单中,其中,当发送者号码在共有黑名单中时,判定待处理消息属于并标记为垃圾消息,当发送者号码在共有白名单中时,判定待处理消息属于并标记为正常消息;

当发送者号码既不在公有黑白名单中也不在私有黑白名单中时,对待处理消息进行预处理以获得待处理消息的分词特征,将待处理消息的分词特征与垃圾消息规则库进行匹配,判断是否为垃圾消息,若匹配度大于等于设定阈值,则标记为垃圾消息,若匹配度小于设定阈值,则标记为正常消息。

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取用户从垃圾消息收件箱中移除的取消垃圾消息标记的消息;

将所述取消垃圾消息标记的消息存储至垃圾消息数据库,以待及时将所述取消垃圾消息标记的消息通知服务器。

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:接收服务器返回的与终端相适应的垃圾消息分类器;

基于所述垃圾消息分类器更新终端的垃圾消息数据库。

6.一种消息处理方法,应用于服务器,其特征在于,所述方法包括:接收至少一个终端发送的垃圾消息数据;

对具有相似垃圾消息设置的用户进行聚类;其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值;

根据聚类结果确定有共同垃圾消息设置属性的用户群;

为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。

7.根据权利要求6所述的方法,其特征在于,所述对具有相似垃圾消息设置的用户进行聚类,包括:基于垃圾消息数据获取用户自主标记的垃圾消息;

确定各用户自主标记的垃圾消息的相似度;

将用户自主标记的垃圾消息的相似度大于等于第一阈值的用户确定具有相似垃圾消息设置的用户。

8.根据权利要求6所述的方法,其特征在于,所述为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器之后,所述方法还包括:将定制化的垃圾消息分类器下发到其对应垃圾消息设置属性的用户群的终端,以由其对应垃圾消息设置属性的用户群的终端基于所述定制化的垃圾消息分类器更新终端的垃圾消息数据库。

9.一种消息处理装置,应用于终端侧,其特征在于,所述装置包括:获取模块,用于获取用户标记的垃圾消息;

存储模块,用于将所述用户标记的垃圾消息存储至垃圾消息数据库;

上报模块,用于将垃圾消息数据库中的垃圾消息数据上报至服务器,以由服务器对具有相似垃圾消息设置的用户进行聚类,其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值;并基于聚类结果确定有共同垃圾消息设置属性的用户群,为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。

10.根据权利要求9所述的装置,其特征在于,所述装置还包括:第一接收模块,用于接收待处理消息;

判断模块,用于基于垃圾消息数据库初步判断所述待处理消息是否为垃圾消息;

推送模块,用于将判断结果为正常消息的待处理消息推送至终端显示界面并显示;

其中,所述垃圾消息数据库包括下述信息:

基于消息发送者号码的黑白名单;和/或,

基于分词特征的垃圾消息规则库;和/或,

用户自主指定的垃圾消息文本。

11.根据权利要求10所述的装置,其特征在于,所述判断模块,具体用于:判断待处理消息的发送者号码是否在与终端对应的私有黑白名单中,当发送者号码在与终端对应的私有黑名单中时,判定待处理消息属于并标记为垃圾消息;当发送者号码在与终端对应的私有白名单中时,判断待处理消息属于并标记为正常消息;

当发送者号码不在与终端对应的私有黑白名单中时,继续判断发送者号码是否在共有黑白名单中,其中,当发送者号码在共有黑名单中时,判定待处理消息属于并标记为垃圾消息,当发送者号码在共有白名单中时,判定待处理消息属于并标记为正常消息;

当发送者号码既不在公有黑白名单中也不在私有黑白名单中时,对待处理消息进行预处理以获得待处理消息的分词特征,将待处理消息的分词特征与垃圾消息规则库进行匹配,判断是否为垃圾消息,若匹配度大于等于设定阈值,则标记为垃圾消息,若匹配度小于设定阈值,则标记为正常消息。

12.根据权利要求9所述的装置,其特征在于,

所述获取模块,还用于获取用户从垃圾消息收件箱中移除的取消垃圾消息标记的消息;

相应地,所述存储模块,还用于将所述取消垃圾消息标记的消息存储至垃圾消息数据库,以待及时将所述取消垃圾消息标记的消息通知服务器。

13.根据权利要求9所述的装置,其特征在于,所述装置还包括:第二接收模块,用于接收服务器返回的与终端相适应的垃圾消息分类器;

更新模块,用于基于所述垃圾消息分类器更新终端的垃圾消息数据库。

14.一种消息处理装置,应用于服务器侧,其特征在于,所述装置包括:第三接收模块,用于接收至少一个终端发送的垃圾消息数据;

聚类模块,用于对具有相似垃圾消息设置的用户进行聚类;其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值;

确定模块,用于根据聚类结果确定有共同垃圾消息设置属性的用户群;

训练模块,用于为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。

15.根据权利要求14所述的装置,其特征在于,所述聚类模块,具体用于:基于垃圾消息数据获取用户自主标记的垃圾消息;

确定各用户自主标记的垃圾消息的相似度;

将用户自主标记的垃圾消息的相似度大于等于第一阈值的用户确定具有相似垃圾消息设置的用户。

16.根据权利要求14所述的装置,其特征在于,所述装置还包括:下发模块,用于将定制化的垃圾消息分类器下发到其对应垃圾消息设置属性的用户群的终端,以由其对应垃圾消息设置属性的用户群的终端基于所述定制化的垃圾消息分类器更新终端的垃圾消息数据库。

17.一种消息处理系统,其特征在于,所述系统包括:至少一个终端,用于获取用户标记的垃圾消息;将所述用户标记的垃圾消息存储至垃圾消息数据库;将垃圾消息数据库中的垃圾消息数据上报至服务器;

服务器,用于接收至少一个终端发送的垃圾消息数据;对具有相似垃圾消息设置的用户进行聚类;其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值;根据聚类结果确定有共同垃圾消息设置属性的用户群;为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。

18.根据权利要求17所述的系统,其特征在于,所述终端包括权利要求9至13任一项所述的消息处理装置;所述服务器包括权利要求14至16所述的消息处理装置。

说明书 :

一种消息处理方法、装置及系统

技术领域

[0001] 本发明涉及通信领域中的消息处理技术,尤其涉及一种消息处理方法、装置及系统。

背景技术

[0002] 随着SMS(Short Message,短消息)技术的发展,在工作、学习和生活中短信的使用越来越广泛,尤其在手机的普及率越来越高的情况下,短信已经成为人们日常联系中非常有效的手段。与此同时,短信的形式也开始逐渐多样化,由iMessage、飞信、以邮箱为发送人发送的短信消息字数受限制,还能传播图片、表情,其表达效果远胜于仅局限于文字传播的传统短信,伴随着这一类短信的逐渐盛行,各种用于欺诈、广告和骚扰的垃圾短信也越来越多。
[0003] 目前,对垃圾短信进行处理的方法主要有两种:第一种是人工筛查,基于垃圾短信分词特征对垃圾短信进行筛查,这种方法效率低,消耗人工大;第二种方法,也是目前常用的方法是:服务器获取大量的垃圾短信和正常短信,将这些垃圾短信和正常短信作为样本训练生成一个垃圾短信分类器;然后,服务器将该垃圾短信分类器下发到手机中,这样手机在接收到一个新的短信时,则可以根据该垃圾短信分类器对该短信进行预测,当预测出该短信为垃圾短信时,会自动将该短信放置在垃圾短信收件箱中;但是,这种方法不能识别用户的偏好,有可能将用户认为是垃圾短信(比如商场打折的广告类短信)的信息没有进行拦截,或者,将用户认为不是垃圾短信的信息进行了拦截,导致形成了针对个别用户的误判。

发明内容

[0004] 有鉴于此,本发明期望提供一种消息处理方法、装置及系统,能基于用户偏好进行垃圾消息过滤,并能够节省服务器的工作负荷。
[0005] 为达到上述目的,本发明的技术方案是这样实现的:
[0006] 本发明提供了一种消息处理方法,所述方法包括:
[0007] 获取用户标记的垃圾消息;
[0008] 将所述用户标记的垃圾消息存储至垃圾消息数据库;
[0009] 将垃圾消息数据库中的垃圾消息数据上报至服务器,以由服务器对具有相似垃圾消息设置的用户进行聚类,并基于聚类结果确定有共同垃圾消息设置属性的用户群,为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。
[0010] 上述方案中,优选地,所述获取用户标记的垃圾消息之前,所述方法还包括:
[0011] 接收待处理消息;
[0012] 基于垃圾消息数据库初步判断所述待处理消息是否为垃圾消息;
[0013] 将判断结果为正常消息的待处理消息推送至终端显示界面并显示,以供用户对所述正常消息的待处理消息进行标记;
[0014] 其中,所述垃圾消息数据库包括但不限于:
[0015] 基于消息发送者号码的黑白名单;
[0016] 基于分词特征的垃圾消息规则库;
[0017] 用户自主指定的垃圾消息文本。
[0018] 上述方案中,优选地,所述基于垃圾消息数据库初步判断所述待处理消息是否为垃圾消息,包括:
[0019] 判断待处理消息的发送者号码是否在与终端对应的私有黑白名单中,当发送者号码在与终端对应的私有黑名单中时,判定待处理消息属于并标记为垃圾消息;当发送者号码在与终端对应的私有白名单中时,判断待处理消息属于并标记为正常消息;
[0020] 当发送者号码不在与终端对应的私有黑白名单中时,继续判断发送者号码是否在共有黑白名单中,其中,当发送者号码在共有黑名单中时,判定待处理消息属于并标记为垃圾消息,当发送者号码在共有白名单中时,判定待处理消息属于并标记为正常消息;
[0021] 当发送者号码既不在公有黑白名单中也不在私有黑白名单中时,对待处理消息进行预处理以获得待处理消息的分词特征,将待处理消息的分词特征与垃圾消息规则库进行匹配,判断是否为垃圾消息,若匹配度大于等于设定阈值,则标记为垃圾消息,若匹配度小于设定阈值,则标记为正常消息。
[0022] 上述方案中,优选地,所述方法还包括:
[0023] 获取用户从垃圾消息收件箱中移除的取消垃圾消息标记的消息;
[0024] 将所述取消垃圾消息标记的消息存储至垃圾消息数据库,以待及时将所述取消垃圾消息标记的消息通知服务器。
[0025] 上述方案中,优选地,所述方法还包括:
[0026] 接收服务器返回的与终端相适应的垃圾消息分类器;
[0027] 基于所述垃圾消息分类器更新终端的垃圾消息数据库。
[0028] 本发明还提供了一种消息处理方法,应用于服务器,所述方法包括:
[0029] 接收至少一个终端发送的垃圾消息数据;
[0030] 对具有相似垃圾消息设置的用户进行聚类;其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值;
[0031] 根据聚类结果确定有共同垃圾消息设置属性的用户群;
[0032] 为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。
[0033] 上述方案中,优选地,所述对具有相似垃圾消息设置的用户进行聚类,包括:
[0034] 基于垃圾消息数据获取用户自主标记的垃圾消息;
[0035] 确定各用户自主标记的垃圾消息的相似度;
[0036] 将用户自主标记的垃圾消息的相似度大于等于第一阈值的用户确定具有相似垃圾消息设置的用户。
[0037] 上述方案中,优选地,所述为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器之后,所述方法还包括:
[0038] 将定制化的垃圾消息分类器下发到其对应垃圾消息设置属性的用户群的终端,以由其对应垃圾消息设置属性的用户群的终端基于所述定制化的垃圾消息分类器更新终端的垃圾消息数据库。
[0039] 本发明还提供了一种消息处理装置,应用于终端侧,所述装置包括:
[0040] 获取模块,用于获取用户标记的垃圾消息;
[0041] 存储模块,用于将所述用户标记的垃圾消息存储至垃圾消息数据库;
[0042] 上报模块,用于将垃圾消息数据库中的垃圾消息数据上报至服务器,以由服务器对具有相似垃圾消息设置的用户进行聚类,并基于聚类结果确定有共同垃圾消息设置属性的用户群,为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。
[0043] 上述方案中,优选地,所述装置还包括:
[0044] 第一接收模块,用于接收待处理消息;
[0045] 判断模块,用于基于垃圾消息数据库初步判断所述待处理消息是否为垃圾消息;
[0046] 推送模块,用于将判断结果为正常消息的待处理消息推送至终端显示界面并显示,以供用户对所述正常消息的待处理消息进行标记;
[0047] 其中,所述垃圾消息数据库包括但不限于:
[0048] 基于消息发送者号码的黑白名单;
[0049] 基于分词特征的垃圾消息规则库;
[0050] 用户自主指定的垃圾消息文本。
[0051] 上述方案中,优选地,所述判断模块,具体用于:
[0052] 判断待处理消息的发送者号码是否在与终端对应的私有黑白名单中,当发送者号码在与终端对应的私有黑名单中时,判定待处理消息属于并标记为垃圾消息;当发送者号码在与终端对应的私有白名单中时,判断待处理消息属于并标记为正常消息;
[0053] 当发送者号码不在与终端对应的私有黑白名单中时,继续判断发送者号码是否在共有黑白名单中,其中,当发送者号码在共有黑名单中时,判定待处理消息属于并标记为垃圾消息,当发送者号码在共有白名单中时,判定待处理消息属于并标记为正常消息;
[0054] 当发送者号码既不在公有黑白名单中也不在私有黑白名单中时,对待处理消息进行预处理以获得待处理消息的分词特征,将待处理消息的分词特征与垃圾消息规则库进行匹配,判断是否为垃圾消息,若匹配度大于等于设定阈值,则标记为垃圾消息,若匹配度小于设定阈值,则标记为正常消息。
[0055] 上述方案中,优选地,所述获取模块,还用于获取用户从垃圾消息收件箱中移除的取消垃圾消息标记的消息;
[0056] 相应地,所述存储模块,还用于将所述取消垃圾消息标记的消息存储至垃圾消息数据库,以待及时将所述取消垃圾消息标记的消息通知服务器。
[0057] 上述方案中,优选地,所述装置还包括:
[0058] 第二接收模块,用于接收服务器返回的与终端相适应的垃圾消息分类器;
[0059] 更新模块,用于基于所述垃圾消息分类器更新终端的垃圾消息数据库。
[0060] 本发明还提供了一种消息处理装置,应用于服务器侧,所述装置包括:
[0061] 第三接收模块,用于接收至少一个终端发送的垃圾消息数据;
[0062] 聚类模块,用于对具有相似垃圾消息设置的用户进行聚类;其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值;
[0063] 确定模块,用于根据聚类结果确定有共同垃圾消息设置属性的用户群;
[0064] 训练模块,用于为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。
[0065] 上述方案中,优选地,所述聚类模块,具体用于:
[0066] 基于垃圾消息数据获取用户自主标记的垃圾消息;
[0067] 确定各用户自主标记的垃圾消息的相似度;
[0068] 将用户自主标记的垃圾消息的相似度大于等于第一阈值的用户确定具有相似垃圾消息设置的用户。
[0069] 上述方案中,优选地,所述装置还包括:
[0070] 下发模块,用于将定制化的垃圾消息分类器下发到其对应垃圾消息设置属性的用户群的终端,以由其对应垃圾消息设置属性的用户群的终端基于所述定制化的垃圾消息分类器更新终端的垃圾消息数据库。
[0071] 本发明还提供了一种消息处理系统,所述系统包括:
[0072] 至少一个终端,用于获取用户标记的垃圾消息;将所述用户标记的垃圾消息存储至垃圾消息数据库;将垃圾消息数据库中的垃圾消息数据上报至服务器;
[0073] 服务器,用于接收至少一个终端发送的垃圾消息数据;对具有相似垃圾消息设置的用户进行聚类;其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值;根据聚类结果确定有共同垃圾消息设置属性的用户群;为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。
[0074] 上述方案中,优选地,所述终端包括权利要求上文所述的应用于终端侧的所述的消息处理装置;所述服务器包括上文所述的应用于服务器侧的所述的消息处理装置。
[0075] 本发明所提供的消息处理方法、装置及系统,获取用户标记的垃圾消息;将所述用户标记的垃圾消息归入垃圾消息数据库;将垃圾消息数据库中的垃圾消息数据上报至服务器,以由服务器对具有相似垃圾消息设置的用户进行聚类,并基于聚类结果确定有共同垃圾消息设置偏好的用户群,为具有共同垃圾消息设置偏好的用户群训练定制化的垃圾消息分类器;如此,能基于用户偏好进行垃圾消息过滤,能够实现更加匹配用户设置偏好的垃圾消息拦截,提升了用户的使用体验;而且,服务器是根据具有类似偏好的用户群进行训练垃圾消息分类器,相对于服务器针对每个用户进行训练垃圾消息分类器来说,大大节省了服务器的工作负荷。

附图说明

[0076] 图1为本发明提供的一种消息处理方法的实现流程图;
[0077] 图2为本发明提供的另一种消息处理方法的实现流程图;
[0078] 图3为本发明提供的一种消息处理装置的组成结构示意图;
[0079] 图4为本发明提供的另一种消息处理装置的组成结构示意图;
[0080] 图5为本发明提供的消息处理系统的组成结构示意图;
[0081] 图6为本发明提供的终端与云服务器的交互流程示意图。

具体实施方式

[0082] 为了能够更加详尽地了解本发明的特点与技术内容,下面结合附图对本发明的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。
[0083] 实施例一
[0084] 图1为本发明提供的一种消息处理方法的实现流程图,所述方法应用于终端侧,如图1所示,所述方法主要包括以下步骤:
[0085] 步骤101:获取用户标记的垃圾消息。
[0086] 本实施例中,所述消息包括但不限于:
[0087] 短信,各类即时通信消息。
[0088] 其中,所述短信包括但不限于:由手机号、邮箱发送的短信、彩信,以及飞信、iMessage等信息传递服务推送的消息。
[0089] 其中,所述即时通信消息包括但不限于:QQ消息、微信消息。
[0090] 本实施例中,终端具有自主的垃圾短信筛选功能,使用户能自主标记对于自己而言属于垃圾内容的短信。
[0091] 具体地,在终端的显示界面上所显示的正常消息中,用户可以根据自己的偏好将某些自认为是垃圾内容的正常消息标记为垃圾消息。例如,用户可以将选中的正常消息移动至垃圾消息收件箱中。
[0092] 其中,所述正常消息是相对于垃圾消息而言的。
[0093] 当然,用户可以查看所述垃圾消息收件箱中的垃圾消息。
[0094] 优选地,所述获取用户标记的垃圾消息之前,所述方法还可以包括:
[0095] 接收待处理消息;
[0096] 基于垃圾消息数据库判断所述待处理消息是否为垃圾消息;
[0097] 将判断结果为正常消息的待处理消息推送至终端显示界面并显示,以供用户对所述正常消息的待处理消息进行标记。
[0098] 在一具体子实施例中,所述基于垃圾消息数据库初步判断所述待处理消息是否为垃圾消息,可以包括:
[0099] 判断待处理消息的发送者号码是否在与终端对应的私有黑白名单中,当发送者号码在与终端对应的私有黑名单中时,判定待处理消息属于并标记为垃圾消息;当发送者号码在与终端对应的私有白名单中时,判断待处理消息属于并标记为正常消息;
[0100] 当发送者号码不在与终端对应的私有黑白名单中时,继续判断发送者号码是否在共有黑白名单中,其中,当发送者号码在共有黑名单中时,判定待处理消息属于并标记为垃圾消息,当发送者号码在共有白名单中时,判定待处理消息属于并标记为正常消息;
[0101] 当发送者号码既不在公有黑白名单中也不在私有黑白名单中时,对待处理消息进行预处理以获得待处理消息的分词特征,将待处理消息的分词特征与垃圾消息规则库进行匹配,判断是否为垃圾消息,若匹配度大于等于设定阈值,则标记为垃圾消息,若匹配度小于设定阈值,则标记为正常消息。
[0102] 其中,设定阈值可由用户在终端进行自主设置,以便实现定制化的垃圾短信过滤功能。
[0103] 当然,判断所述待处理消息是否为垃圾消息的方法并不限于以上所列举的这种方式,在此不再列举。
[0104] 步骤102:将所述用户标记的垃圾消息存储至垃圾消息数据库。
[0105] 优选地,所述垃圾消息数据库包括但不限于下述信息:
[0106] 基于消息发送者号码的黑白名单;基于分词特征的垃圾消息规则库;用户自主指定的垃圾消息文本。
[0107] 优选地,在执行步骤103之前,所述方法还可以包括:
[0108] 获取用户从垃圾消息收件箱中移除的取消垃圾消息标记的消息;
[0109] 将所述取消垃圾消息标记的消息存储至垃圾消息数据库,以待及时将所述取消垃圾消息标记的消息通知服务器。
[0110] 如此,能够将用户对垃圾短信的选择数据尽可能地归入垃圾消息数据库中,以待终端及时将所述选择数据通知服务器,使服务器更好地了解用户的偏好。
[0111] 步骤103:将垃圾消息数据库中的垃圾消息数据上报至服务器,以由服务器对具有相似垃圾消息设置的用户进行聚类,其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值;并基于聚类结果确定有共同垃圾消息设置属性的用户群,为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。
[0112] 优选地,将垃圾消息数据库中的垃圾消息数据上报至服务器的触发条件可以是:周期性触发、或事件触发。
[0113] 比如,可以定期将终端的垃圾消息数据库中的垃圾消息数据上报至服务器。
[0114] 再比如,接收到用户发出的上报指示时,将终端的垃圾消息数据库中的垃圾消息数据上报至服务器。
[0115] 优选地,在步骤103之后,所述方法还可以包括:
[0116] 接收服务器返回的与终端相适应的垃圾消息分类器;
[0117] 基于所述垃圾消息分类器更新终端的垃圾消息数据库。
[0118] 这里,所述与终端相适应的垃圾消息分类器,是指根据终端的用户的偏好所属用户群而制定的垃圾消息分类器。
[0119] 其中,垃圾消息分类器主要包括:对应于特定用户群体的垃圾短信分类词库。
[0120] 优选地,所述基于所述垃圾消息分类器更新终端的垃圾消息数据库,可以包括:
[0121] 基于垃圾消息分类器中的垃圾短信分类词库更新终端中的基于分词特征的垃圾消息规则库。
[0122] 步骤101~步骤103的执行主体均可以是部署在终端上的消息处理装置。
[0123] 本实施例所述消息处理方法,通过在终端增加用户自主的垃圾消息筛选功能,让用户自主标记对于自己而言属于垃圾内容的消息,将标记的垃圾消息存入终端垃圾消息存储区,归入垃圾消息数据库;终端将垃圾消息数据库中的垃圾消息数据上报服务器,由服务器执行用户垃圾消息设置偏好聚类任务,将具有相似垃圾消息设置的用户进行聚类,发现有共同垃圾消息设置偏好的用户群,为具有明显设置偏好用户群训练其特有的垃圾消息分类器;如此,能基于用户偏好进行垃圾消息过滤,能够实现更加匹配用户设置偏好的垃圾消息拦截,提升了用户的使用体验;而且,服务器是根据具有类似偏好的用户群进行训练垃圾消息分类器,相对于服务器针对每个用户进行训练垃圾消息分类器来说,大大节省了服务器的工作负荷。此外,本发明所述技术方案可行性高、易于推广、实用性强。
[0124] 实施例二
[0125] 图2为本发明提供的另一种消息处理方法的实现流程图,应用于服务器侧,如图2所示,所述方法主要包括以下步骤:
[0126] 步骤201:接收至少一个终端发送的垃圾消息数据。
[0127] 优选地,所述垃圾消息数据是终端周期性上报或事件性上报到服务器的。
[0128] 其中,所述垃圾消息数据中包括用户标记的垃圾消息。
[0129] 步骤202:对具有相似垃圾消息设置的用户进行聚类;其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值。
[0130] 优选地,所述对具有相似垃圾消息设置的用户进行聚类,可以包括:
[0131] 基于垃圾消息数据获取用户自主标记的垃圾消息;
[0132] 确定各用户自主标记的垃圾消息的相似度;
[0133] 将用户自主标记的垃圾消息的相似度大于等于第一阈值的用户确定具有相似垃圾消息设置的用户。
[0134] 其中,可采用第一聚类算法对垃圾消息数据进行聚类分析;优选地,所述第一聚类算法可以是经典的Rocchio算法。
[0135] 步骤203:根据聚类结果确定有共同垃圾消息设置属性的用户群。
[0136] 也就是说,一些消息对于部分用户来说可能是垃圾消息,但对于另一部分用户来说可能不是,本步骤要根据聚类结果发掘具有同样垃圾消息分类设置属性的用户。
[0137] 步骤204:为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。
[0138] 本步骤中,在服务器端对共同偏好的用户进行聚类,采用基于用户聚类结果的垃圾消息分词训练方法得到定制化的垃圾消息分类规则。由于单个的用户得到的垃圾消息数量有限,对于垃圾消息分类无法形成有效的训练,进而无法获得定制化垃圾消息的有效拦截;同时,一段时间内共同偏好的用户群可能各自收到的垃圾消息不同,上传的垃圾消息也不同,考虑到垃圾消息的地域性和传播时效,如果只对单一用户实现定制化垃圾消息分类规则,那么规则更新的速度很可能出现比不上垃圾消息传播的速度、比不上垃圾消息更新的速度等问题。
[0139] 优选地,所述垃圾消息分类器至少包括:
[0140] 垃圾短信分类词库。
[0141] 具体地,服务器得到具有共同垃圾消息设置属性的用户群体划分之后,基于每个特定群体上传的垃圾消息,为每个群体挖掘出属于特定用户群体的垃圾消息分类词库,实现定制化垃圾消息分类词库。
[0142] 这里,具体如何根据垃圾消息制定垃圾消息分类词库可采用现有技术手段,在此不再赘述。
[0143] 优选地,所述为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器之后,所述方法还可以包括:
[0144] 将定制化的垃圾消息分类器下发到其对应垃圾消息设置属性的用户群的终端,以由其对应垃圾消息设置属性的用户群的终端基于所述定制化的垃圾消息分类器更新终端的垃圾消息数据库。
[0145] 优选地,所述基于所述定制化的垃圾消息分类器更新终端的垃圾消息数据库,可以包括:
[0146] 基于定制化的垃圾消息分类器中的垃圾短信分类词库更新终端中的基于分词特征的垃圾消息规则库。
[0147] 本实施中,所述服务器可以是普通的服务器,也可以是云服务器。
[0148] 上述步骤201~步骤204的执行主体均可是位于服务器侧的消息处理装置。
[0149] 本实施例中所述消息处理方法,服务器能够接收用户终端发送的用户自主标记的垃圾消息文本信息,并依据垃圾消息内容对用户设置垃圾消息的偏好进行聚类;对于具有共同垃圾消息设置偏好的用户,将这部分用户的垃圾消息进行分词训练,训练处定制化的垃圾消息分类器,并将垃圾消息分类器下发到对应的用户群所在终端;如此,能基于用户偏好进行垃圾消息过滤,能够实现更加匹配用户设置偏好的垃圾消息拦截,提升了用户的使用体验;而且,服务器是根据具有类似偏好的用户群进行训练垃圾消息分类器,相对于服务器针对每个用户进行训练垃圾消息分类器来说,大大节省了服务器的工作负荷。此外,本发明所述技术方案可行性高、易于推广、实用性强。
[0150] 实施例三
[0151] 图3为本发明提供的一种消息处理装置的组成结构示意图,所述消息处理装置应用于终端侧,如图3所示,所述消息处理装置主要包括:
[0152] 获取模块31,用于获取用户标记的垃圾消息;
[0153] 存储模块32,用于将所述用户标记的垃圾消息存储至垃圾消息数据库;
[0154] 上报模块33,用于将垃圾消息数据库中的垃圾消息数据上报至服务器,以由服务器对具有相似垃圾消息设置的用户进行聚类,其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值;并基于聚类结果确定有共同垃圾消息设置属性的用户群,为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。
[0155] 优选地,所述装置还包括:
[0156] 第一接收模块34,用于接收待处理消息;
[0157] 判断模块35,用于基于垃圾消息数据库初步判断所述待处理消息是否为垃圾消息;
[0158] 推送模块36,用于将判断结果为正常消息的待处理消息推送至终端显示界面并显示,以供用户对所述正常消息的待处理消息进行标记;
[0159] 其中,所述垃圾消息数据库包括但不限于下述信息:
[0160] 基于消息发送者号码的黑白名单;
[0161] 基于分词特征的垃圾消息规则库;
[0162] 用户自主指定的垃圾消息文本。
[0163] 优选地,所述判断模块35,具体用于:
[0164] 判断待处理消息的发送者号码是否在与终端对应的私有黑白名单中,当发送者号码在与终端对应的私有黑名单中时,判定待处理消息属于并标记为垃圾消息;当发送者号码在与终端对应的私有白名单中时,判断待处理消息属于并标记为正常消息;
[0165] 当发送者号码不在与终端对应的私有黑白名单中时,继续判断发送者号码是否在共有黑白名单中,其中,当发送者号码在共有黑名单中时,判定待处理消息属于并标记为垃圾消息,当发送者号码在共有白名单中时,判定待处理消息属于并标记为正常消息;
[0166] 当发送者号码既不在公有黑白名单中也不在私有黑白名单中时,对待处理消息进行预处理以获得待处理消息的分词特征,将待处理消息的分词特征与垃圾消息规则库进行匹配,判断是否为垃圾消息,若匹配度大于等于设定阈值,则标记为垃圾消息,若匹配度小于设定阈值,则标记为正常消息。
[0167] 上述方案中,优选地,所述获取模块31,还用于获取用户从垃圾消息收件箱中移除的取消垃圾消息标记的消息;
[0168] 相应地,所述存储模块32,还用于将所述取消垃圾消息标记的消息存储至垃圾消息数据库,以待及时将所述取消垃圾消息标记的消息通知服务器。
[0169] 优选地,所述装置还包括:
[0170] 第二接收模块37,用于接收服务器返回的与终端相适应的垃圾消息分类器;
[0171] 更新模块38,用于基于所述垃圾消息分类器更新终端的垃圾消息数据库。
[0172] 上述消息处理装置可部署于终端上。
[0173] 本领域技术人员应当理解,本实施例的消息处理装置中各模块的功能,可参照前述消息处理方法的相关描述而理解,本实施例的消息处理装置中各模块,可通过实现本实施例所述的功能的模拟电路而实现,也可以通过执行本实施例所述的功能的软件在智能终端上的运行而实现。
[0174] 实际应用中,上述获取模块31、存储模块32、上报模块33、第一接收模块34、判断模块35、推送模块36、第二接收模块37、更新模块38的具体结构均可对应于处理器。所述处理器具体的结构可以为中央处理器(CPU,Central Processing Unit)、微处理器(MCU,Micro Controller Unit)、数字信号处理器(DSP,Digital Signal Processing)或可编程逻辑器件(PLC,Programmable Logic Controller)等具有处理功能的电子元器件或电子元器件的集合。其中,所述处理器包括可执行代码,所述可执行代码存储在存储介质中,所述处理器可以通过总线等通信接口与所述存储介质中相连,在执行具体的各模块的对应功能时,从所述存储介质中读取并运行所述可执行代码。所述存储介质用于存储所述可执行代码的部分优选为非瞬间存储介质。
[0175] 本实施例的消息处理装置,能使用户终端可以基于用户偏好进行垃圾消息过滤,能够实现更加匹配用户设置偏好的垃圾消息拦截,提升了用户的使用体验。此外,本发明所述技术方案可行性高、易于推广、实用性强。
[0176] 实施例四
[0177] 图4为本发明提供的一种消息处理装置的组成结构示意图,所述消息处理装置应用于服务器侧,如图4所示,所述消息处理装置主要包括:
[0178] 第三接收模块41,用于接收至少一个终端发送的垃圾消息数据;
[0179] 聚类模块42,用于对具有相似垃圾消息设置的用户进行聚类;其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值;
[0180] 确定模块43,用于根据聚类结果确定有共同垃圾消息设置属性的用户群;
[0181] 训练模块44,用于为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。
[0182] 上述方案中,优选地,所述聚类模块42,具体用于:
[0183] 基于垃圾消息数据获取用户自主标记的垃圾消息;
[0184] 确定各用户自主标记的垃圾消息的相似度;
[0185] 将用户自主标记的垃圾消息的相似度大于等于第一阈值的用户确定具有相似垃圾消息设置的用户。
[0186] 上述方案中,优选地,所述装置还包括:
[0187] 下发模块45,用于将定制化的垃圾消息分类器下发到其对应垃圾消息设置属性的用户群的终端,以由其对应垃圾消息设置属性的用户群的终端基于所述定制化的垃圾消息分类器更新终端的垃圾消息数据库。
[0188] 上述消息处理装置可部署于服务器侧。
[0189] 其中,所述服务器可以是普通的服务器,也可以是云服务器。
[0190] 本领域技术人员应当理解,本实施例的消息处理装置中各模块的功能,可参照前述消息处理方法的相关描述而理解,本实施例的消息处理装置中各模块,可通过实现本实施例所述的功能的模拟电路而实现,也可以通过执行本实施例所述的功能的软件在智能终端上的运行而实现。
[0191] 实际应用中,上述第三接收模块41、聚类模块42、确定模块43、训练模块44、下发模块45的具体结构均可对应于处理器。所述处理器具体的结构可以为CPU、MCU、DSP或PLC等具有处理功能的电子元器件或电子元器件的集合。其中,所述处理器包括可执行代码,所述可执行代码存储在存储介质中,所述处理器可以通过总线等通信接口与所述存储介质中相连,在执行具体的各模块的对应功能时,从所述存储介质中读取并运行所述可执行代码。所述存储介质用于存储所述可执行代码的部分优选为非瞬间存储介质。
[0192] 本实施例中所述消息处理装置,能根据具有类似偏好的用户群进行训练垃圾消息分类器,相对于服务器针对每个用户进行训练垃圾消息分类器来说,大大节省了服务器的工作负荷。此外,本发明所述技术方案可行性高、易于推广、实用性强。
[0193] 实施例五
[0194] 图5为本发明提供的消息处理系统的组成结构示意图,所述消息处理系统包括:
[0195] 至少一个终端51,用于获取用户标记的垃圾消息;将所述用户标记的垃圾消息存储至垃圾消息数据库;将垃圾消息数据库中的垃圾消息数据上报至服务器52;
[0196] 服务器52,用于接收至少一个终端51发送的垃圾消息数据;对具有相似垃圾消息设置的用户进行聚类;其中,所述具有相似垃圾消息设置是用户自主标记的垃圾消息的相似度大于等于第一阈值;根据聚类结果确定有共同垃圾消息设置属性的用户群;为具有共同垃圾消息设置属性的用户群训练定制化的垃圾消息分类器。
[0197] 上述方案中,优选地,所述终端包括图3所示的应用于终端侧的消息处理装置;所述服务器包括图4所示所述的应用于网络侧的通消息处理装置。
[0198] 本发明所提供的消息处理系统,能使终端基于用户偏好进行垃圾消息过滤,能够实现更加匹配用户设置偏好的垃圾消息拦截,提升了用户的使用体验;而且,服务器是根据具有类似偏好的用户群进行训练垃圾消息分类器,相对于服务器针对每个用户进行训练垃圾消息分类器来说,大大节省了服务器的工作负荷。
[0199] 实施例六
[0200] 图6为本发明提供的终端与服务器的交互流程示意图,如图6所示,该流程主要包括以下步骤:
[0201] 步骤601:终端接收到短信。
[0202] 其中,所述短信包括但不限于由手机号、邮箱发送的短信、彩信。
[0203] 步骤602:将接收到的短信与终端上的垃圾短信数据库进行匹配。
[0204] 具体地,终端判断待处理短信是否为垃圾短信的步骤包括:
[0205] 602a:判断待处理短信的发送者号码是否在与终端对应的私有黑白名单中,当发送者号码在与终端对应的私有黑名单中时,判定待处理短信属于并标记为垃圾短信;当发送者号码在与终端对应的私有白名单中时,判断待处理短信属于并标记为正常短信;
[0206] 602b:当发送者号码不在与终端对应的私有黑白名单中时,继续判断发送者号码是否在共有黑白名单中,其中,当发送者号码在共有黑名单中时,判定待处理短信属于并标记为垃圾短信,当发送者号码在共有白名单中时,判定待处理短信属于并标记为正常短信;
[0207] 602c:当发送者号码既不在公有黑白名单中也不在私有黑白名单中时,对待处理短信进行预处理以获得待处理短信的分词特征,将待处理短信的分词特征与垃圾短信规则库进行匹配,判断是否为垃圾短信,若匹配度大于等于设定阈值,则标记为垃圾短信,若匹配度小于设定阈值,则标记为正常短信。
[0208] 其中,设定阈值可由用户在终端进行自主设置,以便实现定制化的垃圾短信过滤功能。
[0209] 步骤603:被推送并显示的短信由用户判断,将用户认为属于垃圾短信的短信自主标记为垃圾短信。
[0210] 步骤604:根据标记结果,将用户标记的垃圾短信存储至用户终端的垃圾短信数据库。
[0211] 步骤605:在一定周期内,将用户在终端标记的垃圾短信上传云服务器。
[0212] 步骤606:云服务器在接收到用户在终端标记的垃圾短信后,将具有共同垃圾短信设置属性的用户进行聚类。
[0213] 本实施例中,聚类方法采用使用经典的Rocchio算法。
[0214] 步骤607:云服务器得到具有共同垃圾短信设置属性的用户群体划分后,基于每个特定群体上传的垃圾短信,为每个群体挖掘出属于特定用户群体的垃圾短信分类词库,实现定制化垃圾短信分类词库。
[0215] 步骤608:云服务器将定制化垃圾短信分类词库下发至对应的具有共同垃圾短信设置属性的用户群体终端,对应的用户群体终端更新其垃圾短信分类词库。
[0216] 在本发明所提供的几个实施例中,应该理解到,所揭露的方法、设备和系统,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0217] 上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0218] 另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0219] 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0220] 或者,本发明实施例上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
[0221] 以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。