一种基于“用户信誉度和短信垃圾度”的短信息过滤方法转让专利

申请号 : CN201210580601.5

文献号 : CN103037339B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨东洋

申请人 : 彩讯科技股份有限公司

摘要 :

本发明公开了一种基于“用户信誉度和短信垃圾度”的短信息过滤方法,包括步骤:A)根据短信用户的活跃情况,给每个用户一个初始信誉度;B)文本预处理:先剔除文本中正常标点符号,识别出系统设置的干扰字符记录个数并剔除,替换特定编码的数字及象形码;C)提取手机号码及URL地址,进行短信相关行为特征提取;D)关键词新增垃圾度基本属性,基于B)步骤文本预处理后的内容做关键词匹配,并记录匹配到的各关键词;E)相似内容界定,基于相似度计算短息垃圾度;F)结合用户的信誉度和短息垃圾度,判断是否拦截。本发明基于用户信誉度和短信垃圾度可以更加精准的实现对垃圾短息的过滤,减少垃圾短息的误判。

权利要求 :

1.一种基于 “用户信誉度和短信垃圾度 ”的短信息过滤方法,包括步骤:A)根据短信用户的活跃情况,给每个用户一个初始信誉度;给出用户初始信誉度后,在采用hadoop按天提取用户使用各业务的行为计数,实时维护用户信誉度;所述实时维护用户信誉度包括:誉度初始化、违规行为扣除信誉度及活跃行为累加信誉度三部分;

B)文本预处理:先剔除文本中正常标点符号,识别出系统设置的干扰字符记录个数并剔除,替换特定编码的数字及象形码;

C)提取手机号码及URL地址,进行短信相关行为特征提取;所述短信相关行为特征包括用户自身行为特征和相似内容特征;

D)关键词新增垃圾度基本属性,基于B)步骤文本预处理后的内容做关键词匹配,并记录匹配到的各关键词;

E)相似内容界定,基于相似度计算短息垃圾度;

F)结合用户的信誉度和短息垃圾度,判断是否拦截;

所述的户自身行为特征包括异地登录、新注册用户、短信下发失败率;所述的相似内容特征包括发送者地区分布、发送者登录IP分布、接收者地区分布、发送频率。

说明书 :

一种基于“用户信誉度和短信垃圾度”的短信息过滤方法

技术领域

[0001] 本发明属于互联网通信技术领域的短信息处理技术,具体来讲,涉及一种互联网通信系统的短信服务平台基于“用户信誉度和短信垃圾度”的短信息过滤方法对用户提交的可公开传播内容进行监管和过滤的方法。

背景技术

[0002] 近几年来,随着邮箱业务的高速发展,发送垃圾短信的一些不法分子专门利用一些邮箱(如139邮箱等)专有的免费短信通道做为敛财的工具或者达到不可告人的目的。短信作为移动通信的增值服务之一,为人们提供价格低廉和便捷的通信服务,同时也滋生了大量以传播淫秽色情、商业诈骗及商业广告等不良信息为目的的垃圾短信。这些垃圾短信严重干扰了人们生活,妨害了社会安全,垃圾短信的监管问题已受到社会各界的广泛重视。除了从立法层面加强对发布信息进行监管外,更重要的是在技术层面探索短信垃圾过滤行之有效的防范技术。
[0003] 现有技术中,垃圾短信的过滤方法主要有两种:基于关键词或基于内容的短信垃圾过滤。
[0004] 基于关键词的垃圾短信过滤是系统事先设置一些关键词,短信内容中只要出现这些关键词,则认定为垃圾短信并予以拦截,这种方法判断依据单一,会存在大量误判的缺陷。
[0005] 基于内容的垃圾短信过滤是采用机器学习把短信分为正常短信和垃圾短信。目前用于短信分类的机器学习方法主要有贝叶斯、SVM、KNN及人工神经网络等。该过滤方法也存在误判的缺陷。

发明内容

[0006] 本发明的目的在于提供一种基于“用户信誉度和短信垃圾度”的短信息过滤方法对用户提交的可公开传播内容进行监管和过滤的方法。
[0007] 为实现上述目的,本发明所述的基于“用户信誉度和短信垃圾度”的短信息过滤方法,包括步骤:
[0008] A)根据短信用户的活跃情况,给每个用户一个初始信誉度;
[0009] B)文本预处理:先剔除文本中正常标点符号,识别出系统设置的干扰字符记录个数并剔除,替换特定编码的数字及象形码;
[0010] C)提取手机号码及URL地址,进行短信相关行为特征提取;
[0011] D)关键词新增垃圾度基本属性,基于B)步骤文本预处理后的内容做关键词匹配,并记录匹配到的各关键词;
[0012] E)相似内容界定,基于相似度计算短息垃圾度;
[0013] F)结合用户的信誉度和短息垃圾度,判断是否拦截。
[0014] 本发明的目的在于将短信内容及用户行为进行全方位打分,形成合力,再结合用户信誉度来判断是否为垃圾短信,尽可能的拦截垃圾短信,并降低误拦截对高信誉用户的影响。
[0015] 本发明根据用户的活跃情况,给每个用户一个初始信誉度,再采用hadoop按天提取用户使用各业务的行为计数,实时维护用户信誉度。
[0016] 然后进行文本预处理。先剔除文本中正常的标点符号,识别出系统设置的干扰字符(如ぁ等)纪录个数并剔除,替换特定编码的数字及象形码(如④、〇)。
[0017] 基于第二步处理后的内容,提取手机号码及URL地址,并判断手机号码是否为原始串内容。发送用户自身行为特征提取,如:异地登录、新注册用户、短信下发失败率高等(可扩充)。相似内容特征提取,如:发送者地区分布、发送者登录IP分布、接收者地区分布、发送频率等(可扩充)。基于提取的特征计算垃圾度,进行垃圾短信识别。
[0018] 关键词新增垃圾度基本属性,基于文本预处理后的内容做关键词匹配,并记录匹配到的各关键词。基于匹配的关键字计算垃圾度,同时汇总第三步结算的结果,进行垃圾短信识别处理。
[0019] 相似内容界定。基于相似度计算垃圾度,并汇总第四步的结果,进行垃圾短信识别处理。
[0020] 结合用户的信誉度及短信垃圾度,判断是否拦截。垃圾度适中,且允许用户下发的短信,同时进行用户信誉度扣除。
[0021] 本发明基于用户信誉度和短信垃圾度可以更加精准的实现对垃圾短息的过滤,减少垃圾短息的误判。

附图说明

[0022] 图1为本发明一种具体实施方式对垃圾短信过滤的流程图;
[0023] 图2为本发明一种具体实施方式对用户信誉度维护的流程图;
[0024] 图3为图1所示文本预处理步骤的具体实施方式的流程图;
[0025] 图4为图1所示行为特征处理步骤的具体实施方式的流程图;
[0026] 图5为图1所示关键词匹配步骤的具体实施方式的流程图;
[0027] 图6为图1所示相似度界定步骤的具体实施方式的流程图;
[0028] 图7为图1所示疑似垃圾短信处理步骤的具体实施方式的流程图。

具体实施方式

[0029] 下面结合附图和具体实施例对本发明做进一步详细说明。
[0030] 图1-图7是本发明一种具体实施方式对垃圾短信过滤的流程图。在本实例中,将本发明垃圾过滤方法融入并体现在特征处理步骤、关键词处理步骤及相似度界定,以及正常短信处理流程、疑似垃圾处理流程及垃圾短信处理流程中。正常短信处理流程、疑似垃圾短信处理流程及垃圾短信处理流程主要是为用户信誉度维护提供主要的数据支撑。
[0031] 在本实例中,本发明垃圾过滤方法将依据短信的文字信息及特征进行打分确定是否为垃圾短信的过滤方法,依次采用行为特征处理、关键词匹配和相似度界定三种方法的结合,提高垃圾短信判定的准确性。
[0032] 同时,在本实例中,本发明垃圾过滤方法也结合了黑/白名单过滤方法,即黑名单用户信誉度为0禁止发送任何短信,白名单用户信誉度为1默认发送的短信均为正常。
[0033] 下面对五个处理流程做详细描述。
[0034] 用户信誉度维护流程—》该流程包括信誉度初始化、违规行为扣除信誉度及活跃行为累加信誉度三部分。其中扣除信誉度违规行为包括提交垃圾短信和下发疑似垃圾短信,采用实时扣除的方式;活跃行为累加信誉度采用hadoop定时分析的方式进行;信誉度初始化规则:
[0035]
[0036] 行为特征处理流程—》该流程主要是提取短信相关的行为特征,比如广告类短信一般包含手机号码或URL地址、关键内容中夹杂干扰字符或采用特殊编码的字符(如④/⒀),同时垃圾短信也具备群发的特性,因此也有必要对相似内容进行IP分布、接收者地域分布、发送者地域分布等进行分析,汇总上述信息对短信进行垃圾度计算,然后判定是否为垃圾短信。在中间处理过程中,只识别是否为垃圾短信,即只判断垃圾度是否超过垃圾短信预定的阀值。如果判断为垃圾短信,则进行信誉度扣分。
[0037] 关键词匹配处理流程-》首先将普通关键词、组合关键词及敏感关键词定义垃圾值属性,然后该流程就预处理后的文本做关键词匹配,对匹配上的关键词进行垃圾度计算,同时累加之前的总垃圾度。最后基于垃圾度来判断是否为垃圾短信。在中间处理过程中,只识别是否为垃圾短信,即只判断垃圾度是否超过垃圾短信预定的阀值。当然在关键词匹配过程中,也可以采用原始内容串做正则匹配。
[0038] 相似度界定处理流程-》该流程为针对已拦截的历史垃圾短信,做指纹相似度匹配,计算出最大相似度,同时把相似度大于一定值的做累加,并把提取的相关属性折算为垃圾度(也可采用贝叶斯算法来对文本进行分类),同时累加之前的总垃圾度。总垃圾度低于疑似垃圾阀值,则直接当成正常短信处理,高于垃圾短信阀值,则判定为垃圾短信,否则,执行疑似垃圾处理流程。
[0039] 疑似垃圾处理流程—》基于用户信誉度做判定,处理方式如下:
[0040]
[0041] 针对疑似垃圾短信的授权下发,根据用户信誉度及疑似垃圾度做信誉度扣除,计算公式如下(假定信誉度分n档,采用C1、C2…Cn表示,C1最大;T1、T2…Tn表示信誉度分档之间允许发送的条数;B1、B2…Bn各档次垃圾贡献基准值;G为垃圾度):
[0042] 信誉度扣除值=(C1-C2)/T1*(G/B1)。
[0043] 本发明基于用户信誉度和短信垃圾度可以更加精准的实现对垃圾短息的过滤,减少垃圾短息的误判。
[0044] 以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。