基于消息内容的无用消息(垃圾消息)检测转让专利

申请号 : CN200510137705.9

文献号 : CN1801855B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 蔡亦钢S·瑟瑞尔·库图布艾洛克·沙玛

申请人 : 朗迅科技公司

摘要 :

在电信网络中,一种用于检测无用消息(垃圾消息)的方法。对可疑垃圾消息的内容进行分析,以判断该消息的加权属性以及属性的加权和是否超过阈值。如果这些加权和超过阈值,则把该消息看作是垃圾消息并进行人工分析,以改善分析中所用的加权因子和属性的质量。

权利要求 :

1.在电信网络中,一种用于检测垃圾消息的方法,包括如下步骤:存储潜在消息的每一属性的动态变化加权因子、严重性指数和严重性程度阈值;

存储可疑垃圾消息;

得出所存储垃圾消息的属性;

计算每一属性的出现次数、其加权因子和其严重性指数的乘积;

从乘积形成分布式垃圾消息概况模式;

判断是否有任意单个严重性指数超过其严重性程度阈值;

确定是否有严重性指数的任意模式超过了阈值;以及如果超过上述任一阈值,则把消息归类为垃圾消息。

2.根据权利要求1所述的方法,其中可响应于来自业务部门的消息而改变属性的加权因子。

3.在电信网络中,一种用于检测垃圾消息的设备,包括:用于存储潜在消息的每一属性的动态变化加权因子、严重性指数和严重性程度阈值的装置;

用于存储可疑垃圾消息的装置;

用于得出所存储垃圾消息的属性的装置;

用于计算每一属性的出现次数、其加权因子和其严重性指数的乘积的装置;

用于从乘积形成分布式垃圾消息概况模式的装置;

用于判断是否有任意单个严重性指数超过其严重性程度阈值的装置;

用于确定是否有严重性指数的任意模式超过了阈值的装置;以及用于在超过上述任一阈值的情况下把消息归类为垃圾消息的装置。

4.根据权利要求3所述的设备,还包括:用于响应于来自业务部门的消息而改变属性的加权因子的装置。

说明书 :

基于消息内容的无用消息(垃圾消息)检测

技术领域

[0001] 本发明涉及基于消息内容检测垃圾消息(spam)的方法。

背景技术

[0002] 随着因特网的出现,发送者容易以极低的成本或没有成本地将消息发送到大量的目的地。这些信息包括短消息业务的短消息。这些消息包括令消息接收者讨厌的未经请求的和不想要的消息(垃圾消息),接收者必须将这些消息清理并确定它们是否重要。此外,它们对用于发送这些消息的电信网络的载体也是个麻烦,不仅因为它们带来了与那些恼怒于垃圾消息泛滥的客户之间的客户关系问题,而且因为通常毫无收益的这些消息占用了网络资源。以下两个统计量说明了这个问题的严重性。在中国,2003年,通过中国电信网络发送了两万亿条短消息业务(SMS)消息;在这些消息中,估计四分之三为垃圾消息。第二个统计量是在美国估计有85-90%的电子邮件为垃圾消息。
[0003] 已经提出了多种方案且许多方案被实现用于删减发送的垃圾消息的数量。已经提出了各种方案用于在发送消息之前对其进行分析。依据一种方案,如果主叫方不是由被叫方指定的预选组中的一个,则该消息被阻塞。还可以通过允许被叫方指定消息不能发往超过多于N个目的地来拦截垃圾消息信息。
[0004] 被叫方可以拒绝公开他/她的电话号码或者电子邮件地址。除了不允许主叫查询被叫方的电话号码或者电子邮件地址这个明显缺点之外,这些方案可能不能达到预期效果。精明的电脑黑客可以从IP网络检测到未登记的(unlisted)电子邮件地址,例如,通过在路由器上监视消息头部。未登记的被叫号码只不过引起主叫发送消息到一个局名代码的10000个电话号码;如上所提及的,利用当前方案非常容易发送消息到多个目的地。
[0005] 在较为隐蔽的垃圾消息当中,有些消息是一些令人不快的消息,这些消息用于色情目的或给收件人带来一些无用广告。通常只能通过检查消息的内容才能拦截这些消息,因为发件人可能从同一源发送许多无害消息。垃圾消息检测的主要问题在于基于消息内容检测垃圾消息的问题。

发明内容

[0006] 根据申请人的发明可以减轻上述问题并改进现有技术,其中:针对某些属性(比如关键字)的存在和这些属性的出现频率,对可疑消息进行分析;每一属性(property)都被赋予一个适当的垃圾消息指数,一个几乎静态并且是预定和提供的量,以及一个动态变化的取决于业务量和消息/内容类型的加权因子。检查消息中是否存在其使用频率超过阈值的任何属性、其组合使用超过阈值的属性预定组合以及其组合使用超过阈值的所有属性。根据申请人的发明的一个特征,可以通过分析人员动态调整每一属性的加权因子,以匹配可疑消息的检查结果。最好,通过使用分析人员,检测过程可以学习。

附图说明

[0007] 图1示出了申请人的发明的操作;和
[0008] 图2是说明申请人的发明的流程图。

具体实施方式

[0009] 图1示出了申请人的发明的操作。源1想向目标2发送消息。消息被发送到网络3,网络3认为该消息可能是垃圾消息,但它需要对消息内容进行分析才能作出判断。网络
3将消息传送到消息分析器10。如果消息分析器断定该消息不是垃圾消息,则,通过网络4将消息发送到目标2。
[0010] 消息分析器10包括属性的列表数据14、每一属性的严重性指数、每一严重性指数的加权因子和属性的严重性程度阈值。
[0011] 垃圾消息属性是作为垃圾消息的一种可能指示器的单词、短语、句子、图像或视频片断。单词“madam”是一个例子。对于出现在消息中的每一属性,可以计算出属性的出现次数、严重性指数和加权因子的乘积,以得出严重性程度。严重性程度用来判断是否把消息看作是垃圾消息。
[0012] 严重性指数和严重性阈值保持相对不变,但加权因子可以响应于在业务部门检测到特殊问题区域(以增大加权因子)或者很少有垃圾消息活动的区域(以减小加权因子),根据来自垃圾消息业务部门15的消息而改变。
[0013] 消息分析器取出消息的内容,并搜索预存的属性,比如单词“madam”和“lovers”。对于每一预存的属性,都有一个加权因子用来指示在达到某一严重性程度时这一属性有多大权重。其严重性程度超过预定阈值的消息被阻止并可以被存储以便进一步进行人工分析。
[0014] 图2是说明申请人的垃圾消息检查的操作的流程图。到来的消息被接收和缓冲,以便进行垃圾消息分析(操作块201)。得到垃圾消息列表数据,以便计算消息的属性的垃圾消息严重性指数(操作块203)。垃圾消息分析返回消息的消息属性的垃圾消息严重性指数(操作块205)。业务逻辑用每一属性的严重性指数来填充电子数据表,并得出分布式垃圾消息严重性指数概况模式(操作块207)。测试209检查是否有任意单个属性严重性指数超过了该属性的阈值。如果有任意一个属性严重性指数超过了该限制,则进入操作块221(将在后面描述)。否则,进入测试211,检查是否有严重性指数的任意模式超过了阈值。
如果有任意一个模式超过了该模式的阈值,则进入操作块221。否则,利用所有属性或其严重性指数超过了阈值的所有属性计算出聚集垃圾消息严重性指数(操作块213)。如果聚集指数超过了上限阈值(测试215),则消息是黑色的。如果它小于下限阈值(测试216),则消息是白色的。对于其他消息,利用测试217来判断是否应对消息进行人工分析。如果不进行人工分析,则将消息中继到其目标(操作块223)。如果已选中对它进行人工分析,则将消息发送到业务部门(操作块218)。人工检查结果(测试219)将判定是令人满意的结果从而将消息转发(操作块223),还是不令人满意的结果从而把消息看作是垃圾消息并执行操作块221的功能。
[0015] 操作块221存储垃圾消息,必要时存储通过人工检查得到的更新的垃圾消息过滤器和规则业务数据库,并更新垃圾消息严重性加权因子和指数上限,必要时还要增加新的分布式垃圾消息模式。
[0016] 以上所述是申请人的发明的一种优选实施方式。在不背离本发明的范围的前提下,普通技术人员显然可以得到其他实施方式。本发明只能由附属权利要求书来限定。