垃圾短信的识别方法、装置和具有该装置的移动通信终端转让专利

申请号 : CN201210275157.6

文献号 : CN102801859B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈伟

申请人 : 陈伟

摘要 :

本发明公开了一种垃圾短信的识别方法、识别装置和具有该装置的移动通信终端。该识别方法包括:提取短信的短信内容;匹配短信内容与预设的正则表达式;以及当短信内容与预设的正则表达式匹配成功时,确定短信为垃圾短信,能够提高垃圾短信的识别准确度,从而能够有效屏蔽垃圾短信。

权利要求 :

1.一种垃圾短信的识别方法,其特征在于,包括: 提取短信的短信内容;

匹配所述短信内容与预设的正则表达式;以及

当所述短信内容与所述预设的正则表达式匹配成功时,确定所述短信为垃圾短信, 在提取短信的短信内容之前,所述方法还包括: 提取所述短信的来信号码;

判断所述来信号码是否满足预设的号码过滤条件, 其中,提取短信的短信内容包括:当所述来信号码不满足所述预设的号码过滤条件时,提取所述短信的短信内容, 判断所述来信号码是否满足所述预设的号码过滤条件包括:判断所述来信号码中是否包含国家代码;若包含所述国家代码,则判断去掉所述国家代码后的号码长度是否满足预设垃圾短信号码长度规则,若不包含国家代码,则判断所述来信号码长度是否满足所述预设垃圾短信号码长度规则;当去掉所述国家代码后的号码长度或不包含所述国家代码的所述来信号码长度满足所述预设垃圾短信号码长度规则,确定所述来信号码满足所述预设的号码过滤条件。

2.根据权利要求1所述的垃圾短信的识别方法,其特征在于,所述预设的正则表达式包括第一正则表达式和第二正则表达式,其中,匹配所述短信内容与预设的正则表达式,当所述短信内容与所述预设的正则表达式匹配成功时,确定所述短信为垃圾短信包括: 匹配所述短信内容与所述第一正则表达式; 当所述短信内容与所述第一正则表达式匹配成功时,确定所述短信为垃圾短信; 当所述短信内容与所述第一正则表达式匹配失败时,匹配所述短信内容与所述第二正则表达式;以及 当所述短信内容与所述第二正则表达式匹配成功时,确定所述短信为垃圾短信。

3.根据权利要求1所述的垃圾短信的识别方法,其特征在于,所述预设的正则表达式包括以下任意一个或多个正则表达式: 用于匹配手机号码的正则表达式;

用于匹配固定电话的电话号码的正则表达式;

用于匹配银行账号的正则表达式;

用于匹配网址URL的正则表达式;

用于匹配IP地址的正则表达式;以及

用于匹配网络ID号的正则表达式。

4.根据权利要求1所述的垃圾短信的识别方法,其特征在于,匹配所述短信内容与预设的正则表达式包括: 将所述短信内容中与阿拉伯数字发音相同的文字转换为对应的阿拉伯数字,得到转换内容; 匹配所述转换内容与所述预设的正则表达式。

5.根据权利要求1至4中任一项所述的垃圾短信的识别方法,其特征在于,在提取短信的短信内容之前,所述方法还包括: 提取所述短信的来信号码;以及

根据所述来信号码判断所述短信是否为陌生短信, 其中,提取短信的短信内容包括:当所述短信为陌生短信时,提取所述短信的短信内容。

6.根据权利要求5所述的垃圾短信的识别方法,其特征在于,根据所述来信号码判断所述短信是否为陌生短信包括: 判断所述来信号码是否在联系人号码列表和通话历史记录中, 其中,当所述来信号码不在所述联系人号码列表和所述通话历史记录中时,所述短信为陌生短信。

7.一种垃圾短信的识别装置,其特征在于,包括: 提取模块,用于提取短信的短信内容和来信号码; 匹配模块,用于匹配所述短信内容与预设的正则表达式;以及 确定模块,用于当所述短信内容与所述预设的正则表达式匹配成功时,确定所述短信为垃圾短信, 所述识别装置还包括:

来信号码规则判定模块,用于判断所述来信号码中是否包含国家代码;若包含所述国家代码,则判断去掉所述国家代码后的号码长度是否满足预设垃圾短信号码长度规则,若不包含国家代码,则判断所述来信号码长度是否满足所述预设垃圾短信号码长度规则;当去掉所述国家代码后的号码长度或不包含所述国家代码的所述来信号码长度满足所述预设垃圾短信号码长度规则,确定包括所述来信号码的所述短信为垃圾短信; 短信归属地判定模块,用于判断所述来信号码是否在预设的接受区域内,当所述来信号码不属于所述预设的接受区域,确定包括所述来信号码的所述短信为垃圾短信,或用于判断所述来信号码是否在预设的拒绝区域内,当所述来信号码属于所述预设的拒绝区域,确定包括所述来信号码的所述短信为垃圾短信。

8.根据权利要求7所述的垃圾短信的识别装置,其特征在于,所述预设的正则表达式包括第一正则表达式和第二正则表达式,其中, 所述匹配模块包括:第一匹配子模块,用于匹配所述短信内容与所述第一正则表达式;

以及第二匹配子模块,用于当所述短信内容与所述第一正则表达式匹配失败时,匹配所述短信内容与所述第二正则表达式, 所述确定模块包括:第一确定子模块,用于当所述短信内容与所述第一正则表达式匹配成功时,确定所述短信为垃圾短信;以及第二确定子模块,用于当所述短信内容与所述第二正则表达式匹配成功时,确定所述短信为垃圾短信。

9.根据权利要求7所述的垃圾短信的识别装置,其特征在于,所述预设的正则表达式包括以下任意一个或多个正则表达式: 用于匹配手机号码的正则表达式;

用于匹配固定电话的电话号码的正则表达式;

用于匹配银行账号的正则表达式;

用于匹配网址URL的正则表达式;

用于匹配IP地址的正则表达式;以及

用于匹配网络ID号的正则表达式。

10.根据权利要求7所述的垃圾短信的识别装置,其特征在于,所述匹配模块包括: 转换子模块,用于将所述短信内容中与阿拉伯数字发音相同的文字转换为对应的阿拉伯数字,得到转换内容;以及 第三匹配子模块,用于匹配所述转换内容与所述预设的正则表达式。

11.一种移动通信终端,其特征在于,包括权利要求7至10中任一项所述的垃圾短信的识别装置。

说明书 :

垃圾短信的识别方法、装置和具有该装置的移动通信终端

技术领域

[0001] 本发明涉及通信领域,具体而言,涉及一种垃圾短信的识别方法、识别装置和具有该装置的移动通信终端。

背景技术

[0002] 据统计,中国手机用户数量达到数亿,网络调查有98.1%的手机用户被垃圾短信骚扰,58.2%的用户每日至少会收到1至3条垃圾短信,19.6%用户每天会收到3至5条垃圾短信。虽然整治垃圾短信的方法层出不穷,但始终无法杜绝垃圾短信的传播。
[0003] 目前,垃圾短信过滤一般都是采用预设的关键词匹配过滤,这种方法需要采集大量的垃圾短信样本,从中抽取出敏感关键词建立关键词词库进行过滤。
[0004] 在上述方法中存在很多问题,第一,需要维护大量的关键词词库,需要有垃圾短信样本来采集关键词。第二,词库还需要不断更新补充,产生新的垃圾短信时,要采集新的垃圾短信关键词。第三,发送方完全可以避开各种敏感关键词,采用各种手段规避掉关键词,如:在关键词中间穿插特殊字符,采用与关键词同音的汉字代替,这样不影响垃圾短信的可读性,收件人完全可以通过同音词猜测出短信的真实内容。总而言之,现有技术中的垃圾短信识别方法不能有效识别出垃圾短信。
[0005] 针对相关技术中垃圾短信处理方法屏蔽垃圾短信效果差的问题,目前尚未提出有效的解决方案。

发明内容

[0006] 本发明的主要目的在于提供一种垃圾短信的识别方法、识别装置和具有该装置的移动通信终端,以解决垃圾短信处理方法屏蔽垃圾短信效果差的问题。
[0007] 为了实现上述目的,根据本发明的一个方面,提供了一种垃圾短信的识别方法。
[0008] 根据本发明的垃圾短信的识别方法包括:提取短信的短信内容;匹配短信内容与预设的正则表达式;以及当短信内容与预设的正则表达式匹配成功时,确定短信为垃圾短信。
[0009] 进一步地,预设的正则表达式包括第一正则表达式和第二正则表达式,其中,匹配短信内容与预设的正则表达式,当短信内容与预设的正则表达式匹配成功时,确定短信为垃圾短信包括:匹配短信内容与第一正则表达式;当短信内容与第一正则表达式匹配成功时,确定短信为垃圾短信;当短信内容与第一正则表达式匹配失败时,匹配短信内容与第二正则表达式;以及当短信内容与第二正则表达式匹配成功,确定短信为垃圾短信。
[0010] 进一步地,预设的正则表达式包括以下任意一个或多个正则表达式:用于匹配手机号码的正则表达式;用于匹配固定电话的电话号码的正则表达式;用于匹配银行账号的正则表达式;用于匹配网址URL的正则表达式;用于匹配IP地址的正则表达式;以及用于匹配网络ID号的正则表达式。
[0011] 进一步地,匹配短信内容与预设的正则表达式包括:将短信内容中与阿拉伯数字发音相同的文字转换为对应的阿拉伯数字,得到转换内容;匹配转换内容与预设的正则表达式。
[0012] 进一步地,在提取短信的短信内容之前,该方法还包括:提取短信的来信号码;以及根据来信号码判断短信是否为陌生短信,其中,提取短信的短信内容包括:当短信为陌生短信时,提取短信的短信内容。
[0013] 进一步地,根据来信号码判断短信是否为陌生短信包括:判断来信号码是否在联系人号码列表和通话历史记录中,其中,当来信号码不在联系人号码列表和通话历史记录中时,该短信为陌生短信。
[0014] 进一步地,在提取短信的短信内容之前,该方法还包括:提取短信的来信号码;判断来信号码是否满足预设的号码过滤条件,其中,提取短信的短信内容包括:当来信号码不满足预设的号码过滤条件时,提取短信的短信内容。
[0015] 为了实现上述目的,根据本发明的另一方面,提供了一种垃圾短信的识别装置,该识别装置用于执行上述本发明所提供的任一种垃圾短信的识别方法。
[0016] 为了实现上述目的,根据本发明的另一方面,提供了一种垃圾短信的识别装置,包括:提取模块,用于提取短信的短信内容;匹配模块,用于匹配短信内容与预设的正则表达式;以及确定模块,用于当短信内容与预设的正则表达式匹配成功时,确定短信为垃圾短信。
[0017] 进一步地,预设的正则表达式包括第一正则表达式和第二正则表达式,其中,匹配模块包括:第一匹配子模块,用于匹配短信内容与第一正则表达式;以及第二匹配子模块,用于当短信内容与第一正则表达式匹配失败时,匹配短信内容与第二正则表达式,确定模块包括:第一确定子模块,用于当短信内容与第一正则表达式匹配成功时,确定短信为垃圾短信;以及第二确定子模块,用于当短信内容与第二正则表达式匹配成功时,确定短信为垃圾短信。
[0018] 进一步地,预设的正则表达式包括以下任意一个或多个正则表达式:用于匹配手机号码的正则表达式;用于匹配固定电话的电话号码的正则表达式;用于匹配银行账号的正则表达式;用于匹配网址URL的正则表达式;用于匹配IP地址的正则表达式;以及用于匹配网络ID号的正则表达式。
[0019] 进一步地,匹配模块包括:转换子模块,用于将短信内容中与阿拉伯数字发音相同的文字转换为对应的阿拉伯数字,得到转换内容;以及第三匹配子模块,用于匹配转换内容与预设的正则表达式。
[0020] 为了实现上述目的,根据本发明的再一方面,提供了一种移动通信终端,该移动通信终端包括本发明提供的任意一种垃圾短信的识别装置。
[0021] 通过本发明,采用包括以下步骤的垃圾短信的识别方法:提取短信的短信内容;匹配短信内容与预设的正则表达式;以及当短信内容与预设的正则表达式匹配成功时,确定短信为垃圾短信,能够提高垃圾短信的识别准确度,解决了垃圾短信处理方法屏蔽垃圾短信效果差的问题,进而达到了有效屏蔽垃圾短信的效果。

附图说明

[0022] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0023] 图1是根据本发明第一实施例的垃圾短信的识别方法的流程图;
[0024] 图2是根据本发明第二实施例的垃圾短信的识别方法的流程图;
[0025] 图3是根据本发明第三实施例的垃圾短信的识别方法的流程图;
[0026] 图4是根据本发明第一实施例的垃圾短信的识别装置的框图;以及[0027] 图5是根据本发明第二实施例的垃圾短信的识别装置的框图。

具体实施方式

[0028] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0029] 图1是根据本发明第一实施例的垃圾短信的识别方法的流程图,如图1所示,该方法包括如下的步骤S102至步骤S106:
[0030] 步骤S102:提取短信的短信内容,得到短信内容文本。
[0031] 步骤S104:匹配短信内容与预设的正则表达式,其中,预设的正则表达式根据垃圾短信的短信内容特点设置,例如垃圾短信中一般会包括联系信息、账号信息等内容,通过预设的正则表达式来表示这一类内容,则通过该步骤即可实现短信内容与联系信息、账号信息等内容的匹配。
[0032] 步骤S106:当短信内容与预设的正则表达式匹配成功时,确定短信为垃圾短信,相应地,当短信内容与预设的正则表达式匹配失败时,确定短信为正常短信,也即,当短信内容中包括有联系信息、账号信息等信息时,将该短信确定为垃圾短信。
[0033] 采用该实施例提供的垃圾短信的识别方法,通过预设正则表达式与短信内容匹配的方式过滤短信,与现有技术中预设关键词过滤的方法相比,极大地增加了过滤密度,从而能够更加准确的识别垃圾短信,从而有效地屏蔽垃圾短信。
[0034] 图2是根据本发明第二实施例的垃圾短信的识别方法的流程图,如图2所示,包括以下几个步骤:
[0035] 步骤(1):当有新短信时,提取出短信的详细内容,包括短信的来信号码和短信内容。
[0036] 步骤(2):根据短信的来信号码判断短信是否为陌生短信,优选地,判断来信号码是否在联系人号码列表和通话历史记录中,若在联系人号码列表和通话历史记录中均不存在该来信号码,则将该短信视为陌生短信,若在联系人号码列表或通话历史记录中存在该来信号码,则将该短信视为正常短信,不做后续处理。通过该步骤,在判断是否为垃圾短信之前,首先对短信来源进行判定,能够避免将用户联系人发送的短信作为垃圾短信。
[0037] 步骤(3):若短信为陌生短信时,判断短信的来信号码是否满足预设的号码过滤条件,当来信号码满足预设的号码过滤条件,则直接将该短信视为垃圾短信,结束短信识别过程。从而能够将所有满足号码过滤条件的陌生短信均视为垃圾短信。
[0038] 优选地,可采用如下的任一种或者同时采用如下的两种方式实现步骤(3):
[0039] 第一:判断来信号码是否在预设的拒绝区域内,当来信号码属于预设的拒绝区域,说明来信号码满足预设的号码过滤条件,则将该短信视为垃圾短信,其中,预设的拒绝区域可以包括一个或多个区域。通过该方式,能够进一步增加垃圾短信识别方法的灵活性,可根据用户需要自动将固定来源区域的短信视为垃圾短信。
[0040] 第二:判断来信号码是否在预设的接受区域内,当来信号码不属于预设的接受区域,说明来信号码满足预设的号码过滤条件,则将该短信视为垃圾短信,其中,预设的接受区域可以包括一个或多个区域。通过该方式,能够进一步增加垃圾短信识别方法的灵活性,可根据用户需要自动将除固定来源区域之外的所有陌生短信均视为垃圾短信。
[0041] 第三:首先判断来信号码中是否包含国家代码,若包含国家代码,如:+86,则将来信号码中的国家代码去掉,进一步判断去掉国家代码后的号码长度是否满足预设垃圾短信号码长度规则,若不包含国家代码,则直接判断来信号码长度是否满足预设垃圾短信号码长度规则,如:设置预设垃圾短信号码长度规则为号码长度超过X位视为垃圾短信,当去掉国家代码后的号码长度或不包含国家代码的来信号码长度满足预设垃圾短信号码长度规则,说明来信号码满足预设的号码过滤条件,则将该短信视为垃圾短信。通过该方式,能够进一步将来信号码不满足正常通信号码长度规则的短信视为垃圾短信,增加了垃圾短信过滤强度,例如,能够将来信号码为非移动电话号码的短信视为垃圾短信。
[0042] 步骤(4):当来信号码不满足预设的号码过滤条件,将短信文本内容逐一与预设的多个正则表达式进行匹配,若其中任一表达式匹配成功,则视为垃圾短信,否则将此短信视为正常短信。
[0043] 采用该实施例提供垃圾短信的识别方法,将短信内容与用于表示银行账号和联系方式等信息的正则表达式进行匹配,只要匹配成功,即可说明短信内容中存在银行账号或联系方式的内容,从而能够将携带银行账号、联系方式等内容的陌生人短信判断为垃圾短信,解决了预设海量关键词的问题,有效地屏蔽垃圾短信。此外,在进行短信内容识别前,进行号码过滤条件判断,包括号码来源地、号码长度规则等,使得垃圾短信识别方法更加灵活,满足用户的个性化要求。
[0044] 需要说明的是,上述的步骤(3)与步骤(2)可互换执行顺序。
[0045] 优选地,在上述的步骤(4)中,根据预设的多个正则表达式逐一进行匹配时,只要与一个正则表达式匹配成功后便停止匹配,将此短信视为垃圾短信,当与一个正则表达式匹配失败时,进行下一个正则表达式的匹配,直至所有正则表达式匹配结束。
[0046] 优选地,预设的多个正则表达式包括以下任意一个或多个正则表达式:
[0047] 匹 配 Email 地 址 的 正 则 表 达 式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*;
[0048] 匹配网址URL的正则表达式:[a-zA-z]+://[^\s]+;
[0049] 匹配链接的正则表达式:[\w](.[\w])+;
[0050] 匹配带区号固定电话号码的正则表达式:(\d{3,4})?-?\d{7,8};
[0051] 匹配不带区号固定电话号码的正则表达式:\d{7,8};
[0052] 匹配11位手机号码的正则表达式一:\d{11};
[0053] 用于匹配11位手机号码的正则表达式二:[1-9][0-9]{10};
[0054] 匹配腾讯QQ号的正则表达式:[1-9][0-9]{4,};
[0055] 匹配银行账号的正则表达式:\d{16,19};
[0056] 匹配ip地址的正则表达式:\d{1,3}(.\d{1,3}){3}。
[0057] 需要说明的是,上述列举的正则表达式的形式仅仅是举例说明,本发明不限于此,正则表达式可以有多种写法。
[0058] 进一步优选地,在上述步骤(4)中,所列举的正则表达式是针对正常情况下利用阿拉伯数字表示的各种号码,除此之外,还存在以各种手段规避被数字表达式识别的垃圾短信,如:在阿拉伯表示的号码中间穿插特殊字符,如:在电话号码中添加空格或其他字符、在银行账号中间以空格间隔等形式,均可以采用更复杂的正则表达式迅速高效的进行匹配,以识别变形的垃圾短信。
[0059] 优选地,预设的多个匹配规避手段正则表达式包括以下任意一个或多个正则表达式:
[0060] 匹配穿插间隔符的电话号码的正则表达式一:\d(\D*\d){6,7};
[0061] 匹配穿插间隔符的电话号码的正则表达式二:\d(\D?\d){6,7};
[0062] 匹配穿插间隔符带区号的电话号码的正则表达式三:\d(\D?\d){9,11};
[0063] 匹配穿插间隔符的手机号码的正则表达式一:\d(\D?\d){10};
[0064] 匹配穿插间隔符的手机号码的正则表达式二:\d(\D*\d){10};
[0065] 匹配穿插间隔符银行账号的正则表达式:\d(\D?\d){15,18}。
[0066] 进一步优选地,为了避免垃圾短信中用与阿拉伯数字发同音或相似发音的汉字表示数字而得不到有效屏蔽时,在步骤(4)中,采用如图3所示的步骤实现短信内容与预设正则表达式的匹配,具体地,首先将短信文本内容中与阿拉伯发同音的汉字转换成阿拉伯数字,然后再将转换后的内容与正则表达式匹配,匹配成功则将此短信视为垃圾短信,否则,短信为正常短信。
[0067] 本发明实施例还提供了垃圾短信的识别装置,以下对本发明实施例所提供的垃圾短信的识别装置进行介绍。需要说明的是,在本发明实施例的垃圾短信的识别方法可以通过本发明实施例所提供的垃圾短信的识别装置来执行,本发明实施例的垃圾短信的识别装置也可以用于执行本发明实施例所提供的垃圾短信的识别方法。
[0068] 图4是根据本发明第一实施例的垃圾短信的识别装置的框图,如图4所示,该垃圾短信的识别装置包括提取模块20、匹配模块40和确定模块60。
[0069] 提取模块20用于提取短信的短信内容,得到短信内容文本。匹配模块40用于匹配短信内容与预设的正则表达式,其中,预设的正则表达式根据垃圾短信的短信内容特点设置,例如垃圾短信中一般会包括联系信息、账号信息等内容,通过预设的正则表达式来表示这一类内容,则通过该步骤即可实现短信内容与联系信息、账号信息等内容的匹配。确定模块60用于当短信内容与预设的正则表达式匹配成功时,确定短信为垃圾短信,相应地,当短信内容与预设的正则表达式匹配失败时,确定短信为正常短信,也即,当短信内容中包括有联系信息、账号信息等信息时,将该短信确定为垃圾短信。
[0070] 采用该实施例提供的垃圾短信的识别装置,通过预设正则表达式与短信内容匹配的方式过滤短信,与现有技术中预设关键词过滤的方法相比,极大地增加了过滤密度,从而能够更加准确的识别垃圾短信,从而有效地屏蔽垃圾短信。
[0071] 图5是根据本发明第二实施例的垃圾短信的识别装置的框图,如图5所示,该垃圾短信的识别装置包括短信提取模块、陌生人短信判定模块、来信号码规则判定模块、短信归属地判定模块和正则表达式匹配模块。
[0072] 当有新短信时,短信提取模块提取出短信的详细内容,包括短信的来信号码、短短信内容。
[0073] 在短信提取模块提取出短信的详细内容后,陌生人短信判定模块根据短信的来信号码判断短信是否为陌生短信,优选地,陌生人短信判定模块判断来信号码是否在联系人号码列表和通话历史记录中,若在联系人号码列表和通话历史记录中均不存在该来信号码,则将该短信视为陌生短信,若在联系人号码列表或通话历史记录中存在该来信号码,则将该短信视为正常短信,不做后续处理。通过陌生人短信判定模块,在判断是否为垃圾短信之前,首先对短信来源进行判定,能够避免将用户联系人发送的短信作为垃圾短信。
[0074] 当陌生人短信判定模块确定该短信为陌生短信后,来信号码规则判定模块首先判断来信号码中是否包含国家代码,若包含国家代码,如:+86,则将来信号码中的国家代码去掉,进一步判断去掉国家代码后的号码长度是否满足预设垃圾短信号码长度规则,若不包含国家代码,则直接判断来信号码长度是否满足预设垃圾短信号码长度规则,如:设置预设垃圾短信号码长度规则为号码长度超过X位视为垃圾短信,当去掉国家代码后的号码长度或不包含国家代码的来信号码长度满足预设垃圾短信号码长度规则,则将该短信视为垃圾短信。通过该来信号码规则判定模块,能够进一步将来信号码不满足正常通信号码长度规则的短信视为垃圾短信,增加了垃圾短信过滤强度,例如,能够将来信号码为非移动电话号码的短信视为垃圾短信。
[0075] 若来信号码规则判定模块确定来信号码不满足预设垃圾短信号码长度规则,则短信归属地判定模块判断来信号码是否在预设的拒绝区域内,当来信号码属于预设的拒绝区域,则直接将该短信视为垃圾短信,结束短信识别过程,其中,预设的拒绝区域可以包括一个或多个区域;或者,判断来信号码是否在预设的接受区域内,当来信号码不属于预设的接受区域,则直接将该短信视为垃圾短信,结束短信识别过程,从而能够将所有异地陌生短信均视为垃圾短信。通过短信归属地判定模块,能够进一步增加垃圾短信识别方法的灵活性,可根据用户需要自动将来源为部分区域的短信视为垃圾短信。
[0076] 若短信归属地判定模块度确定来信号码不属于预设的拒绝区域,或者来信号码属于预设的接受区域时,正则表达式匹配模块将短信提取模块提取出的短信内容与预设的正则表达式进行匹配,该处的预设正则表达式可依据垃圾短信的特征进行设置,例如常见的八大类诈骗垃圾短信:提供sim卡无卡复制型、直接汇款型、换账号汇款型、满世界喊爹妈型、银联卡被盗用消费型、高薪招聘型、提供低息贷款型和抽中大奖型,短信的具体内容具有以下共性:具有银行账号或联系方式,其中,联系方式又包括固定电话号码、移动电话号码、网址、邮箱地址、即时通讯工具号码等信息,因而,将预设正则表达式设置为表示银行账号或联系方式的规则,当匹配成功时,说明该短信的短信内容中存在银行账号或联系方式,属于垃圾短信,当匹配失败时,说明该短信是正常短信。
[0077] 采用该实施例提供垃圾短信的识别装置,首先通过短信提取模块提取短信的详细信息,然后通过各种判定模块对提取到的信息进行判断,以灵活地满足用户的个性化要求。当各种判定模块均未将短信判定为垃圾短信,且该短信为陌生人短信时,正则表达式匹配模块将短信内容与预设的正则表达式进行匹配,从而能够将携带银行账号、联系方式等内容的陌生人短信判断为垃圾短信,解决了预设海量关键词的问题,有效地屏蔽垃圾短信。
[0078] 优选地,预设的正则表达式包括多个正则表达式,正则表达式匹配模块将短信文本内容逐一与多个正则表达式进行匹配,只要与一个正则表达式匹配成功后便停止匹配,将此短信视为垃圾短信,当与一个正则表达式匹配失败时,进行下一个正则表达式的匹配,直至所有正则表达式匹配结束。
[0079] 其中,预设的多个正则表达式包括上文中,在识别方法实施例描述中的任意几个正则表达式,该处不再赘述。
[0080] 进一步优选地,为了避免垃圾短信中用与阿拉伯数字发同音或相似发音的汉字表示数字而得不到有效屏蔽时,正则表达式匹配模块包括转换子模块和匹配子模块,其中,转换子模块用于将短信内容中与阿拉伯数字发同音的文字转换为相应的阿拉伯数字,得到转换内容,匹配子模块将转换内容与正则表达式匹配,当转换内容与正则表达式匹配成功是,说明正则表达式匹配模块匹配成功。
[0081] 本发明实施例所提供的任意一种垃圾短信的识别装置可设置于移动通信终端,也可设置于通信公司的短信中心部署,当识别装置设置于短信中心部署时,为了便于陌生人短信的判断,可在短信中心建立号码通话历史列表,通过通话历史列表识别是否是陌生人短信。
[0082] 从以上的描述中,可以看出,本发明实现了如下技术效果:提高了垃圾短信的识别准确度,从而有效地屏蔽了垃圾短信。
[0083] 需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0084] 显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0085] 以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。