一种终端类型识别方法、装置、电子设备及存储介质转让专利
申请号 : CN201810875847.2
文献号 : CN109361529B
文献日 : 2022-03-18
发明人 : 郑金珠
申请人 : 锐捷网络股份有限公司
摘要 :
权利要求 :
1.一种终端类型识别方法,其特征在于,包括:获取接入网络中的未识别终端的终端属性信息,所述终端属性信息包括:用户信息、上网行为信息、上网设备信息和用户坐标信息中的至少一种;
根据所述终端属性信息确定至少一组影响因子;
根据所述影响因子和预先训练的贝叶斯分类器,确定所述未识别终端的终端类型。
2.根据权利要求1所述的方法,其特征在于,所述获取接入网络中的未识别终端的终端属性信息,包括:
接收接入设备发送的携带接入终端信息的请求报文;
解析所述请求报文,判断所述接入终端是否为未识别终端;
若所述接入终端为未识别终端,则根据所述请求报文确定所述未识别终端的终端属性信息;
若未获取到所述未识别终端的终端属性信息,则向所述接入设备发送获取所述未识别终端的终端属性信息的探测报文;
接收所述接入设备发送的所述探测报文对应的响应报文;
根据所述响应报文,确定所述未识别终端的终端属性信息。
3.根据权利要求1所述的方法,其特征在于,所述贝叶斯分类器根据以下步骤确定:根据已识别终端的终端类型Ci,确定有类标训练集T,其中所述有类标训练集T中,每个终端类型Ci对应的终端数量相同,其中i∈[1,N],N为终端类型数;
获取所述有类标训练集T中每个终端的终端属性信息,并根据所述终端属性信息确定每个终端的至少一组影响因子wj,其中j∈[1,K],K为影响因子组数;
令所述有类标训练集T每个终端d对应的P(Ci|d)的期望值为所述已识别终端的终端类型Ci,其中P(Ci|d)为Ci类的后验概率;
根据公式(1)和公式(2)确定每组影响因子wj对应的子分类器:P(Ci|d)=argmax{P(d|Ck)P(Ck)},k∈[1,N] 公式(1)其中,P(d|Ck)为终端d属于Ci类的条件概率,P(Ck)为Ci类的先验概率,P(wj|Ck)为分类器预测影响因子wj在类Ci的行为中发生的概率;
根据所述子分类器确定贝叶斯分类器。
4.根据权利要求3所述的方法,其特征在于,所述根据已识别终端的终端类型Ci,确定有类标训练集T,还包括:
根据未识别终端,确定无类标训练集D,其中所述无类标训练集D的终端数量大于所述有类标训练集T的终端数量;
相应地,所述根据公式(1)和公式(2)确定每组影响因子wj对应的子分类器,包括:根据E步骤和M步骤确定每组影响因子wj对应的子分类器:M步骤:对有类标训练集T中的每个终端d,根据公式(2)计算每组影响因子对每个终端类型Ci最大概率估计P(wj|Ci),确定子分类器;
E步骤:根据所述子分类器和公式(2)确定所述无类标训练集D中每个终端的终端类型,将所述终端加入至有类标训练集T中,重新执行M步骤,直至收敛。
5.根据权利要求4所述的方法,其特征在于,所述根据E步骤和M步骤确定每组影响因子wj对应的子分类器,包括:
统计所述无类标训练集D中每个终端在预设周期内的移动性值;
根据所述移动性值确定所述无类标训练集D中每个终端的第一终端类型;
令所述E步骤中,每个子分类器的初始权重等于1;
根据所述第一终端类型和每个所述子分类器确定的所述终端的第二终端类型,确定每个子分类器的分类结果是否错误;
若分类结果错误,则令所述子分类器的权重小于1;
根据更新后的权重重新执行M步骤,直至收敛;
获取收敛后的M步骤确定的每组影响因子wj对应的子分类器和权重;
相应地,所述根据所述子分类器确定贝叶斯分类器,包括:根据收敛后的M步骤确定的每组影响因子wj对应的子分类器和权重,确定贝叶斯分类器。
6.根据权利要求4所述的方法,其特征在于,所述根据所述子分类器确定贝叶斯分类器,包括:
统计所述无类标训练集D中每个终端在预设周期内的移动性值;
根据所述移动性值确定所述无类标训练集D中每个终端的第一终端类型;
根据所述第一终端类型和每个所述子分类器确定的所述终端的第二终端类型,确定每种分类器组合Zi的第一识别正确率,其中i∈[1,L],Zi表示包括i个子分类器的分类器组合,L为子分类器的个数;
步骤a、若所述分类器组合Zi中多种分类器组合的第一识别正确率相同,则获取所述多种分类器组合中子分类器个数的最大值N1;
步骤b、若所述最大值N1大于1,则计算每个子分类器Ri的第二识别正确率,其中i∈[1,L],否则将所述最大值N1对应的子分类器作为最优子分类器;
步骤c、若所述第二识别正确率的最大值对应的子分类器数N2大于1,则令i∈[1,L‑1],继续执行步骤c,否则,将所述最大值N2对应的子分类器作为最优子分类器;
令所述最优子分类器的权重大于其他子分类器的权重;
根据每个子分类器和其对应的权重,确定贝叶斯分类器。
7.一种终端类型识别装置,其特征在于,包括:获取模块,用于获取接入网络中的未识别终端的终端属性信息,所述终端属性信息包括:用户信息、上网行为信息、上网设备信息和用户坐标信息中的至少一种;
数字化模块,用于根据所述终端属性信息确定至少一组影响因子;
识别模块,用于根据所述影响因子和预先训练的贝叶斯分类器,确定所述未识别终端的终端类型。
8.根据权利要求7所述的装置,其特征在于,所述获取模块包括:第一接收单元,用于接收接入设备发送的携带接入终端信息的请求报文;
解析判断单元,用于解析所述请求报文,判断所述接入终端是否为未识别终端;
第一获取单元,用于若所述接入终端为未识别终端,则根据所述请求报文确定所述未识别终端的终端属性信息;
发送单元,用于若未获取到所述未识别终端的终端属性信息,则向所述接入设备发送获取所述未识别终端的终端属性信息的探测报文;
第二接收单元,用于接收所述接入设备发送的所述探测报文对应的响应报文;
第二获取单元,用于根据所述响应报文,确定所述未识别终端的终端属性信息。
9.根据权利要求7所述的装置,其特征在于,还包括:训练模块,所述训练模块包括:
训练集确定单元,用于根据已识别终端的终端类型Ci,确定有类标训练集T,其中所述有类标训练集T中,每个终端类型Ci对应的终端数量相同,其中i∈[1,N],N为终端类型数;
第三获取单元,用于获取所述有类标训练集T中每个终端的四元组属性信息,并根据所述终端属性信息确定每个终端的至少一组影响因子wj,其中j∈[1,K],K为影响因子组数;
赋值单元,用于令所述有类标训练集T每个终端d对应的P(Ci|d)的期望值为所述已识别终端的终端类型Ci,其中P(Ci|d)为Ci类的后验概率;
计算单元,用于根据公式(1)和公式(2)确定每组影响因子wj对应的子分类器:P(Ci|d)=argmax{P(d|Ck)P(Ck)},k∈[1,N] 公式(1)其中,P(d|Ck)为终端d属于Ci类的条件概率,P(Ck)为Ci类的先验概率,P(wj|Ck)为分类器预测影响因子wj在类Ci的行为中发生的概率;
分类器确定单元,用于根据所述子分类器确定贝叶斯分类器。
10.根据权利要求9所述的装置,其特征在于,所述训练集确定单元还用于:根据未识别终端,确定无类标训练集D,其中所述无类标训练集D的终端数量大于所述有类标训练集T的终端数量;
相应地,所述计算单元具体用于:根据E步骤和M步骤确定每组影响因子wj对应的子分类器:M步骤:对有类标训练集T中的每个终端d,根据公式(2)计算每组影响因子对每个终端类型Ci最大概率估计P(wj|Ci),确定子分类器;
E步骤:根据所述子分类器和公式(2)确定所述无类标训练集D中每个终端的终端类型,将所述终端加入至有类标训练集T中,重新执行M步骤,直至收敛。
11.根据权利要求10所述的装置,其特征在于,所述计算单元具体用于:统计所述无类标训练集D中每个终端在预设周期内的移动性值;
根据所述移动性值确定所述无类标训练集D中每个终端的第一终端类型;
令所述E步骤中,每个子分类器的初始权重等于1;
根据所述第一终端类型和每个所述子分类器确定的所述终端的第二终端类型,确定每个子分类器的分类结果是否错误;
若分类结果错误,则令所述子分类器的权重小于1;
根据更新后的权重重新执行M步骤,直至收敛;
获取收敛后的M步骤确定的每组影响因子wj对应的子分类器和权重;
相应地,所述分类器确定单元具体用于:根据收敛后的M步骤确定的每组影响因子wj对应的子分类器和权重,确定贝叶斯分类器。
12.根据权利要求10所述的装置,其特征在于,所述分类器确定单元具体用于:统计所述无类标训练集D中每个终端在预设周期内的移动性值;
根据所述移动性值确定所述无类标训练集D中每个终端的第一终端类型;
根据所述第一终端类型和每个所述子分类器确定的所述终端的第二终端类型,确定每种分类器组合Zi的识别正确率,其中i∈[1,L],Zi表示包括i个子分类器的分类器组合,L为子分类器的个数;
步骤a、若所述分类器组合Zi中多种分类器组合的识别正确率相同,则获取所述多种分类器组合中子分类器个数的最大值N1;
步骤b、若所述最大值N1大于1,则计算每个子分类器Ri的第二识别正确率,其中i∈[1,L],否则将所述最大值N1对应的子分类器作为最优子分类器;
步骤c、若所述第二识别正确率的最大值对应的子分类器数N2大于1,则令i∈[1,L‑1],继续执行步骤c,否则,将所述最大值N2对应的子分类器作为最优子分类器;
令所述最优子分类器的权重大于其他子分类器的权重;
根据每个子分类器和其对应的权重,确定贝叶斯分类器。
13.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一所述的方法。
说明书 :
一种终端类型识别方法、装置、电子设备及存储介质
技术领域
背景技术
Fidelity,高保真无线网络)接入网络的智能移动终端越来越多。识别加入网络的终端类
型,对网络管理者的业务开展有意义。比如在高校,学生一般有台式机,笔记本和智能手机,
都有上网需求。台式机通过传统的RJ45接口接入有线网络,智能手机通过WIFI接入无线网
络。笔记本可以通过RJ45接口或者WIFI接入。随着高校扩招,学生人数不断增多,而学校的
信息化建设水平,跟不上学生终端数量的增长,给学校出口带宽,网络运行都带来很大的压
力。通过识别用户的终端类型,控制上网终端的数量,是一种解决方法。
证和授权的厂家无权生产网卡。MAC OUI(Organizationally Unique Identifier,组织唯
一标识符)代表IEEE分配给各个厂商的公司ID,是MAC地址的前六位。通过MAC OUI,系统可
以判断终端设备的生产厂商。但是,该方案存在以下不足:识别不准确,一般只能识别到厂
商,无法识别出具体设备。终端厂商采购其他厂商的WIFI芯片进行组装,或多款终端采用统
一MAC地址段时,会降低相关终端识别率。
操作系统信息。通过识别用户发起DHCP请求中的Option字段,来确定终端的类型,其中比较
有效的方法是识别Option 55(Parameter Request List,参数请求表)和Option 60
(Vendor class identifier,厂商类标识符),相同系统采用的DHCP请求基本相同。但是这
种识别方法存在以下不足:识别不准确,一般只能识别到操作系统,无法识别出具体设备,
并且需要建立终端DHCP特征的库,数据库需要定期更新,此外有些有终端不上报DHCP
Option 60信息,会降低相关终端识别率。
于移动智能终端,各制造商通常在User‑Agent字段中提供设备的类型、型号、操作系统和制
造商信息。用户进行Web认证时,通过浏览器发出的HTTP请求中的User‑Agent字段识别用户
终端类型。User‑Agent字段一般会带上操作系统类型、版本,浏览器类型及版本信息,通过
这些,就可以识别用户终端类型。但是,有的终端只上报浏览器类型和操作系统的类型,不
上报终端类型,所以会导致识别不准确。
而且该码是全世界唯一的。IMEI由15位数字组成,其组成为:前6位数(TAC,Type
ApprovalCode)是“型号核准号码”,代表终端机型;后续2位(FAC,Final Assembly Code)是
“最后装配号”,代表产地;后续6位数是“串号”,代表生产顺序号;最后1位数SP为检验码。
IMEI识别中,一般根据IMEI TAC号与终端类型进行一一匹配,当匹配成功时,确认所述终端
为已识别类型终端,当未获取到IMEI码时,确认所述终端为未识别类型终端。然而,IMEI只
能识别手机终端,受IMEI影响,只能识别非山寨手机,无法区分PC用户。
发明内容
组合,L为子分类器的个数;
数;
数;
L为子分类器的个数;
方法:获取接入网络中的未识别终端的终端属性信息,所述终端属性信息包括:用户信息、
上网行为信息、上网设备信息和用户坐标信息中的至少一种;根据所述终端属性信息确定
至少一组影响因子;根据所述影响因子和预先训练的贝叶斯分类器,确定所述未识别终端
的终端类型。
端属性信息包括:用户信息、上网行为信息、上网设备信息和用户坐标信息中的至少一种;
根据所述终端属性信息确定至少一组影响因子;根据所述影响因子和预先训练的贝叶斯分
类器,确定所述未识别终端的终端类型。
过贝叶斯分类器进行深度学习,提高了终端类型识别率。
附图说明
明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根
据这些附图获得其他的附图。
具体实施方式
本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
记为未识别终端,获取未识别终端的终端属性信息,终端属性信息包括与未识别终端关联
的用户信息、上网行为信息、上网设备信息和用户坐标信息中的至少一种信息。例如,终端
属性信息包括用户信息、上网行为信息、上网设备信息和用户坐标信息的四元组属性信息,
或者终端属性信息包括上网行为信息、上网设备信息和用户坐标信息的三元组属性信息,
或者终端属性信息包括上网设备信息和用户坐标信息的二元组属性信息等。其中,用户信
息为与用户相关的基本信息,例如用户ID,上网行为信息为用户使用未识别终端进行上网
的具体上网信息,例如浏览网页URL等,上网设备信息为终端的MAC地址信息,用户坐标信息
为用户的位置信息。
认证,只有认证通过的用户才能联网,通过获取登录账号信息,就可以确定用户的基本信
息,例如,学生id,所在院系,一卡通数据,图书馆借阅数据等,之后在联网之后,获取上网行
为信息,例如,上网时段等信息,将上面这些信息作为四元组属性信息中的用户信息。终端
属性信息中的上网行为信息是指学生具体的上网行为信息,例如,浏览的网址,各个时间段
浏览信息,WIFI定位中的MAC地址信息等,上网行为信息属性判断用户是否在校、进行上网
沉迷与网络借贷及WIFI上网内容分析,上网设备信息属性主要包括设备MAC地址信息,实现
用户与WIFI定位信息中MAC地址的匹配,用户坐标信息是指用户的位置属性,以校园地图构
建坐标系,确定用户每个时刻的坐标信息,用户坐标信息属性提供了学生的位置移动信息,
判断是否在校,分析学校wifi使用情况,异常访客等。通过上述四种属性信息,一方面可以
从多个角度分析未识别终端的终端类型,另一方面,还可以通过识别对用户进行管理,提前
预防一些安全事件并辅助教学管理,例如,通过用户坐标信息可以避免人工点名的弊端。
user_name、用户性别sex、所在院系institute、专业major、年级grade、班级class和手机号
phone等参数信息;上网行为信息影响因子online_detail包括:用户名user_name和终端
MAC地址、登陆时间login_time、url访问日志和虚拟认证virtualid信息等参数信息;上网
设备信息影响因子auth_mac_info包括:用户身份user_id和WIFI定位中的MAC地址信息等
参数信息。将上面的参数信息用对应的数值表示,就可得到对应组的影响因子,例如将用户
信息影响因子表示为user_info(12123340,333,2,01,08,12,13,1300000000)。
单精度浮点型,小数点后保留6‑7位,Z代表立体,和坐标系有关的地图信息包括楼层ID(Map
ID)和区域ID(POI ID)。
最大外轮廓和图层范围相切,就形成了按地图坐标范围为0.0到1.0的坐标系。图2为本发明
实施例提供的地图坐标示意图,如图2所示,将地图信息转换为坐标系之后,就可将每个用
户的坐标信息属性数字化为坐标属性影响因子。
组属性信息时,经过数字化之后,可以得到三组影响因子。
因子之后,将这些影响因子作为贝叶斯分类器的输入值,就可确定未识别终端的终端类型,
由于通过大量训练集训练贝叶斯分类器,能够显著提高终端类型的识别率。此外,终端属性
信息中包括了丰富的用户信息,通过终端识别精准关注人群,解决考勤耗时费力不配合问
题,通过上网行为信息防止校园借贷,提前识别学生失联、朋友圈审计突发事件等,结合信
息化建设实现校园管理。
过贝叶斯分类器进行深度学习,提高了终端类型识别率。
格式封装为无线接入点控制和配置协议(Control And Provisioning of Wireless
Access Points Protocol Specification,CAPWAP)请求报文,即CAPWAP echo request报
文,通过CAPWAP隧道,发送至接入控制器(Access Control,AC),AC收到请求报文后,首先判
断终端设备是否为未识别终端,例如通过现有技术无法识别类型的终端确定为未识别终
端。
终端属性信息,包括用户信息、上网行为信息、上网设备信息或坐标信息。然后将终端属性
信息数字化,形成终端属性的影响因子,作为深度学习数据集,以该深度学习数据集作为基
于贝叶斯网络的终端类型识别的数据输入,通过预先训练的贝叶斯分类器,输出终端设备
的终端类型。
终端属性信息,AP接收到探测报文之后,获取终端设备的属性信息,通过CAPWAP隧道向AC发
送响应报文CAPWAP echo response,响应报文为CAPWAP协议的控制报文,图3为本发明实施
例提供的CAPWAP控制报文结构示意图,如图3所示,CAPWAP控制报文包括:IP报文头部,UDP
报文头部,CAPWAP报文头部,CAPWAP控制层和消息内容。CAPWAP协议基于IP和UDP协议之上,
消息内容由TLV格式表示,图4为本发明实施例提供的封装参数的消息内容格式示意图,包
含厂商信息,位置信息,STA相关自定义参数信息和AP运行信息,这些信息通过TLV格式封装
到CAPWAP报文中,并集成了CAPWAP隧道的优点,包括NAT(Network Address Translation,
网络地址转换)穿透性和安全特性。
据集,以该深度学习数据集作为基于贝叶斯网络的终端类型识别的数据输入,通过预先训
练的贝叶斯分类器,输出终端设备的终端类型。
性和参数,提取终端属性信息。或者当AC获取到终端设备的MAC地址信息起开始计时,到达
周期T时长之后,AC向AP发送探测报文时,探测报文携带响应的周期T,AP收到探测报文之
后,获取终端设备的属性信息之后,按照周期T,周期性地向AC发送响应消息CAPWAP echo
response,响应消息携带其管理的网络中目标终端的多个运行属性和参数。若AC等待超时
未接到响应消息,则向AP重新发送探测报文,若重发多次之后,例如三次,仍未收到响应消
息,则AC不再向AP发送探测报文。AP周期性的接收探测报文,每隔T时间响应一次报文。终端
属性信息携带在CAPWAP echo request报文和CAPWAP echo response报文自定义TLV格式
中,周期性获取终端设备目标网络节点的多个终端设备的终端属性信息,从而得到多组影
响因子,无需增加额外资源和性能消耗。之后AC将周期性获得的每个未识别终端的多组影
响因子作为贝叶斯算法队列,输入到预先训练的贝叶斯分类器中,输出的队列即为每个未
识别终端的终端类型。
种终端类型Ci对应的终端数量相同。然后获取有类标训练集T中每个终端的终端属性信息,
并对终端属性信息数字化,生成每个终端的影响因子w={w1,w2,...wj,...wK},K为影响因
子组数,如果有四组影响因子,则K=4。
P(d|Ci),根据贝叶斯定理,Ci类的后验概率为P(Ci|d),并且:
互独立,同时要求组成每种属性的影响因子之间也具有相互独立性。由特征独立性,则有
子wj训练一个子分类器,然后将各子分类的分类结果进行组合,形成训练好的贝叶斯分类
器,若只有一组影响因子,则将该影响因子对应的子分类器直接作为最终的贝叶斯分类器。
网络后,终端类型先定义为NULL,表示没有识别出来。然后采用已知方法,例如用户信息,
DHCP信息识别,HTTP报文的UA字段,IMEI识别等方法,识别终端类型,根据表1对终端进行分
类。
每组影响因子对应的子分类器,然后通过各子分类器产生最终的贝叶斯分类器。训练集中
包含的终端数量越大,训练出的贝叶斯分类器的终端识别率越高。
题,根据影响因子进行深度学习,解决了现有终端识别技术需要持续升级特征库,识别率不
高的问题。
富,因此可以运用少量有类标的终端集合和大量无类标的终端集合组成训练集,分别记为
有类标训练集T和无类标训练集D,在有类标训练集T中,要求每种终端类型的终端数相同。
此时由于缺少足够的有类标训练终端,采用最大期望算法(EM)进行无指导神经网络学习,
最后得到训练好的贝叶斯分类器。对贝叶斯分类器采用EM算法的基本做法是首先利用由少
量有类型标注的终端组成的有类标训练集T,一般可选有类标训练集T中的终端数为20,初
始化贝叶斯网络的参数,然后利用EM算法调整贝叶斯网络,从而进一步优化贝叶斯分类器
的参数,提高其分类性能。
定性和关联性引起的终端类型识别不准问题,根据影响因子进行深度学习,进一步提高了
终端识别率。
个终端在预设周期T内的移动性值Mx,对于未识别终端d,统计其T周期的移动性值时设置至
关重要,如对于一个移动终端,如果T设置为24小时,可能是在晚上统计若该生晚上总在宿
舍睡觉,那么对应终端设备的移动值Mx=0,判断为非移动终端,判断出错。如果将T设置成
较小的值可能判断不出移动性,因此可以设置移动周期T=24小时,T=t1+t2+…+t24,
t1,…,t24将大周期T分为24个小周期,每个小周期为1小时,Mx为24个小周期移动距离总
和,这样可以比较清楚的判断出其移动性,得到移动性值Mx之后,根据移动性值Mx确定无类
标训练集D中每个终端的终端类型,记为第一终端类型。
端类型,并与第一终端类型进行对比,判断子分类器的分类结果是否错误,如果分类结果错
误,则更新对应的子分类器的权重,令更新后的权重大于0且小于1,目的是当上一次预测没
有预测正确时时,降低对应状态的概率。然后根据更新权重后的子分类器继续执行M步骤,
根据分类器参数再一次判断分类是否正确并更新权重,直至收敛,此时就可通过EM算法得
到每组影响因子wj对应的子分类器和权重,最后根据每组影响因子wj对应的子分类器和权
重,确定贝叶斯分类器,最终得到的贝叶斯分类器能够自动选择出最优的影响因子,并输出
预测结果。
从而可以确定出未识别终端的精准识别情况进一步提高了终端识别率。
组合,L为子分类器的个数;
终端在预设周期内的移动性值,根据移动性值确定无类标训练集D中每个终端的第一终端
类型,然后根据第一终端类型和每个子分类器确定的该终端的第二终端类型,确定每一种
分类器组合Zi的识别正确率其中i∈[1,L],Zi表示包括i个子分类器的分类器组合,L为子分
类器的个数,例如分类器组合Z4为四种影响因子,分别为用户信息影响因子、上网行为信息
影响因子、上网设备信息影响因子和用户坐标信息影响因子,分类器组合Z3为三种影响因
子,分别为上网行为信息影响因子、上网设备信息影响因子和用户坐标信息影响因子,分类
器组合Z2为两种影响因子,分别为上网设备信息影响因子和用户坐标信息影响因子,分类
器组合Z1为一种影响因子,即用户坐标信息影响因子。分类器Z4的识别正确率表示采用四种
影响因子时,训练得到的分类器正确识别未知终端的概率。Zi的第一识别正确率
其中Fir表示根据Zi组合判断对的次数,Fi表示根据Zi组合判断的总次数。
3。
表示根据子分类器Ri判断对的次数,Ei表示根据子分类器Ri判断的总次数。
正确率的最大值对应的子分类器数N2大于1,则令i∈[1,L‑1],继续执行步骤c,计算其他L‑
1个子分类器的第二识别正确率的最大值,最后输出最优子分类器。
子分类器数最大值为N1。若最大值N1对应的只有1个子分类器,则将该子分类器作为最优子
分类器;若最大值N1对应的有多个子分类器,则将四种子分类器中每个子分类器的第二识
别正确率存放在矩阵M中,执行步骤(1)。
类器中每个子分类器的第二识别正确率存放在矩阵N中,执行步骤(2)。
器中每个子分类器的第二识别正确率存放在矩阵N中,执行步骤(3)。
器作为最优子分类器。
器判断为非移动终端,则1*5>3*1,最终该设备被贝叶斯分类器器判断为移动终端,并通过
终端识别到的属性信息和影响因子,对学生进行智能化管理,根据这些信息,可以得到学生
日常生活规律,如是否在学校,在上课还是在宿舍,平时浏览的信息类型,根据这些日常习
惯可以判断学生是否出事,如是否旷课,有无夜不归宿的等情况。
从而可以确定出未识别终端的精准识别情况进一步提高了终端识别率。
块52用于根据所述终端属性信息确定至少一组影响因子;识别模块53用于根据所述影响因
子和预先训练的贝叶斯分类器,确定所述未识别终端的终端类型。
中的至少一种信息。数字化模块52将终端属性信息中每个参数信息数字化,确定至少一组
影响因子。识别模块53将这些影响因子作为贝叶斯分类器的输入值,就可确定未识别终端
的终端类型,由于通过大量训练集训练贝叶斯分类器,能够显著提高终端类型的识别率。此
外,终端属性信息中包括了丰富的用户信息,通过终端识别精准关注人群,解决考勤耗时费
力不配合问题,通过上网行为信息防止校园借贷,提前识别学生失联、朋友圈审计突发事件
等,结合信息化建设实现校园管理。本发明实施例提供的装置,用于实现上述方法,其功能
具体参照上述方法实施例,此处不再赘述。
过贝叶斯分类器进行深度学习,提高了终端类型识别率。
发送至第一接收单元,第一接收单元收到请求报文后,解析判断单元判断终端设备是否为
未识别终端,例如通过现有技术无法识别类型的终端确定为未识别终端。第一获取单元采
集来自未识别终端数据信息,提取来自终端设备的终端属性信息,包括用户信息、上网行为
信息、上网设备信息或坐标信息。然后将终端属性信息数字化,形成终端属性的影响因子,
作为深度学习数据集,以该深度学习数据集作为基于贝叶斯网络的终端类型识别的数据输
入,通过预先训练的贝叶斯分类器,输出终端设备的终端类型。
终端的终端属性信息,AP接收到探测报文之后,获取终端设备的属性信息,通过CAPWAP隧道
向第二接收单元发送响应报文CAPWAP echo response,响应报文为CAPWAP协议的控制报
文,第二获取单元解析报文,提取来自终端设备的终端属性信息,然后将终端属性信息数字
化,形成终端属性的影响因子,作为深度学习数据集,以该深度学习数据集作为基于贝叶斯
网络的终端类型识别的数据输入,通过预先训练的贝叶斯分类器,输出终端设备的终端类
型。本发明实施例提供的装置,用于实现上述方法,其功能具体参照上述方法实施例,此处
不再赘述。
数;
数;
...Ci,...CN},每种终端类型Ci对应的终端数量相同。第三获取单元获取有类标训练集T中
每个终端的终端属性信息,赋值单元对终端属性信息数字化,生成每个终端的影响因子w=
{w1,w2,...wj,...wK},K为影响因子组数,如果有四组影响因子,则K=4。计算单元根据公式
(1)和公式(2)确定每组影响因子wj对应的子分类器,分类器确定单元,然后将各子分类的
分类结果进行组合,形成训练好的贝叶斯分类器,若只有一组影响因子,则将该影响因子对
应的子分类器直接作为最终的贝叶斯分类器。本发明实施例提供的装置,用于实现上述方
法,其功能具体参照上述方法实施例,此处不再赘述。
题,根据影响因子进行深度学习,解决了现有终端识别技术需要持续升级特征库,识别率不
高的问题。
同。此时由于缺少足够的有类标训练终端,采用最大期望算法(EM)进行无指导神经网络学
习,最后得到训练好的贝叶斯分类器。对贝叶斯分类器采用EM算法的基本做法是首先利用
由少量有类型标注的终端组成的有类标训练集T,一般可选有类标训练集T中的终端数为
20,初始化贝叶斯网络的参数,然后利用EM算法调整贝叶斯网络,从而进一步优化贝叶斯分
类器的参数,提高其分类性能。
装置,用于实现上述方法,其功能具体参照上述方法实施例,此处不再赘述。
定性和关联性引起的终端类型识别不准问题,根据影响因子进行深度学习,进一步提高了
终端识别率。
个终端在预设周期T内的移动性值Mx,对于未识别终端d,统计其T周期的移动性值时设置至
关重要,如对于一个移动终端,如果T设置为24小时,可能是在晚上统计若该生晚上总在宿
舍睡觉,那么对应终端设备的移动值Mx=0,判断为非移动终端,判断出错。如果将T设置成
较小的值可能判断不出移动性,因此可以设置移动周期T=24小时,T=t1+t2+…+t24,
t1,…,t24将大周期T分为24个小周期,每个小周期为1小时,Mx为24个小周期移动距离总
和,这样可以比较清楚的判断出其移动性,得到移动性值Mx之后,根据移动性值Mx确定无类
标训练集D中每个终端的终端类型,记为第一终端类型。
端类型,并与第一终端类型进行对比,判断子分类器的分类结果是否错误,如果分类结果错
误,则更新对应的子分类器的权重,令更新后的权重大于0且小于1,目的是当上一次预测没
有预测正确时时,降低对应状态的概率。然后根据更新权重后的子分类器继续执行M步骤,
根据分类器参数再一次判断分类是否正确并更新权重,直至收敛,EM算法最后得到每组影
响因子wj对应的子分类器和权重,根据每组影响因子wj对应的子分类器和权重,确定贝叶斯
分类器。最终得到的贝叶斯分类器能够自动选择出最优的影响因子,并输出预测结果。本发
明实施例提供的装置,用于实现上述方法,其功能具体参照上述方法实施例,此处不再赘
述。
从而可以确定出未识别终端的精准识别情况进一步提高了终端识别率。
L为子分类器的个数;
终端在预设周期内的移动性值,根据移动性值确定无类标训练集D中每个终端的第一终端
类型,然后根据第一终端类型和每个子分类器确定的该终端的第二终端类型,确定每一种
分类器组合Zi的识别正确率其中i∈[1,L],Zi表示包括i个子分类器的分类器组合,L为子分
类器的个数,例如分类器组合Z4为四种影响因子,分别为用户信息影响因子、上网行为信息
影响因子、上网设备信息影响因子和用户坐标信息影响因子,分类器组合Z3为三种影响因
子,分别为上网行为信息影响因子、上网设备信息影响因子和用户坐标信息影响因子,分类
器组合Z2为两种影响因子,分别为上网设备信息影响因子和用户坐标信息影响因子,分类
器组合Z1为一种影响因子,即用户坐标信息影响因子。分类器Z4的识别正确率表示采用四种
影响因子时,训练得到的分类器正确识别未知终端的概率。Zi的第一识别正确率
其中Fir表示根据Zi组合判断对的次数,Fi表示根据Zi组合判断的总次数。
3。
表示根据子分类器Ri判断对的次数,Ei表示根据子分类器Ri判断的总次数。
正确率的最大值对应的子分类器数N2大于1,则令i∈[1,L‑1],继续执行步骤c,计算其他L‑
1个子分类器的第二识别正确率的最大值,最后输出最优子分类器。本发明实施例提供的装
置,用于实现上述方法,其功能具体参照上述方法实施例,此处不再赘述。
从而可以确定出未识别终端的精准识别情况进一步提高了终端识别率。
户信息、上网行为信息、上网设备信息和用户坐标信息中的至少一种;根据所述终端属性信
息确定至少一组影响因子;根据所述影响因子和预先训练的贝叶斯分类器,确定所述未识
别终端的终端类型。
计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取接入网络
中的未识别终端的终端属性信息,所述终端属性信息包括:用户信息、上网行为信息、上网
设备信息和用户坐标信息中的至少一种;根据所述终端属性信息确定至少一组影响因子;
根据所述影响因子和预先训练的贝叶斯分类器,确定所述未识别终端的终端类型。
法,例如包括:获取接入网络中的未识别终端的终端属性信息,所述终端属性信息包括:用
户信息、上网行为信息、上网设备信息和用户坐标信息中的至少一种;根据所述终端属性信
息确定至少一组影响因子;根据所述影响因子和预先训练的贝叶斯分类器,确定所述未识
别终端的终端类型。
执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘
等各种可以存储程序代码的介质。
元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下,即可以理解并实施。
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分
或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离
本发明的各实施例技术方案的范围。