一种通信协议辨识方法及系统转让专利

申请号 : CN202311443739.5

文献号 : CN117176840B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 代辉唐伟杰周星辰

申请人 : 成都汉度科技有限公司

摘要 :

本申请提供的一种通信协议辨识方法及系统,获得待分析通信交互数据,所述待分析通信交互数据中包括交互主题;在所述待分析通信交互数据中识别所述交互主题对应的交互主题范围;将所述交互主题范围进行目标值分类处理,以确定所述交互主题在所述交互主题范围中对应的交互主题数据块;对所述交互主题数据块进行数据辨识处理,生成从所述待分析通信交互数据中删除所述交互主题的目标通信交互数据。以这种方式,不必依赖大规模训练数据,仅根据待分析通信交互数据自身的信息便可以精准地辨识出数据信息,从而可以提高协议确定的准确性和可靠性,在进行通信的时候,能确保正常通信。

权利要求 :

1.一种通信协议辨识方法,其特征在于,所述方法包括:获得待分析通信交互数据,所述待分析通信交互数据中包括交互主题;

在所述待分析通信交互数据中识别所述交互主题对应的交互主题范围;

将所述交互主题范围进行目标值分类处理,以确定所述交互主题在所述交互主题范围中对应的交互主题数据块;

对所述交互主题数据块进行数据辨识处理,生成从所述待分析通信交互数据中删除所述交互主题的目标通信交互数据;

其中,所述在所述待分析通信交互数据中识别所述交互主题对应的交互主题范围,包括:对所述待分析通信交互数据进行描述字段抽取处理,以生成目标描述字段抽链;

结合所述目标描述字段抽链进行回归分析处理,得到描述所述待分析通信交互数据中交互主题的回归分析范围的可能性链以及描述所述交互主题的约束范围的目标值集;

对所述可能性链及所述目标值集进行无量纲处理,得到标签相似交互主题范围的去极化分类数据;

依据所述去极化分类数据中的所述相似交互主题范围,确定所述待分析通信交互数据所述交互主题对应的交互主题范围;

其中,所述依据所述去极化分类数据中的所述相似交互主题范围,确定所述待分析通信交互数据所述交互主题对应的交互主题范围,包括:依据所述去极化分类数据中的所述相似交互主题范围,计算目标差异参数;

将所述相似交互主题范围依照所述目标差异参数进行衍生处理,得到目标范围窗口;

将所述目标范围窗口在所述待分析通信交互数据中对应定位的范围,作为所述交互主题对应的交互主题范围;

其中,所述对所述待分析通信交互数据进行描述字段抽取处理,以生成目标描述字段抽链,包括:对所述待分析通信交互数据进行描述字段抽取处理,得到不少于两个不同数据量的描述字段抽链;

将不少于两个所述描述字段抽链切换相同数据量后进行映射处理,得到映射结果;

将所述映射结果作为所述目标描述字段抽链;

其中,所述交互主题数据块包括不少于一个;所述对所述交互主题数据块进行数据辨识处理,生成从所述待分析通信交互数据中删除所述交互主题的目标通信交互数据,包括:从不少于一个所述交互主题数据块中,依照从约束边界到基准的分布情况,逐层确定一个交互主题数据块作为目标数据块;

挑选所述目标数据块的描述内容方向;

依据所述描述内容方向中数据块的特征描述值,计算所述目标数据块的辨识特征描述值;将所述目标数据块的特征描述值优化为所述辨识特征描述值,以在所述待分析通信交互数据中逐层辨识所述交互主题数据块,得到所述目标通信交互数据;

其中,所述将所述交互主题范围进行目标值分类处理,以确定所述交互主题在所述交互主题范围中对应的交互主题数据块,包括:依照目标值将所述交互主题范围分类为交互主题部分及用户信息部分;

计算所述交互主题部分及所述用户信息部分的精确分类评估结果;

若所述精确分类评估结果指示分类异常程度低于设定程度,则将所述交互主题部分中的数据块作为所述交互主题数据块;

所述目标值包括不少于一个目标值;所述依照目标值将所述交互主题范围分类为交互主题部分及用户信息部分,包括:依照设定决策确定所述不少于一个目标值;

根据每一个所述目标值,分别将所述交互主题范围的数据块分类为两部分,得到每一个所述目标值下的所述交互主题部分及用户信息部分;

所述计算所述交互主题部分及所述用户信息部分的精确分类评估结果,包括:获得所述交互主题范围中描述内容的范围描述内容数量、每一个所述目标值下所述交互主题部分中描述内容的交互主题描述内容数量以及所述用户信息部分中描述内容的用户信息描述内容数量;

结合所述范围描述内容数量以及每一个所述目标值下的所述交互主题描述内容数量与用户信息描述内容数量,分别计算每一个所述目标值下所述交互主题部分及用户信息部分的之间的比较结果;

基于每一个所述目标值下的之间的比较结果,分别生成每一个所述目标值下所述交互主题部分及所述用户信息部分的精确分类评估结果。

2.根据权利要求1所述的方法,其特征在于,所述若所述精确分类评估结果指示分类异常程度低于设定程度,则将所述交互主题部分中的数据块作为所述交互主题数据块,包括:确定每一个所述目标值下的精确分类评估结果中的最大精确分类评估结果,所述最大精确分类评估结果指示分类异常程度最小;

将所述最大精确分类评估结果所对应目标值下的交互主题部分中的数据块作为所述交互主题数据块。

3.根据权利要求1所述的方法,其特征在于,所述依据所述描述内容方向中数据块的特征描述值,计算所述目标数据块的辨识特征描述值,包括:依据所述描述内容方向中每一数据块的特征描述值与所述目标数据块的特征描述值分别进行计算处理,得到所述描述内容方向中每一数据块对应的局部辨识特征描述值;

结合所述描述内容方向中每一数据块对应的局部辨识特征描述值,计算所述目标数据块的辨识特征描述值。

4.根据权利要求3所述的方法,其特征在于,所述结合所述描述内容方向中每一数据块对应的局部辨识特征描述值,计算所述目标数据块的辨识特征描述值,包括:获得所述描述内容方向中每一数据块的辨识置信度,其中,所述描述内容方向中数据块差异所述目标数据块越小则对应辨识置信度越高;

计算所述描述内容方向中每一数据块的辨识置信度与局部辨识特征描述值的乘积,得到所述描述内容方向中每一数据块对应的优化辨识特征描述值;

将所述描述内容方向中数据块对应的优化辨识特征描述值之和除以所述描述内容方向中数据块的辨识置信度之和,得到所述目标数据块的辨识特征描述值。

5.一种通信协议辨识系统,其特征在于,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中读取计算机程序并执行,以实现权利要求1‑4任一项所述的方法。

说明书 :

一种通信协议辨识方法及系统

技术领域

[0001] 本申请涉及数据识别技术领域,具体而言,涉及一种通信协议辨识方法及系统。

背景技术

[0002] 通讯协议又称通信规程,是指通信双方对数据传送控制的一种约定。约定中包括对数据格式,同步方式,传送速度,传送步骤,检纠错方式以及控制字符定义等问题做出统一规定,通信双方必须共同遵守,它也叫做链路控制规程。
[0003] 随着科技不断地发展和进步,通讯协议的方式越来越多样化,现目前,针对通讯协议的辨识一般采用的是人工进行识别,这样不仅浪费时间,还浪费人力资源,因此,亟需一种技术方案以改善上述技术问题。

发明内容

[0004] 为改善相关技术中存在的技术问题,本申请提供了一种通信协议辨识方法及系统。
[0005] 第一方面,提供一种通信协议辨识方法,所述方法包括:获得待分析通信交互数据,所述待分析通信交互数据中包括交互主题;在所述待分析通信交互数据中识别所述交互主题对应的交互主题范围;将所述交互主题范围进行目标值分类处理,以确定所述交互主题在所述交互主题范围中对应的交互主题数据块;对所述交互主题数据块进行数据辨识处理,生成从所述待分析通信交互数据中删除所述交互主题的目标通信交互数据。
[0006] 在一种独立实施的实施例中,所述将所述交互主题范围进行目标值分类处理,以确定所述交互主题在所述交互主题范围中对应的交互主题数据块,包括:依照目标值将所述交互主题范围分类为交互主题部分及用户信息部分;计算所述交互主题部分及所述用户信息部分的精确分类评估结果;若所述精确分类评估结果指示分类异常程度低于设定程度,则将所述交互主题部分中的数据块作为所述交互主题数据块。
[0007] 在一种独立实施的实施例中,所述目标值包括不少于一个目标值;所述依照目标值将所述交互主题范围分类为交互主题部分及用户信息部分,包括:依照设定决策确定所述不少于一个目标值;根据每一个所述目标值,分别将所述交互主题范围的数据块分类为两部分,得到每一个所述目标值下的所述交互主题部分及用户信息部分。
[0008] 在一种独立实施的实施例中,所述计算所述交互主题部分及所述用户信息部分的精确分类评估结果,包括:获得所述交互主题范围中描述内容的范围描述内容数量、每一个所述目标值下所述交互主题部分中描述内容的交互主题描述内容数量以及所述用户信息部分中描述内容的用户信息描述内容数量;结合所述范围描述内容数量以及每一个所述目标值下的所述交互主题描述内容数量与用户信息描述内容数量,分别计算每一个所述目标值下所述交互主题部分及用户信息部分的之间的比较结果;基于每一个所述目标值下的之间的比较结果,分别生成每一个所述目标值下所述交互主题部分及所述用户信息部分的精确分类评估结果。
[0009] 在一种独立实施的实施例中,所述若所述精确分类评估结果指示分类异常程度低于设定程度,则将所述交互主题部分中的数据块作为所述交互主题数据块,包括:确定每一个所述目标值下的精确分类评估结果中的最大精确分类评估结果,所述最大精确分类评估结果指示分类异常程度最小;将所述最大精确分类评估结果所对应目标值下的交互主题部分中的数据块作为所述交互主题数据块。
[0010] 在一种独立实施的实施例中,所述交互主题数据块包括不少于一个;所述对所述交互主题数据块进行数据辨识处理,生成从所述待分析通信交互数据中删除所述交互主题的目标通信交互数据,包括:从不少于一个所述交互主题数据块中,依照从约束边界到基准的分布情况,逐层确定一个交互主题数据块作为目标数据块;挑选所述目标数据块的描述内容方向;依据所述描述内容方向中数据块的特征描述值,计算所述目标数据块的辨识特征描述值;将所述目标数据块的特征描述值优化为所述辨识特征描述值,以在所述待分析通信交互数据中逐层辨识所述交互主题数据块,得到所述目标通信交互数据。
[0011] 在一种独立实施的实施例中,所述依据所述描述内容方向中数据块的特征描述值,计算所述目标数据块的辨识特征描述值,包括:依据所述描述内容方向中每一数据块的特征描述值与所述目标数据块的特征描述值分别进行计算处理,得到所述描述内容方向中每一数据块对应的局部辨识特征描述值;结合所述描述内容方向中每一数据块对应的局部辨识特征描述值,计算所述目标数据块的辨识特征描述值。
[0012] 在一种独立实施的实施例中,所述结合所述描述内容方向中每一数据块对应的局部辨识特征描述值,计算所述目标数据块的辨识特征描述值,包括:获得所述描述内容方向中每一数据块的辨识置信度,其中,所述描述内容方向中数据块差异所述目标数据块越小则对应辨识置信度越高;计算所述描述内容方向中每一数据块的辨识置信度与局部辨识特征描述值的乘积,得到所述描述内容方向中每一数据块对应的优化辨识特征描述值;将所述描述内容方向中数据块对应的优化辨识特征描述值之和除以所述描述内容方向中数据块的辨识置信度之和,得到所述目标数据块的辨识特征描述值。
[0013] 在一种独立实施的实施例中,所述在所述待分析通信交互数据中识别所述交互主题对应的交互主题范围,包括:对所述待分析通信交互数据进行描述字段抽取处理,以生成目标描述字段抽链;结合所述目标描述字段抽链进行回归分析处理,得到描述所述待分析通信交互数据中交互主题的回归分析范围的可能性链以及描述所述交互主题的约束范围的目标值集;对所述可能性链及所述目标值集进行无量纲处理,得到标签相似交互主题范围的去极化分类数据;依据所述去极化分类数据中的所述相似交互主题范围,确定所述待分析通信交互数据所述交互主题对应的交互主题范围。
[0014] 在一种独立实施的实施例中,所述依据所述去极化分类数据中的所述相似交互主题范围,确定所述待分析通信交互数据所述交互主题对应的交互主题范围,包括:依据所述去极化分类数据中的所述相似交互主题范围,计算目标差异参数;将所述相似交互主题范围依照所述目标差异参数进行衍生处理,得到目标范围窗口;将所述目标范围窗口在所述待分析通信交互数据中对应定位的范围,作为所述交互主题对应的交互主题范围。
[0015] 在一种独立实施的实施例中,所述对所述待分析通信交互数据进行描述字段抽取处理,以生成目标描述字段抽链,包括:对所述待分析通信交互数据进行描述字段抽取处理,得到不少于两个不同数据量的描述字段抽链;将不少于两个所述描述字段抽链切换相同数据量后进行映射处理,得到映射结果;将所述映射结果作为所述目标描述字段抽链。
[0016] 第二方面,提供一种通信协议辨识系统,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。
[0017] 本申请实施例所提供的一种通信协议辨识方法及系统,获得待分析通信交互数据,所述待分析通信交互数据中包括交互主题;在所述待分析通信交互数据中识别所述交互主题对应的交互主题范围;将所述交互主题范围进行目标值分类处理,以确定所述交互主题在所述交互主题范围中对应的交互主题数据块;对所述交互主题数据块进行数据辨识处理,生成从所述待分析通信交互数据中删除所述交互主题的目标通信交互数据。
[0018] 以这种方式,不必依赖大规模训练数据,仅根据待分析通信交互数据自身的信息便可以精准地辨识出数据信息,从而可以提高协议确定的准确性和可靠性,在进行通信的时候,能确保正常通信。

附图说明

[0019] 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0020] 图1为本申请实施例所提供的一种通信协议辨识方法的流程图。

具体实施方式

[0021] 为了更好的理解上述技术方案,下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
[0022] 请参阅图1,示出了一种通信协议辨识方法,该方法可以包括以下步骤S210‑步骤S240所描述的技术方案。
[0023] 步骤S210,获得待分析通信交互数据,待分析通信交互数据中包括交互主题。
[0024] 进一步地,本申请具体可应用于低压配变台区中边缘融合控制器与台区集中器、以及配网运维平台之间的通信协议辨识过程中,边缘融合控制器可替换原集中器中的通信模块,通过通信协议辨识,对上与配网运维平台进行通信,对下与集中器进行通信。
[0025] 具体边缘融合控制器可支持的通信方式包括4G、5G、RS‑485、lora、塑料光纤、电力载波等,边缘融合控制器包括评估模块、分析模块和识别模块,
[0026] 示例性的,协议在识别过程中,首先通过设定的分析模块对营销数据进行拆分,将拆分的后的数据进行聚类,获得聚类后的数据,然后通过识别模块对聚类后的数据进行识别,并储存。
[0027] 进一步地,边缘融合及控制器远程通信可支持DL/T645、DL/T634.5101‑2002、DL/T634.5104‑2009、Q/GDW 1376.1、Q/GDW 11778‑2017通信协议,可支持Q/GDW 1376.1、DL/T 645、MODBUS、DL/T698.44、DL/T 698.45通信协议。
[0028] 进一步地,通讯协议包括:TCP/IP协议:互联网的核心协议之一,用于实现网络传输和数据通信、HTTP协议:超文本传输协议,用于在web浏览器和web服务器之间传输数据、FTP协议:文件传输协议,用于在网络上传输文件、SMTP协议:简单邮件传输协议,用于传递和路由电子邮件。POP3协议:邮局协议,用于接收来自邮件服务器的邮件、IMAP协议:互联网消息访问协议,用于在邮件服务器和邮件客户端之间传递电子邮件、SNMP协议:简单网络管理协议,用于监视和管理网络设备、DNS协议:域名系统协议,用于将域名转换为IP地址以及DHCP协议:动态主机配置协议,用于自动为网络上的设备分配IP地址等。
[0029] 进一步地,交互主题可以理解为通讯协议的标签。
[0030] 其中,本申请的通讯协议识别模块可以针对配电台区不同类型设备数据传输需要,基于软件本地协议库的自动适配技术,能够自动更新软件本地协议库,实现了边缘融合控制器与不同类型设备之间的通信传输。
[0031] 步骤S220,在待分析通信交互数据中识别交互主题对应的交互主题范围。
[0032] 示例性的,交互主题范围可以为通讯协议的标签所包含的范围。
[0033] 步骤S230,将交互主题范围进行目标值分类处理,以确定交互主题在交互主题范围中对应的交互主题数据块。
[0034] 示例性的,目标值分类处理可以理解为二值化处理方式。
[0035] 步骤S240,对交互主题数据块进行数据辨识处理,生成从待分析通信交互数据中删除异常事件的目标通信交互数据。
[0036] 示例性的,数据辨识处理可以理解为对通信协议的识别处理步骤。
[0037] 其中,异常事件包括识别出通讯协议异常的数据,其中,包括通讯协议中存在爬虫以及通讯协议错误等情况。
[0038] 对待分析通信交互数据进行识别可以初步确定待分析通信交互数据中交互主题对应的交互主题范围。然后,将交互主题范围进行目标值分类处理,可以精确确定交互主题在交互主题范围中对应的交互主题数据块,进而可以精准地进行异常事件删除。
[0039] 进一步的,对交互主题数据块进行数据辨识处理,可以对待分析通信交互数据以辨识描述内容的方式删除交互主题,生成具有优秀通信交互数据效果的目标通信交互数据。删除异常事件的目标通信交互数据可以用于不需要交互主题的场景,譬如基于待分析通信交互数据进行通信交互数据内容理解的场景下,以目标通信交互数据代替进行通信交互数据内容理解可以避免交互主题带来的干扰。
[0040] 以这种方式,基于步骤S210至步骤S240,不必依赖大规模训练数据,仅根据待分析通信交互数据自身的信息便可以精准地辨识出数据信息,从而可以提高协议确定的准确性和可靠性,在进行通信的时候,能确保正常通信。
[0041] 下面描述进行通信交互数据处理时,所进行的各步骤的具体过程。
[0042] 在步骤S210,获得待分析通信交互数据,待分析通信交互数据中包括交互主题。
[0043] 在一种可能实施的实施例中,步骤S210,获得待分析通信交互数据,包括:获得目标对象对应的对象通信交互数据;将对象通信交互数据作为待分析通信交互数据。
[0044] 在一种可能实施的实施例中,步骤S210,获得待分析通信交互数据,包括:获得设定种类的通信交互数据作为待分析通信交互数据,设定种类可以包括对象种类之外的其他种类。
[0045] 设定种类可以包括对象种类之外的其他种类,以后续步骤也可以将对象种类之外的其他种类的通信交互数据进行异常事件删除,生成删除交互主题后的目标通信交互数据。
[0046] 在步骤S220,在待分析通信交互数据中识别交互主题对应的交互主题范围。
[0047] 在一种可能实施的实施例中,步骤S220,在待分析通信交互数据中识别交互主题对应的交互主题范围,包括以下步骤。
[0048] 步骤S221,对待分析通信交互数据进行描述字段抽取处理,以生成目标描述字段抽链。
[0049] 步骤S222,基于目标描述字段抽链进行回归分析处理,得到描述待分析通信交互数据中交互主题的回归分析范围的可能性链以及描述交互主题的约束范围的目标值集。
[0050] 步骤S223,对可能性链及目标值集进行无量纲处理,得到标签相似交互主题范围的去极化分类数据。
[0051] 步骤S224,根据去极化分类数据中的相似交互主题范围,确定待分析通信交互数据交互主题对应的交互主题范围。
[0052] 目标描述字段抽链即目标描述字段队列,可以用于表征待分析通信交互数据中的信息。基于人工智能线程可以对待分析通信交互数据进行描述字段抽取处理,得到抽取到的描述字段抽链,基于描述字段抽链可以生成目标描述字段抽链。
[0053] 目标描述字段抽链输入可能性链的回归分析人工智能线程可以进行回归分析处理,得到描述待分析通信交互数据中交互主题的回归分析范围的可能性链,也即可能性链为可以显示待分析通信交互数据中交互主题的回归分析范围的通信交互数据,交互主题的回归分析范围即回归分析的交互主题对应范围。
[0054] 目标描述字段抽链输入目标值集的回归分析人工智能线程可以进行回归分析处理,得到描述待分析通信交互数据中交互主题的约束范围的目标值集,也即目标值集为可以显示待分析通信交互数据中交互主题对应范围的约束范围的通信交互数据,约束范围即回归分析的交互主题对应范围的约束范围。
[0055] 对可能性链及目标值集进行无量纲处理,得到标签相似交互主题范围的去极化分类数据,相似交互主题范围即待分析通信交互数据中交互主题的交互主题范围所相似的范围。根据去极化分类数据中的相似交互主题范围,即可确定待分析通信交互数据中交互主题对应的交互主题范围。
[0056] 以这种实施方式,通过获得可能性链及目标值集进行无量纲处理,获得标签相似交互主题范围的去极化分类数据,根据相似交互主题范围可以精确确定待分析通信交互数据中交互主题对应的交互主题范围。
[0057] 可以理解,其它实施方式中,可以利用其它现有交互主题识别方法识别待分析通信交互数据中交互主题对应的交互主题范围。
[0058] 在一种可能实施的实施例中,步骤S224,根据去极化分类数据中的相似交互主题范围,确定待分析通信交互数据交互主题对应的交互主题范围,包括以下内容。
[0059] 根据去极化分类数据中的相似交互主题范围,计算目标差异参数;将相似交互主题范围依照目标差异参数进行衍生处理,得到目标范围窗口;将目标范围窗口在待分析通信交互数据中对应定位的范围,作为交互主题对应的交互主题范围。
[0060] 目标差异参数即用于进行范围差异的参数。将相似交互主题范围依照目标差异参数进行衍生处理,可以将相似交互主题范围的约束边界衍生目标差异参数对应的差异,得到衍生后范围的边界即目标范围窗口。去极化分类数据与待分析通信交互数据同样大小,进而,目标范围窗口在待分析通信交互数据中对应定位所框中的范围即交互主题对应的交互主题范围。这样可以通过衍生操作精确标定交互主题对应的交互主题范围;其中,衍生后范围可以理解为在约束边界上存在超出边界的情况,因此就造成了一定的差异,通过这些差异对约束边界进行更新获得更新后的约束范围(衍生后范围)。
[0061] 一种实施方式中,目标差异参数等于相似交互主题范围的面积与周长之比再乘以设定参数后得到的值。一种实施方式中,目标差异参数为设定的差异参数。
[0062] 在一种可能实施的实施例中,步骤S221,对待分析通信交互数据进行描述字段抽取处理,以生成目标描述字段抽链,包括:对待分析通信交互数据进行描述字段抽取处理,得到不少于两个不同数据量的描述字段抽链;将不少于两个描述字段抽链切换相同数据量后进行映射处理,得到映射结果;将映射结果作为目标描述字段抽链。
[0063] 通过对待分析通信交互数据进行不同数据量的描述字段抽取处理,可以得到不少于两个不同数据量的描述字段抽链。
[0064] 将相同数据量的描述字段抽链进行映射得到融合不同尺度描述字段抽链的映射结果,该映射结果作为目标描述字段抽链,可以进一步提升交互主题范围确定精确性。
[0065] 在步骤S230,将交互主题范围进行目标值分类处理,以确定交互主题在交互主题范围中对应的交互主题数据块。
[0066] 在一种可能实施的实施例中,步骤S230,将交互主题范围进行目标值分类处理,以确定交互主题在交互主题范围中对应的交互主题数据块,包括以下内容。
[0067] 步骤S231,依照目标值将交互主题范围分类为交互主题部分及用户信息部分。
[0068] 步骤S232,计算交互主题部分及用户信息部分的精确分类评估结果。
[0069] 步骤S233,若精确分类评估结果指示分类异常程度低于设定程度,则将交互主题部分中的数据块作为交互主题数据块。
[0070] 精确分类评估结果即分类交互主题部分及用户信息部分的精确性的评估结果,该精确分类评估结果若指示分类异常程度低于设定程度,则说明分类交互主题部分及用户信息部分的精确性符合要求,进而可以将交互主题部分中的数据块作为交互主题数据块。
[0071] 可以理解,另在一种可能实施的实施例中,步骤S230,将交互主题范围进行目标值分类处理,以确定交互主题在交互主题范围中对应的交互主题数据块,可以包括:依照待分析通信交互数据的通信交互数据种类对应的设定目标值将交互主题范围分类为交互主题部分及用户信息部分,将该交互主题部分中的数据块直接作为交互主题数据块。
[0072] 在一种可能实施的实施例中,目标值包括不少于一个目标值;步骤S231,依照目标值将交互主题范围分类为交互主题部分及用户信息部分,包括:依照设定决策确定不少于一个目标值;根据每一个目标值,分别将交互主题范围的数据块分类为两部分,得到每一个目标值下的交互主题部分及用户信息部分。
[0073] 目标值包括不少于一个目标值,目标值可以位于0至100之间。依照设定决策确定不少于一个目标值,可以是依照分布情况获得预先设定的不少于一个目标值,也可以是遍历交互主题范围中数据块的特征描述值,将遍历到的每一个不同的特征描述值可以作为一个目标值。
[0074] 根据每一个目标值分别将交互主题范围的数据块分类为两部分,得到每一个目标值下的交互主题部分及用户信息部分,譬如,在目标值为5时可以分类出对应的交互主题部分及用户信息部分,在目标值为20时可以分类出对应的交互主题部分及用户信息部分。这样可以从不同的目标值下确定哪种目标值下分类的精确,进一步筛选出最精确的分类方式。
[0075] 在一种可能实施的实施例中,步骤S232,计算交互主题部分及用户信息部分的精确分类评估结果,包括:获得交互主题范围中描述内容的范围描述内容数量、每一个目标值下交互主题部分中描述内容的交互主题描述内容数量以及用户信息部分中描述内容的用户信息描述内容数量;基于范围描述内容数量以及每一个目标值下的交互主题描述内容数量与用户信息描述内容数量,分别计算每一个目标值下交互主题部分及用户信息部分的之间的比较结果;基于每一个目标值下的之间的比较结果,分别生成每一个目标值下交互主题部分及用户信息部分的精确分类评估结果。
[0076] 范围描述内容数量即交互主题范围中包括的描述内容的数量。交互主题描述内容数量即交互主题部分中描述内容的数量。用户信息描述内容数量即用户信息部分中描述内容的数量。
[0077] 之间的比较结果用于描述构成通信交互数据的两部分的差别,构成通信交互数据的两部分的差别越大之间的比较结果越大,当部分交互主题错分为用户信息或部分用户信息错分为交互主题都会导致两部分差别变小。进而,之间的比较结果越大说明交互主题部分及用户信息部分的错分概率越小,也即分类精确性越高。
[0078] 将之间的比较结果作为精确分类评估结果,精确分类评估结果越高说明交互主题部分及用户信息部分的分类精确性越高。基于每一个目标值下的之间的比较结果,可以分别生成每一个目标值下交互主题部分及用户信息部分的精确分类评估结果,可以用来精确确定哪种目标值下分类的精确。
[0079] 一种实施方式中,范围描述内容数量为X,目标值为Y,0≤Y≤100,交互主题描述内容数量为Xmax,用户信息描述内容数量为Xmin;基于范围描述内容数量以及每一个目标值下的交互主题描述内容数量与用户信息描述内容数量,分别计算每一个目标值下交互主题部分及用户信息部分的之间的比较结果(其中,X的最少数量是用户信息描述内容数量为Xmin,X的最大数量是交互主题描述内容数量为Xmax,每一个用户信息描述内容对应至少一个交互主题描述内容)。
[0080] 在一种可能实施的实施例中,步骤S233,若精确分类评估结果指示分类异常程度低于设定程度,则将交互主题部分中的数据块作为交互主题数据块,包括:确定每一个目标值下的精确分类评估结果中的最大精确分类评估结果,最大精确分类评估结果指示分类异常程度最小;将最大精确分类评估结果所对应目标值下的交互主题部分中的数据块作为交互主题数据块。
[0081] 精确分类评估结果越高说明交互主题部分及用户信息部分的分类精确性越高,即最大精确分类评估结果指示分类异常程度最小,最大精确分类评估结果所对应目标值下的交互主题部分及用户信息部分为所有目标值下分类精确性最高的,进而将最大精确分类评估结果所对应目标值下的交互主题部分中的数据块可以精确作为交互主题数据块。
[0082] 在步骤S240,对交互主题数据块进行数据辨识处理,生成从待分析通信交互数据中删除异常事件的目标通信交互数据。
[0083] 对交互主题数据块进行数据辨识处理,即将交互主题数据块的当前特征描述值辨识式的处理为另一个特征描述值,使得待分析通信交互数据中不显示交互主题内容,且辨识后待分析通信交互数据中没有异常事件删除标签。
[0084] 在一种可能实施的实施例中,步骤S240,交互主题数据块包括不少于一个;对交互主题数据块进行数据辨识处理,生成从待分析通信交互数据中删除异常事件的目标通信交互数据,包括以下内容。
[0085] 步骤S241,从不少于一个交互主题数据块中,依照从约束边界到基准的分布情况,逐层确定一个交互主题数据块作为目标数据块。
[0086] 步骤S242,挑选目标数据块的描述内容方向;
[0087] 步骤S243,根据描述内容方向中数据块的特征描述值,计算目标数据块的辨识特征描述值。
[0088] 步骤S244,将目标数据块的特征描述值优化为辨识特征描述值,以在待分析通信交互数据中逐层辨识交互主题数据块,得到目标通信交互数据。
[0089] 交互主题由不少于一个交互主题数据块构成的数据块范围,该实施例下,将该数据块范围从约束边界到基准逐层快速行进式辨识,先处理数据块范围约束边界上的数据块,然后层层向内推进,直到辨识完数据块范围中所有的数据块。
[0090] 其中,从约束边界的交互主题数据块开始,确定一个目标数据块。然后挑选目标数据块的描述内容方向,该描述内容方向可以是以目标数据块为基准的设定半径范围内且由待分析通信交互数据中无需辨识的数据块以及已完成辨识的数据块,设定半径可以根据需求指定。
[0091] 根据描述内容方向中数据块的特征描述值,计算目标数据块的辨识特征描述值,将目标数据块的特征描述值优化为辨识特征描述值,进而目标数据块显示为特征描述值时可以与方向实现良好的一体化,提升辨识效果。
[0092] 在待分析通信交互数据中针对交互主题数据块由约束边界到基准逐层完成辨识,得到删除交互主题后的目标通信交互数据。
[0093] 在一种可能实施的实施例中,步骤S243,根据描述内容方向中数据块的特征描述值,计算目标数据块的辨识特征描述值,包括:根据描述内容方向中每一数据块的特征描述值与目标数据块的特征描述值分别进行计算处理,(其中,具体的计算方式是将特征描述值进行局部化计算)得到描述内容方向中每一数据块对应的局部辨识特征描述值;基于描述内容方向中每一数据块对应的局部辨识特征描述值,计算目标数据块的辨识特征描述值;其中,具体的计算方式采用的是相减的计算方式。
[0094] 根据描述内容方向中每一数据块的特征描述值与目标数据块的特征描述值分别进行计算处理,可以分别得到一个局部辨识特征描述值,综合所有的局部辨识特征描述值进行计算目标数据块的辨识特征描述值,进一步提升辨识特征描述值的辨识效果。
[0095] 一种方式中,基于描述内容方向中每一数据块对应的局部辨识特征描述值,计算目标数据块的辨识特征描述值,可以包括:计算描述内容方向中包括的数据块对应的局部辨识特征描述值的均值作为辨识特征描述值。
[0096] 在一种可能实施的实施例中,基于描述内容方向中每一数据块对应的局部辨识特征描述值,计算目标数据块的辨识特征描述值,包括:获得描述内容方向中每一数据块的辨识置信度,其中,描述内容方向中数据块差异目标数据块越小则对应辨识置信度越高;计算描述内容方向中每一数据块的辨识置信度与局部辨识特征描述值的乘积,得到描述内容方向中每一数据块对应的优化辨识特征描述值;将描述内容方向中数据块对应的优化辨识特征描述值之和除以描述内容方向中数据块的辨识置信度之和,得到目标数据块的辨识特征描述值。
[0097] 描述内容方向中每一数据块可以通过预设权值函数计算对应的辨识置信度,预设权值函数可以利用描述内容方向中每一数据块与目标数据块的差异计算辨识置信度,差异目标数据块越小则对应辨识置信度越高。
[0098] 然后,计算描述内容方向中每一数据块的辨识置信度与局部辨识特征描述值的乘积,得到描述内容方向中每一数据块对应的优化辨识特征描述值。
[0099] 将描述内容方向中数据块对应的优化辨识特征描述值之和除以描述内容方向中数据块的辨识置信度之和,得到目标数据块的辨识特征描述值。
[0100] 以这种方式根据不同数据块的辨识置信度计算目标数据块的辨识特征描述值,进一步提升辨识特征描述值的辨识效果。
[0101] 对象通信交互数据进行通信交互数据处理的流程可以包括步骤S310至步骤S340。
[0102] 步骤S310,获得对象通信交互数据,也即获得待分析通信交互数据,具体包括:获得目标对象对应的对象通信交互数据,将对象通信交互数据作为待分析通信交互数据。
[0103] 步骤S320,交互主题范围识别,也即在对象通信交互数据中识别交互主题对应的交互主题范围。在步骤S320中若识别到交互主题范围,则进入步骤S330,若否,则结束通信交互数据处理流程。
[0104] 步骤S330,目标值分类确定交互主题描述内容,也即将交互主题范围进行目标值分类处理,以确定交互主题在交互主题范围中对应的交互主题数据块。
[0105] 其中,范围描述内容数量为X,目标值为Y,0≤Y≤255,交互主题描述内容数量为Xmax,用户信息描述内容数量为Xmin;基于范围描述内容数量以及每一个目标值下的交互主题描述内容数量与用户信息描述内容数量,分别计算每一个目标值下交互主题部分及用户信息部分的之间的比较结果。
[0106] 步骤S340,辨识交互主题描述内容,也即对交互主题数据块进行数据辨识处理,生成从对象通信交互数据中删除异常事件的目标通信交互数据。辨识完成后结束流程。
[0107] 交互主题数据块包括不少于一个;对交互主题数据块进行数据辨识处理,生成从待分析通信交互数据中删除异常事件的目标通信交互数据,包括:从不少于一个交互主题数据块中,依照从约束边界到基准的分布情况,逐层确定一个交互主题数据块作为目标数据块;挑选目标数据块的描述内容方向;根据描述内容方向中数据块的特征描述值,计算目标数据块的辨识特征描述值;将目标数据块的特征描述值优化为辨识特征描述值,以在待分析通信交互数据中逐层辨识交互主题数据块,得到目标通信交互数据。
[0108] 根据描述内容方向中数据块的特征描述值,计算目标数据块的辨识特征描述值,包括:根据描述内容方向中每一数据块的特征描述值与目标数据块的特征描述值分别进行计算处理,得到描述内容方向中每一数据块对应的局部辨识特征描述值;基于描述内容方向中每一数据块对应的局部辨识特征描述值,计算目标数据块的辨识特征描述值。
[0109] 基于描述内容方向中每一数据块对应的局部辨识特征描述值,计算目标数据块的辨识特征描述值,包括:获得描述内容方向中每一数据块的辨识置信度,其中,描述内容方向中数据块差异目标数据块越小则对应辨识置信度越高;计算描述内容方向中每一数据块的辨识置信度与局部辨识特征描述值的乘积,得到描述内容方向中每一数据块对应的优化辨识特征描述值;将描述内容方向中数据块对应的优化辨识特征描述值之和除以描述内容方向中数据块的辨识置信度之和,得到目标数据块的辨识特征描述值。
[0110] 基于步骤S340将该数据块范围从约束边界到基准逐层快速行进式辨识,先处理数据块范围约束边界上的数据块,然后层层向内推进,直到辨识完数据块范围中所有的数据块。
[0111] 在上述基础上,提供了一种通信协议辨识装置,所述装置包括:
[0112] 数据获得模块,用于获得待分析通信交互数据,所述待分析通信交互数据中包括交互主题;
[0113] 主题识别模块,用于在所述待分析通信交互数据中识别所述交互主题对应的交互主题范围;
[0114] 数据确定模块,用于将所述交互主题范围进行目标值分类处理,以确定所述交互主题在所述交互主题范围中对应的交互主题数据块;
[0115] 数据辨识模块,用于对所述交互主题数据块进行数据辨识处理,生成从所述待分析通信交互数据中删除所述交互主题的目标通信交互数据。
[0116] 在上述基础上,示出了一种通信协议辨识系统,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。
[0117] 在上述基础上,还提供了一种计算机可读存储介质,其上存储的计算机程序在运行时实现上述的方法。
[0118] 综上,基于上述方案,获得待分析通信交互数据,所述待分析通信交互数据中包括交互主题;在所述待分析通信交互数据中识别所述交互主题对应的交互主题范围;将所述交互主题范围进行目标值分类处理,以确定所述交互主题在所述交互主题范围中对应的交互主题数据块;对所述交互主题数据块进行数据辨识处理,生成从所述待分析通信交互数据中删除所述交互主题的目标通信交互数据。
[0119] 以这种方式,不必依赖大规模训练数据,仅根据待分析通信交互数据自身的信息便可以精准地辨识出数据信息,从而可以提高协议确定的准确性和可靠性,在进行通信的时候,能确保正常通信。
[0120] 应当理解,上述所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD‑ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
[0121] 需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
[0122] 上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
[0123] 同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
[0124] 此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
[0125] 计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
[0126] 本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
[0127] 此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
[0128] 同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
[0129] 一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有适应性的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
[0130] 针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
[0131] 最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。
[0132] 以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。