一种基于数字调度的通信设备转让专利

申请号 : CN202110879516.8

文献号 : CN113672602B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴凯律谢公义陈卫军焦龙超袁喆崇潘胜江王文月杨旭华项子昊戴晓静赵情梅汤长龙

申请人 : 申瓯通信设备有限公司

摘要 :

本发明涉及一种基于数字调度的通信设备,其特征在于,包括采集单元,其用以采集数据包;解析单元,其与所述采集单元连接用以解析数据包内的关键字符并标记数据包,标记完成后,所述解析单元将带有标记的数据包发送至所述存储单元;存储单元,其与所述解析单元连接用以存储带有标记的数据包;筛选单元,其与所述存储单元连接用以根据所述控制单元的指令筛选数据包并将筛选后的数据包发送至所述清洗单元;清洗单元,其与所述筛选单元连接用以根据所述控制单元的指令清洗数据包中的冗余数据;控制单元,其与所述采集单元、所述解析单元、所述存储单元、所述筛选单元以及所述清洗单元连接用以控制设备运行。

权利要求 :

1.一种基于数字调度的通信设备,其特征在于,包括,

采集单元,其用以采集数据包;

解析单元,其与所述采集单元连接用以解析数据包内的关键字符并标记数据包,标记完成后,所述解析单元将带有标记的数据包发送至存储单元;

存储单元,其与所述解析单元连接用以存储带有标记的数据包;

筛选单元,其与所述存储单元连接用以根据控制单元的指令筛选数据包并将筛选后的数据包发送至清洗单元;

清洗单元,其与所述筛选单元连接用以根据所述控制单元的指令清洗数据包中的冗余数据;

控制单元,其与所述采集单元、所述解析单元、所述存储单元、所述筛选单元以及所述清洗单元连接用以控制设备运行;

在所述采集单元采集数据包时,所述清洗单元获取数据包信息,每个数据包信息数量为Mi、每条数据信息的字符长度为Li,i为正整数,所述清洗单元预设有标准数据信息字符长度L0,其中,标准数据信息字符长度L0包括第一标准数据信息字符长度L1和第二标准数据信息字符长度L2,在进行数据清洗时,所述清洗单元依次将各条数据信息字符长度Li与标准数据信息字符长度L0进行比对并根据比对结果删除数据信息冗长的数据和数据信息简短的数据;

所述清洗单元从数据信息中选取n个字符作为字符比对单位,在选取完成后,所述清洗单元以n个字符作为一组,将所述数据信息字符分为多组单位字符,分组完成后,清洗单元将字符比对单位依次与各组单位字符进行比对以剔除该数据信息字符中的重复字符;具体为,当所述清洗单元对数据信息字符长度进行清洗且Li>L2时,所述清洗单元从数据信息Wi的第1个字符开始,选取n个字符,将n个字符与数据信息Wi字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符并删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断;

从数据信息Wi的第2个字符开始,选取n个字符,将n个字符与数据信息Wi字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符并删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于

90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断;

从数据信息Wi的第k个字符开始,选取n个字符,将n个字符与数据信息Wi字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符并删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于

90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断,其中,k<n;

所述清洗单元将删除重复字符信息后的数据信息字符长度记为Lia。

2.根据权利要求1所述的基于数字调度的通信设备,其特征在于,在进行数据清洗时,所述清洗单元将实际数据信息字符长度Li与标准数据信息字符长度进行比对,其中L1<L2;

当Li<L1时,所述清洗单元判定该数据信息字符长度简短并将删除该数据信息;

当L1≤Li≤L2时,所述清洗单元判定该数据信息字符长度符合标准;

当Li>L2时,所述清洗单元判定该数据信息字符长度冗长并进行进一步判断。

3.根据权利要求1所述的基于数字调度的通信设备,其特征在于,当所述清洗单元判定数据信息不含有重复字符时,所述清洗单元从数据信息Wi的倒数第一个字符开始,倒数n个字符,将n个字符与数据信息Wi的字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符并删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断;

从数据信息Wi的倒数第k个字符开始,选取n个字符,将n个字符与数据信息Wi字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符并删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于

90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断,其中,k<n;

所述清洗单元将删除重复字符信息后的数据信息字符长度记为Lib。

4.根据权利要求3所述的基于数字调度的通信设备,其特征在于,当所述清洗单元n个字符与数据信息字符的重合度小于90%时,所述清洗单元从数据信息Wi找到出现缺失的第1个字符,从缺失的第2个字符开始重新选择n个字符,所述清洗单元将n个字符与Wi的数据字符信息进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断;

所述清洗单元将删除重复字符信息后的数据信息字符长度记为Lic。

5.根据权利要求4所述的基于数字调度的通信设备,其特征在于,所述清洗单元对数据信息是否包含重复字符进行判定 时,所述清洗单元中预设有近似信息库,所述近似信息包含有n个信息字符的近似字符信息,分别为Q1,Q2,......,Qn,所述清洗单元根据近似信息库对数据信息进行进一步判断,判断数据信息中是否包含重复字符,若所述清洗单元判定数据信息中含有重复字符,所述清洗单元将删除重复的字符信息,若所述清洗单元判定数据信息中不含有重复字符,所述清洗单元将删除该数据信息;

所述清洗单元将删除重复字符信息后的数据信息字符长度记为Lid。

6.根据权利要求5所述的基于数字调度的通信设备,其特征在于,所述清洗单元将删除重复字符信息后的数据信息字符长度与标准数据信息字符长度进行比对;

当Lij<L1时,所述清洗单元判定该数据信息字符长度简短并将删除该数据信息;

当L1≤Lij≤L2时,所述清洗单元判定该数据信息字符长度符合标准;

当Lij>L2时,所述清洗单元判定该数据信息字符长度冗长并删除该数据信息,其中,j=a,b,c,d;

所述清洗单元将删除重复字符信息后的数据信息记为Wi’。

7.根据权利要求6所述的基于数字调度的通信设备,其特征在于,所述清洗单元判定关键词字符信息时,所述清洗单元对删除重复字符信息后的数据信息Wi’内的关键词字符进行判定,所述清洗单元从删除重复字符信息后的数据信息Wi’的第1个字符开始,选取n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并进行进一步判断;

从删除重复字符信息后的数据信息Wi’的第2个字符开始,选取n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并进行进一步判断;

从删除重复字符信息后的数据信息Wi’的第k个字符开始,选取n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并进行进一步判断;

从删除重复字符信息后的数据信息Wi’的倒数第1个字符开始,倒数n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并删除该数据信息;

从删除重复字符信息后的数据信息Wi’的倒数第k个字符开始,倒数n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并删除该数据信息,其中,k<n。

说明书 :

一种基于数字调度的通信设备

技术领域

[0001] 本发明涉及通信设备技术领域,尤其涉及一种基于数字调度的通信设备。

背景技术

[0002] 互联网规模和覆盖面的迅速增长带来了信息超载的问题,过量信息同时呈现使得用户无法从中获取对自己有用的部分,导致信息的使用效率反而降低。
[0003] 但在现有技术的通信设备中,缺少对采集的信息进行清洗的过程,造成设备超载运行且对未经清洗的信息分析导致错误判断,无法精准的得到有效信息。

发明内容

[0004] 为此,本发明提供一种基于数字调度的通信设备,用以克服现有技术中缺少对采集的信息进行清洗的过程,造成设备超载运行且对未经清洗的信息分析导致错误判断,无法精准的得到有效信息的问题。
[0005] 为实现上述目的,本发明提供一种基于数字调度的通信设备,其特征在于,包括,[0006] 采集单元,其用以采集数据包;
[0007] 解析单元,其与所述采集单元连接用以解析数据包内的关键字符并标记数据包,标记完成后,所述解析单元将带有标记的数据包发送至所述存储单元;
[0008] 存储单元,其与所述解析单元连接用以存储带有标记的数据包;
[0009] 筛选单元,其与所述存储单元连接用以根据所述控制单元的指令筛选数据包并将筛选后的数据包发送至所述清洗单元;
[0010] 清洗单元,其与所述筛选单元连接用以根据所述控制单元的指令清洗数据包中的冗余数据;
[0011] 控制单元,其与所述采集单元、所述解析单元、所述存储单元、所述筛选单元以及所述清洗单元连接用以控制设备运行;
[0012] 在所述采集单元采集数据包时,所述清洗单元获取数据包信息,每个数据包信息数量为Mi、每条数据信息的字符长度为Li,i为正整数,所述清洗单元预设有标准数据信息字符长度L0,在进行数据清洗时,所述清洗单元依次将各条数据信息字符长度Li与标准数据信息字符长度L0进行比对并根据比对结果删除数据信息冗长的数据和数据信息简短的数据;
[0013] 所述清洗单元从数据信息中选取n个字符作为字符比对单位,在选取完成后,所述清洗单元以n个字符作为一组,将所述数据信息字符分为多组单位字符,分组完成后,清洗单元将字符比对单位依次与各组单位字符进行比对以剔除该数据信息字符中的重复字符;若n个字符信息与该数据信息字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符并删除重复的字符信息,若n个字符信息与数据信息字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符。
[0014] 进一步地,所述清洗单元预设有标准数据信息字符长度L0,包括第一标准数据信息字符长度L1和第二标准数据信息字符长度L2,在进行数据清洗时,所述清洗单元将实际数据信息字符长度Li与标准数据信息字符长度进行比对,其中L1<L2;
[0015] 当Li<L1时,所述清洗单元判定该数据信息字符长度简短并将删除该数据信息;
[0016] 当L1≤Li≤L2时,所述清洗单元判定该数据信息字符长度符合标准;
[0017] 当Li>L2时,所述清洗单元判定该数据信息字符长度冗长并进行进一步判断。
[0018] 进一步地,当所述清洗单元对数据信息字符长度进行清洗且Li>L2时,所述清洗单元从数据信息Wi的第1个字符开始,选取n个字符,将n个字符与数据信息Wi字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符并删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断;
[0019] 从数据信息Wi的第2个字符开始,选取n个字符,将n个字符与数据信息Wi字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断;
[0020] 从数据信息Wi的第k个字符开始,选取n个字符,将n个字符与数据信息Wi字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断,其中,k<n;
[0021] 所述清洗单元将删除重复字符信息后的数据信息字符长度记为Lia。
[0022] 进一步地,当所述清洗单元判定数据信息不含有重复字符时,所述清洗单元从数据信息Wi的倒数第一个字符开始,倒数n个字符,将n个字符与数据信息Wi的字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断;
[0023] 从数据信息Wi的倒数第k个字符开始,选取n个字符,将n个字符与数据信息Wi字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断,其中,k<n;
[0024] 所述清洗单元将删除重复字符信息后的数据信息字符长度记为Lib。
[0025] 进一步地,当所述清洗单元n个字符与数据信息字符的重合度小于90%时,所述清洗单元从数据信息Wi找到出现缺失的第1个字符,从缺失的第2个字符开始重新选择n个字符,所述清洗单元将n个字符与Wi的数据字符信息进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断;
[0026] 所述清洗单元将删除重复字符信息后的数据信息字符长度记为Lic。
[0027] 进一步地,所述清洗单元对数据信息是否包含重复字符时,所述清洗单元中预设有近似信息库,所述近似信息包含有n个信息字符的近似字符信息,分别为Q1,Q2,......,Qn,所述清洗单元根据近似信息库对数据信息进行进一步判断,判断数据信息中是否包含重复字符,若所述清洗单元判定数据信息中含有重复字符,所述清洗单元将删除含有重复字符删除重复的字符信息,若所述清洗单元判定数据信息中不含有重复字符,所述清洗单元将删除该数据信息;
[0028] 所述清洗单元将删除重复字符信息后的数据信息字符长度记为Lid。
[0029] 进一步地,所述清洗单元将删除重复字符信息后的数据信息字符长度与标准数据信息字符长度进行比对;
[0030] 当Lij<L1时,所述清洗单元判定该数据信息字符长度简短并将删除该数据信息;
[0031] 当L1≤Lij≤L2时,所述清洗单元判定该数据信息字符长度符合标准;
[0032] 当Lij>L2时,所述清洗单元判定该数据信息字符长度冗长并删除该数据信息,其中,j=a,b,c,d,;
[0033] 所述清洗单元将删除重复字符信息后的数据信息记为Wi’。
[0034] 进一步地,所述清洗单元判定关键词字符信息时,所述清洗单元将删除重复字符信息后的数据信息Wi’内的关键词字符进行判定,所述清洗单元从删除重复字符信息后的数据信息Wi’的第1个字符开始,选取n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并进行进一步判断;
[0035] 从删除重复字符信息后的数据信息Wi’的第2个字符开始,选取n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并进行进一步判断;
[0036] 从删除重复字符信息后的数据信息Wi’的第k个字符开始,选取n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并进行进一步判断;
[0037] 从删除重复字符信息后的数据信息Wi’的倒数第1个字符开始,倒数n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并删除该数据信息;
[0038] 从删除重复字符信息后的数据信息Wi’的倒数第k个字符开始,倒数n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并删除该数据信息,其中,k<n。
[0039] 与现有技术相比,本发明的有益效果在于,所述清洗单元预设有标准数据信息字符长度,在进行数据清洗时,所述清洗单元将实际数据信息字符长度与标准数据信息字符长度进行比对并根据比对结果将数据信息冗长和简短进行删除,所述清洗单元从数据信息中选取n个字符与数据信息字符进行比对并根据对比结果判定是否数据信息中含有重复信息,通过对数据信息字符长度与重复信息的删除,可以有效的对数据信息进行清洗,通过清洗数据信息,可以有效的降低设备的负荷,同时,可以精准的得到有效信息。
[0040] 进一步地,所述清洗单元预设有标准数据信息字符长度,在进行数据清洗时,所述清洗单元对数信息的长度进行准确判断,通过判断数据信息的长度对数据信息过于简短的信息进行删除,通过删除不符合标准的数据信息,可以有效的对数据信息进行清洗,通过清洗数据信息,可以有效的降低设备的负荷,同时,可以精准的得到有效信息。
[0041] 进一步地,当所述清洗判定数据信息长度冗长时,所述清洗单元选取n个字符,将n个字符与数据信息Wi字符进行比对,当字符重合度大于等于90%时,所述清洗单元判定数据信息中含有重复信息并删除重复信息字符,通过删除重复信息字符,可以有效的对数据信息进行清洗,通过清洗数据信息,可以有效的降低设备的负荷,同时,可以精准的得到有效信息。
[0042] 进一步地,当所述清洗单元判定数据信息不含有重复字符时,所述清洗单元倒数n个字符,将n个字符与数据信息Wi字符进行比对,当字符重合度大于等于90%时,所述清洗单元判定数据信息中含有重复信息并删除重复信息字符,通过删除重复信息字符,可以有效的对数据信息进行清洗,通过清洗数据信息,可以有效的降低设备的负荷,同时,可以精准的得到有效信息。
[0043] 进一步地,所述清洗单元n个字符与数据信息字符的重合度小于90%时,所述清洗单元从数据信息Wi找到出现缺失的第1个字符,从缺失的第2个字符开始重新选择n个字符,所述清洗单元将n个字符与Wi的数据字符信息进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符删除重复的字符信息,通过删除重复信息字符,可以有效的对数据信息进行清洗,通过清洗数据信息,可以有效的降低设备的负荷,同时,可以精准的得到有效信息。
[0044] 进一步地,所述清洗单元对数据信息是否包含重复字符时,所述清洗单元中预设有近似信息库,所述清洗单元对数据信息是否包含重复字符时,通过对近似信息的判断,可以有效的对数据信息进行清洗,通过清洗数据信息,可以有效的降低设备的负荷,同时,可以精准的得到有效信息。
[0045] 进一步地,所述清洗单元将删除重复字符信息后的数据信息字符长度与标准数据信息字符长度进行比对,通过二次数据信息的比对,可以有效的对数据信息进行清洗,通过清洗数据信息,可以有效的降低设备的负荷,同时,可以精准的得到有效信息。
[0046] 进一步地,所述清洗单元判定关键词字符信息时,所述清洗单元将删除重复字符信息后的数据信息Wi’内的关键词字符进行判定,通过对数据信息中是否含有关键词字符,对数据信息的实用性进行准确判断,通过判断数据信息的实用性,可以有效的对数据信息进行清洗,通过清洗数据信息,可以有效的降低设备的负荷,同时,可以精准的得到有效信息。

附图说明

[0047] 图1为本发明所述一种基于数字调度的通信设备的结构示意图。

具体实施方式

[0048] 为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
[0049] 下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
[0050] 需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0051] 此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
[0052] 请参阅图1所示,本发明实施例的框架示意图,一种基于数字调度的通信设备,包括采集单元20、解析单元30、存储单元40、筛选单元50、清洗单元60以及控制单元10;
[0053] 所述采集单元20,其用以采集数据包;
[0054] 所述解析单元30,其与所述采集单元20连接用以解析数据包内的关键字符并标记数据包,标记完成后,所述解析单元将带有标记的数据包发送至所述存储单元40;
[0055] 所述存储单元40,其与所述解析单元30连接用以存储带有标记的数据包;
[0056] 所述筛选单元50,其与所述存储单元40连接用以根据所述控制单元的指令筛选数据包并将筛选后的数据包发送至所述清洗单元;
[0057] 所述清洗单元60,其与所述筛选单元50连接用以根据所述控制单元的指令清洗数据包中的冗余数据;
[0058] 所述控制单元10,其与所述采集单元20、所述解析单元30、所述存储单元40、所述筛选单元50以及所述清洗单元60连接用以控制设备运行;
[0059] 在所述采集单元采集数据包时,所述清洗单元获取数据包信息,每个数据包信息数量为Mi、每条数据信息的字符长度为Li,i为正整数,所述清洗单元预设有标准数据信息字符长度L0,在进行数据清洗时,所述清洗单元依次将各条数据信息字符长度Li与标准数据信息字符长度L0进行比对并根据比对结果删除数据信息冗长的数据和数据信息简短的数据;
[0060] 所述清洗单元从数据信息中选取n个字符作为字符比对单位,在选取完成后,所述清洗单元以n个字符作为一组,将所述数据信息字符分为多组单位字符,分组完成后,清洗单元将字符比对单位依次与各组单位字符进行比对以剔除该数据信息字符中的重复字符;若n个字符信息与该数据信息字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符并删除重复的字符信息,若n个字符信息与数据信息字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符。
[0061] 具体而言,所述清洗单元预设有标准数据信息字符长度L0,包括第一标准数据信息字符长度L1和第二标准数据信息字符长度L2,在进行数据清洗时,所述清洗单元将实际数据信息字符长度Li与标准数据信息字符长度进行比对,其中L1<L2;
[0062] 当Li<L1时,所述清洗单元判定该数据信息字符长度简短并将删除该数据信息;
[0063] 当L1≤Li≤L2时,所述清洗单元判定该数据信息字符长度符合标准;
[0064] 当Li>L2时,所述清洗单元判定该数据信息字符长度冗长并进行进一步判断。
[0065] 具体而言,当所述清洗单元对数据信息字符长度进行清洗且Li>L2时,所述清洗单元从数据信息Wi的第1个字符开始,选取n个字符,将n个字符与数据信息Wi字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符并删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断;
[0066] 从数据信息Wi的第2个字符开始,选取n个字符,将n个字符与数据信息Wi字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断;
[0067] 从数据信息Wi的第k个字符开始,选取n个字符,将n个字符与数据信息Wi字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断,其中,k<n;
[0068] 所述清洗单元将删除重复字符信息后的数据信息字符长度记为Lia。
[0069] 具体而言,当所述清洗单元判定数据信息不含有重复字符时,所述清洗单元从数据信息Wi的倒数第一个字符开始,倒数n个字符,将n个字符与数据信息Wi的字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断;
[0070] 从数据信息Wi的倒数第k个字符开始,选取n个字符,将n个字符与数据信息Wi字符进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断,其中,k<n;
[0071] 所述清洗单元将删除重复字符信息后的数据信息字符长度记为Lib。
[0072] 具体而言,当所述清洗单元n个字符与数据信息字符的重合度小于90%时,所述清洗单元从数据信息Wi找到出现缺失的第1个字符,从缺失的第2个字符开始重新选择n个字符,所述清洗单元将n个字符与Wi的数据字符信息进行比对,若n个字符信息与数据信息Wi字符重合度大于等于90%,所述清洗单元判定该数据信息中含有重复字符删除重复的字符信息,若n个字符信息与数据信息Wi字符重合度小于90%,所述清洗单元判定该数据信息中不含有重复字符并进行进一步判断;
[0073] 所述清洗单元将删除重复字符信息后的数据信息字符长度记为Lic。
[0074] 具体而言,所述清洗单元对数据信息是否包含重复字符时,所述清洗单元中预设有近似信息库,所述近似信息包含有n个信息字符的近似字符信息,分别为Q1,Q2,......,Qn,所述清洗单元根据近似信息库对数据信息进行进一步判断,判断数据信息中是否包含重复字符,若所述清洗单元判定数据信息中含有重复字符,所述清洗单元将删除含有重复字符删除重复的字符信息,若所述清洗单元判定数据信息中不含有重复字符,所述清洗单元将删除该数据信息;
[0075] 所述清洗单元将删除重复字符信息后的数据信息字符长度记为Lid。
[0076] 具体而言,所述清洗单元将删除重复字符信息后的数据信息字符长度与标准数据信息字符长度进行比对;
[0077] 当Lij<L1时,所述清洗单元判定该数据信息字符长度简短并将删除该数据信息;
[0078] 当L1≤Lij≤L2时,所述清洗单元判定该数据信息字符长度符合标准;
[0079] 当Lij>L2时,所述清洗单元判定该数据信息字符长度冗长并删除该数据信息,其中,j=a,b,c,d,;
[0080] 所述清洗单元将删除重复字符信息后的数据信息记为Wi’。
[0081] 具体而言,所述清洗单元判定关键词字符信息时,所述清洗单元将删除重复字符信息后的数据信息Wi’内的关键词字符进行判定,所述清洗单元从删除重复字符信息后的数据信息Wi’的第1个字符开始,选取n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并进行进一步判断;
[0082] 从删除重复字符信息后的数据信息Wi’的第2个字符开始,选取n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并进行进一步判断;
[0083] 从删除重复字符信息后的数据信息Wi’的第k个字符开始,选取n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并进行进一步判断;
[0084] 从删除重复字符信息后的数据信息Wi’的倒数第1个字符开始,倒数n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并删除该数据信息;
[0085] 从删除重复字符信息后的数据信息Wi’的倒数第k个字符开始,倒数n个字符,将n个字符与标准关键词字符信息Y0进行比对,若n个字符信息与标准关键词字符信息Y0的重合度大于等于90%,所述清洗单元判定该数据信息中含有关键词字符,若n个字符信息与标准关键词字符信息Y0重合度小于90%,所述清洗单元判定该数据信息中不含有关键词字符并删除该数据信息,其中,k<n。
[0086] 具体而言,在进行数据通信时,采集单元20将采集的数据包发送至解析单元30,解析单元30对接收到的数据包进行解析并对数据包内的关键字符济宁标记,标记完成后,解析单元30将标记后的数据包发送至存储单元40内进行存储,当控制单元发送数据筛选指令至筛选单元50时,筛选单元50将从存储单元40中提取对应的数据包,提起完成后,筛选单元50将数据包发送至清洗单元60,清洗单元根据控制单元发送的关键词字符指令对数据包的数据进行清洗,通过本发明可以有效的对数据信息进行清洗,通过清洗数据信息,可以有效的降低设备的负荷,同时,可以精准的得到有效信息。
[0087] 至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
[0088] 以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。