移动网故障隐患智能定位系统转让专利

申请号 : CN201610033422.8

文献号 : CN105721194B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 蔡群陈琛

申请人 : 广州衡昊数据科技有限公司

摘要 :

移动网故障隐患智能定位系统的目的在于,利用大数据实时处理、机器学习技术等技术,实现全自动的运营商网络故障定位功能。通过可视化界面来配置定义处理流程和判断规则,将运维人员的经验固化到系统中,在提高系统灵活性的同时也使系统具备基础的判断智能。通过机器学习使系统具备主动学习和自动更新的功能。通过实时计算使系统具备秒级或分钟级的快速精准的响应能力。

权利要求 :

1.一种对移动网故障隐患进行智能定位的系统,所述系统通过实时计算平台和智能定位分析来实现故障定位;

所述智能定位分析包括人工经验映射固化和机器学习;

所述人工经验映射固化,包括定义故障判断流程和配置判断规则;

所述人工经验映射固化,通过可视化界面获取运维人员定义的处理流程和配置的判断规则;将所定义的故障判断处理流程和所配置的判断规则用在流程引擎和规则引擎上;

所述机器学习,用于从历史数据中学习故障判断规则;

其中,所述人工经验映射固化过程涉及以下组件:输入类组件、执行类组件、判断类组件、静态关联分析类组件和故障修复类组件;

所述输入类组件,负责输入数据的生成和采集,输入数据包括指标数据和指令日志;

所述执行类组件,负责下发指令到各个网元并获取指令的执行结果;

所述判断类组件,负责根据设定的判断规则对所述输入类组件提供的数据进行判断,并决定下一步动作;其中,判断规则是可配置的,支持各类逻辑表达式运算;

所述静态关联分析类组件,包括拓扑关联类和指标关联类;所述拓扑关联类,负责分析网元之间的共性,包括物理共性、网元连接共性和业务参数共性;所述指标关联类,负责分析不同指标之间的关联性,适用于多个不同指标同时出现问题或者一个指标在多个节点上出现问题的场合;

所述故障修复类组件,负责执行故障修复。

2.如权利要求1所述的系统,其特征在于,所述系统还包括:数据采集模块,用于利用实时流处理技术将网络信令数据或网络信令衍生数据进行实时采集并流入所述实时计算平台;

所述实时计算平台,用于对采集的数据进行清洗过滤、关联分析、分组汇聚和逻辑处理,形成特定周期的统计数据供所述智能定位分析使用;并将当前周期的统计数据跟上个周期或一段周期内的数据根据特定算法流程进行对比,获取到数据异动情况;

所述实时计算平台,还用于根据机器学习的训练结果进行所有检测网元的分类判断,以支持实时判断功能。

说明书 :

移动网故障隐患智能定位系统

【技术领域】

[0001] 移动通信软件开发人工智能机器学习大数据处理技术。【背景技术】
[0002] 近年来随着移动互联网手机用户的快速发展,2/3/4G网络规模和业务量随之迅速膨胀,由于手机用户往往是随时随地都在上网,而且流量资费也比较高,因此手机用户比固定宽带用户更加敏感网络质量,而且在网络发生故障时手机用户的投诉也更加及时和激烈,这无疑对移动运营商提供的网络服务质量提出了更高的保障要求。
[0003] 然而,网络规模的快速发展必然造成网络调整和工程量不断、网络设备数激增、网络结构更加复杂化,要确保网络设备全天候运行稳定对每一个移动运营商的维护人员都不是一件容易的事情!而且随着网络结构的复杂化,发生故障时,维护人员往往需要消耗大量的时间在故障定位上,虽然目前运营商已有一些自动化手段实现告警推送,但对于汇聚网元(如:DNS、CE、FW、SW、AR、BR)故障定位的时间往往占故障处理总时长的70%以上,经常出现过重大故障定位时间超过1个小时,用户投诉一小时数万宗的情况,给运营商带来极大的经济损失。
[0004] 汇聚网元在出故障或人为数据定义错误的时候通常影响面大且没有告警可以参考,定位故障点时,需人工结合网络拓扑和各种网元设备的多个甚至几十个性能指标进行经验性判断分析,给出最可疑的网元节点,再针对性排查分析最终找到故障点,因此,故障定位效率较低,对维护人员经验和能力依赖性大。而对于运营商来讲,培养一个网络维护专家至少要5年的工作经验沉淀,单是人才培养成本至少1人100万以上。
[0005] 为让移动运营商减少网络故障投诉量、提高客户满意度,就必须帮助移动运营商解决网络故障定位难的问题,提升网络故障隐患处理速度。为此,本发明提出将网络性能指标异动情况、网管统计等动态数据与网络拓扑等静态信息关联整合,采用大数据处理技术,将维护人员的故障处理维护经验(知识库)映射固化到系统中,建立一套5分钟内快速精准的故障隐患智能定位系统(Intelligent Failure Locating System),实现“先于用户发现问题,先于投诉解决问题”的目标。
[0006] 随着网络的升级发展,网络维护方式也在不断演进,从拼人力的人工时代经过维护人员的努力,已经成功向自动化时代转变,目前已经有大批的系统予以支撑,给精细化维护提供了条件和基础。但是在数据业务不断发展的今天,现有的自动化手段同样面临挑战——先于用户发现问题,先于投诉解决问题。网络维护亟需借助大数据技术,探索从自动化向智能化时代演进之路,以顺应网络的发展。
[0007] 维护能力的智能化可以明显提升网络设备故障、隐患和用户投诉的处理效率。随着网络的不断发展和扩容,新网络通信技术的加入,势必会对本系统带来新的挑战。因此,基于大数据技术的移动网故障隐患智能定位系统需要具备一定自动学习能力和便捷的人机交互模式(方便调整网络拓扑配置),不断维持系统的“学习成长”。【发明内容】
[0008] 本发明的目的在于,利用大数据实时处理、机器学习技术等技术,实现全自动的运营商网络故障定位功能。通过可视化界面来配置定义处理流程和判断规则,将运维人员的经验固化到系统中,在提高系统灵活性的同时也使系统具备基础的判断智能。通过机器学习使系统具备主动学习和自动更新的功能。通过实时计算使系统具备秒级或分钟级的快速精准的响应能力。
[0009] 1.大数据指标计算
[0010] 利用信令数据或信令数据衍生物作为数据源,通过实时流计算引擎源源不断地读取数据,然后在通用的大数据实时处理平台上,通过针对行业业务优化的特定算法进行拆解,分组,汇总生成各类指标,供后续的智能定位分析模块使用。
[0011] 2.智能定位分析
[0012] 智能定位分析包括运维人员经验的映射固化和机器学习。前者是通过灵活的配置界面,将人工的处理和判断流程映射到机器中,从而使机器具备运维人员的大部分处理能力,节省时间和金钱。后者则是采用人工智能技术,让机器从历史数据中学习故障判断规则,并在生产过程中不断提升和优化判断能力。【附图说明】
[0013] 附图1是故障智能定位总体架构图
[0014] 附图2是实时计算平台处理流程图
[0015] 附图3是智能定位分析处理流程图
[0016] 附图4是故障判断规则机器学习流程图【具体实施方式】
[0017] 1.采用实时计算框架和消息队列
[0018] 批处理的做法是先收集齐大量数据,然后再集中处理。实时计算(也称作流处理)的做法则是持续接收消息(消息是由事件产生的),每个消息被接收后都会被立刻处理。这种做法的好处是能够及时处理数据。批处理和流式处理的区别类似于手扶梯与升降梯载人方式的的关系。“消息”是数据传输中的数据单位。“消息队列”是在消息的传输过程中保存消息的容器。消息队列管理器在将消息从它的源中继到它的目标时充当中间人。
[0019] 实时计算系统常常采用消息队列作为其接收源数据的手段,同时在实时计算系统内部也大量采用消息队列在各个处理环节之间传递数据。
[0020] 在故障隐患定位系统中采用消息队列,源数据通过网络直接送达实时系统进行处理,没有经过数据库,这种做法能有效提高实时性。
[0021] 2.采用横向扩展框架
[0022] 所谓横向扩展,是指当一个集群的处理能力不能满足要求时,只要增加一些新的节点,集群的能力就能得到有效的提升(例如呈线性提升)。由于硬件性能的限制,纵向扩展(Scale up)的程度是有限。但采用集群方式,横向扩展的空间可以很大。
[0023] 3.人工经验映射固化
[0024] 人工经验映射固化主要包括流程定义和判断规则配置。一成不变的流程和判断规则是无法适应情势的变化的,我们提供一个灵活实用的流程定义引擎和一个能满足绝大部分行业生产需求的规则引擎,当业务场景变化或者有新需求时,只需变更引擎配置,就能改变系统功能,不需要修改代码。
[0025] 4.机器学习
[0026] 所谓机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
[0027] 通过机器学习,可以从网元历史指标中发掘出人的经验以外的其他的规律,这些机器发现的新规律,可以自动更新到实时计算平台的算法配置规则中,从而使实时计算平台具备更丰富的判断能力,同时也节省了大量的人力投入。
[0028] 【技术方案】
[0029] 利用优化开源的storm实时流处理技术结合kafka消息队列来实现可配置化的网络数据指标分析功能,总体架构方案图见说明书附图1。
[0030] 1.实时计算平台
[0031] 原始清单作为输入,数据会经过如下步骤:
[0032] a.清洗过滤单元:该单元主要将数据进行清洗,清除一些垃圾数据,并且过滤掉不符合条件的数据。
[0033] b.关联分析单元:该单元主要将需要关联的数据根据一定的关联规则进行参数关联,得到真正要统计的维度名称。
[0034] c.分组汇聚单元:则将要统计的维度值进行分组预处理,预处理完成后相同的维度值将被分配汇聚到下一步同一个处理单元里进行汇总处理。
[0035] d.逻辑处理单元:则是根据配置的规则对数据进行计算,包括计数,汇总,平均等操作。
[0036] e.持久化数据单元:将汇总的指标数据持久化到数据库或者磁盘上。
[0037] f.异动判断单元:该单元将实时汇总的数据跟上一个统计周期的数据根据特定的算法进行对比,判断出数据波动或超过预警阈值等异常现象。
[0038] 详细过程图请见说明书附图2
[0039] 2.人工经验映射固化
[0040] 详细过程图请见说明书附图3。以下为附图3的说明。
[0041]
[0042]
[0043] 3.机器学习
[0044] 通过机器学习,可使系统给具备不断优化和持续学习的能力,能够主动识别新的问题和适应新类型的网元。
[0045] 算法和特征向量结构设计
[0046] 机器学习的核心算法直接影响到执行故障定位的性能和准确度。基于简单实用的原则,我们采用朴素贝叶斯算法,根据不同类型的网元,设计不同的向量特性属性,规划不同网元的训练历史数据,分别训练他们的朴素贝叶斯分类器,训练好的贝叶斯分类器在实际应用中根据网元的特征属性向量值计算之后把所有检测的网元都分别归类为三类:正常、异常、预警。本项目中考察的对象是实际运营商网络中的各种网元,各种网元的功能各不相同,他们的特征属性也是各不相干,因此,在实际应用中每类网元也需要独立的分类器。
[0047] 机器训练
[0048] 机器训练首先要收集一部分具有代表性的数据,通过数据清洗和转换步骤,得到机器人模型的特征属性值向量,并根据实际情况给出相对应的目标结果,将特征值和目标值两部分一起构成机器人的训练数据集合,通过对机器人模型的训练,模型根据自身的学习算法,不断调整模型本身的运算参数,最终在本训练集运算结果和目标结果之间的标准方差达到最小值,即是完成训练和学习。
[0049] 可信度验证
[0050] 机器人可信度验证方法,分为三部步:
[0051] 1)收集新的训练结果集作为验证数据集,同样包含特征属性值和目标结果。
[0052] 2)应用训练结果对验证目标的特征属性值做分类运算,得到分类结果。
[0053] 3)将步骤1的计算分类结果与目标结果对比,出现误差采用计数统计方式,假设N个出现误差,总样本量为M,那么该模型的训练结果的可信度为:
[0054] Y=(M-N)/M*100%
[0055] 如果可信度Y没有达到预先设定的阀值,则需要重复采集训练样本,样本库可增量采集,重新训练模型,直到可信度达到预期为止。
[0056] 故障定位判断
[0057] 经过历史数据训练之后,得到的是各类网元各种指标组合之下,网元发生故障或警告的概率。利用这些概率,套用朴素贝叶斯分类器公式,即可以计算出当前任何一个该类网元可能出现故障或警告的概率。
[0058] 【结束语】
[0059] 本系统使用大数据实时处理、机器学习技术等技术,通过实时指标计算、人工经验映射和固化以及机器学习等方式,实现全自动的运营商网络故障定位功能。本系统能同时发挥人工经验和机器学习各自的优势,有效提高系统的故障判断能力。此外,系统还具备秒级或分钟级的快速响应能力。这些特点使本系统能有效提升电信运营商的网络故障定位的速度和质量。本发明最初运用于电信运营商的移动网络故障定位,实际上,对固网、大型内部专网等应用场景,本发明仍然适用。通过配置相应的指标参数、判断规则和流程,系统就能支持固网和大型内部专用网的故障隐患智能定位。