
基本信息:
- 专利标题: 基于大模型集群的告警推送方法和监控系统
- 申请号:CN202510006671.7 申请日:2025-01-03
- 公开(公告)号:CN119865420A 公开(公告)日:2025-04-22
- 发明人: 吕书宁 , 姜建彪 , 张忠瑞
- 申请人: 浪潮云信息技术股份公司
- 申请人地址: 山东省济南市高新区浪潮路1036号浪潮科技园S01号楼
- 专利权人: 浪潮云信息技术股份公司
- 当前专利权人: 浪潮云信息技术股份公司
- 当前专利权人地址: 山东省济南市高新区浪潮路1036号浪潮科技园S01号楼
- 代理机构: 济南信达专利事务所有限公司
- 代理人: 李世喆; 姜鹏
- 主分类号: H04L41/0631
- IPC分类号: H04L41/0631 ; H04L41/22
摘要:
本发明提供了一种基于大模型集群的告警推送方法和监控系统。其中,该方法的实现主要是通过监控信息收集模块实时收集和处理来自vLLM框架的metrics接口的vLLM监控指标和GPU监控指标,利用信息处理模块对收集到的vLLM监控指标和GPU监控指标进行数据处理并将这些信息暴露为Prometheus可识别的metrics接口数据格式,再通过监控指标展示模块查询Prometheus以获取监控指标,并以大屏展示的形式呈现给运维人员,可以方便运维人员实时地查看大模型集群的运行状态和资源使用情况。此外,该方法还设置告警设置功能,当监控指标符合预设告警规则即在监控指标出现异常时,系统将告警信息提示推送给运维人员及时进行处理。通过上述方式能够提高系统监控的效率。
IPC结构图谱:
H | 电学 |
--H04 | 电通信技术 |
----H04L | 数字信息的传输,例如电报通信 |
------H04L41/00 | 用于数据交换网络,例如分组交换网络的维护、操作或管理的装置 |
--------H04L41/02 | .标准化;整合 |
----------H04L41/0631 | ..使用根本原因分析;利用通知、报警或基于决策标准的事件之间的相关性分析,例如分层、树或时间分析 |