一种数字化计算平台中的集群架构性能评估方法转让专利

申请号 : CN202311544071.3

文献号 : CN117271268B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张纯熠郭挺杨文海

申请人 : 成都大征创智科技有限公司

摘要 :

本发明公开了一种数字化计算平台中的集群架构性能评估方法,包括以下步骤:S1:修改Gem5源码,实时输出Gem5的关键性能指标;S2:编写C++监控程序,实时输出负载运行期间虚拟机内部的性能数据;S3:实时采集S1和S2输出的指标和数据,并进行分析和处理,然后存储到数据库中;S4:编写可视化程序;S5:运行仿真集群,输出测试负载运行期间的关键性能指标和虚拟机内部的性能数据,并进行可视化展示,S6:根据S5的可视化展示的结果,调整仿真集群运行参数;S7:重复S5至S6,直至仿真集群达到预定目标,本申请引入实时监控机制,和开发可视化模块,大幅提高了数字化集群性能评估的准确性和真实性,可以更准确的找出集群的性能瓶颈,降低了验证成本。

权利要求 :

1.一种数字化计算平台中的集群架构性能评估方法,其特征在于,包括以下步骤:S1:修改Gem5源码,实时输出Gem5的关键性能指标;

Gem5源码具体修改方法为:在Gem5的仿真入口添加代码,增加全局循环事件,即从全局事件Global Event类继承一个新的类Stat Global Event,该全局事件每秒触发一次,并收集Gem5内的关键性能指标,关键性能指标包括:仿真秒数、仿真的指令数、仿真的操作数、CPU关键指标、内存关键指标,并将收集到的指标以JSON格式输出到指定目录;

S2:编写C++监控程序,并将该程序部署到Gem5镜像中,该监控程序用于实时输出负载运行期间虚拟机内部的性能数据;

监控程序作为一个子进程和测试负载同时运行,按每秒一次的间隔收集虚拟机内的性能数据,性能数据包括:CPU利用率、内存占用率、磁盘IO、网络IO,监控程序按约定格式将收集到的关键性能数据输出至虚拟机的控制台;

S3:编写Python程序实时采集S1和S2输出的指标和数据,并进行分析和处理,然后存储到数据库中;

S4:编写可视化程序;

采用unity编写可视化展示客户端,并用接口获取整个集群所有Gem5节点和虚拟机内部的性能数据;

S5:运行仿真集群,仿真集群运行后输出测试负载运行期间各个Gem5的关键性能指标和虚拟机内部的性能数据,并通过可视化程序多维度实时可视化展示;

S6:根据S5的可视化展示的结果,通过逐步调整仿真集群运行参数,使关键性能指标和性能数据逼近真实集群;

S7:重复S5至S6,直至仿真集群达到预定目标。

2.根据权利要求1所述的一种数字化计算平台中的集群架构性能评估方法,其特征在于,S5中,可视化程序实时从数据库内获取整个集群的性能数据和关键性能指标,并通过图表、曲线、趋势进行展示。

说明书 :

一种数字化计算平台中的集群架构性能评估方法

技术领域

[0001] 本发明属于计算机测试技术领域,具体涉及一种数字化计算平台中的集群架构性能评估方法。

背景技术

[0002] 数字化计算平台中的集群架构性能评估方法是指在数字计算平台上,利用仿真和建模的方式,对集群计算系统的性能进行评测和分析的方法。其中的数字化计算平台通常采用仿真软件来建立集群计算系统的数字化模型,如使用gem5等开源仿真平台,gem5是一款开源、模块化、可扩展的计算机系统架构模拟平台,它可以对计算机系统的各个组成部分进行建模和仿真,包括CPU、内存系统、I/O设备等。对Gem5平台上的集群系统进行全面和深入的性能评估与分析,可以找出性能瓶颈并提出优化建议,但是也存在以下几个方面的问题:
[0003] 1、无法实时监控性能指标:现有Gem5评估只能在模拟结束后,汇总统计各性能指标,无法实时输出和监控指标,了解运行动态变化。
[0004] 2、缺乏直观的可视化展示:结果仅以报表形式呈现,缺乏实时的可视化组件,不够直观。难以把握系统整体状态。
[0005] 3、结果解释和分析难度大:正确解释和分析仿真结果需要非常专业的知识和经验,依靠人工经验分析结果,准确度和效率都受限。
[0006] 这些问题导致Gem5仿真获得的性能评估数据无法正确反应与真实集群的差异。如何更提高仿真集群性能评估的准确性,是数字化集群性能评估面临的重要难题。

发明内容

[0007] 为解决上述背景技术中提出的问题,本发明提供一种数字化计算平台中的集群架构性能评估方法,以解决现有技术中需要提前确定数据库表的关联关系或者通过人工匹配的方法来完成,存在耗时耗力的问题。
[0008] 为实现上述目的,本发明提供如下技术方案:
[0009] 一种数字化计算平台中的集群架构性能评估方法,包括以下步骤:
[0010] S1:修改Gem5源码,实时输出Gem5的关键性能指标;
[0011] Gem5源码具体修改方法为:在Gem5的仿真入口添加代码,增加全局循环事件,即从全局事件Global Event类继承一个新的类Stat Global Event,该全局事件每秒触发一次,并收集Gem5内的关键性能指标,关键性能指标包括:仿真秒数、仿真的指令数、仿真的操作数、CPU关键指标、内存关键指标,并将收集到的指标以JSON格式输出到指定目录;
[0012] S2:编写C++监控程序,并将该程序部署到Gem5镜像,该监控程序用于实时输出负载运行期间虚拟机内部的性能数据;
[0013] 监控程序作为一个子进程和测试负载同时运行,按每秒一次的间隔收集虚拟机内的性能数据,性能数据包括:CPU利用率、内存占用率、磁盘IO、网络IO,监控程序按约定格式将收集到的关键性能数据输出至虚拟机的控制台;
[0014] S3:编写Python程序实时采集S1和S2输出的指标和数据,并进行分析和处理,然后存储到数据库中;
[0015] S4:编写可视化程序;
[0016] 采用unity编写可视化展示客户端,并用接口获取整个集群所有Gem5节点和虚拟机内部的性能数据;
[0017] S5:运行仿真集群,仿真集群运行后输出测试负载运行期间各个Gem5的关键性能指标和虚拟机内部的性能数据,并通过可视化程序多维度实时可视化展示;
[0018] S6:根据S5的可视化展示的结果,通过逐步调整仿真集群运行参数,使关键性能指标和性能数据逼近真实集群;
[0019] S7:重复S5至S6,直至仿真集群达到预定目标。
[0020] 优选地,S5中,可视化程序实时从数据库内获取整个集群的性能数据和关键性能指标,并通过图表、曲线、趋势进行展示。
[0021] 与现有技术相比,本发明的有益效果是:
[0022] 1、本申请引入实时监控机制,通过修改Gem5源码,实时输出关键性能指标;
[0023] 2、本申请构建虚拟机内部监控,实时输出虚拟机内部的关键性能数据;
[0024] 3、本申请开发可视化模块,通过动态图表等形式直观呈现评估过程和结果;
[0025] 本申请大幅提高了数字化集群性能评估的准确性和真实性,实时、可视化、多维度地展示集群性能,可以更准确的找出集群的性能瓶颈,可加速数字化集群架构设计评估的迭代速度,降低数字化集群设计验证的成本。

附图说明

[0026] 图1为本发明的方法流程示意图。

具体实施方式

[0027] 为便于本领域技术人员理解本发明的技术内容,以下结合附图和具体的实例对本发明作进一步地详细说明。应当理解,此处所描述的具体实例仅用以解释本发明,并不用于限定本发明。
[0028] 实施例1:
[0029] 如图1所示,一种数字化计算平台中的集群架构性能评估方法,包括以下步骤:
[0030] S1:修改Gem5源码,实时输出Gem5的关键性能指标;
[0031] Gem5源码具体修改方法为:在Gem5的仿真入口添加代码,增加全局循环事件,从全局事件Global Event类继承一个新的类Stat Global Event,该事件每秒触发一次,在事件内收集Gem5内的关键性能指标,关键性能指标包括:仿真秒数、仿真的指令数、仿真的操作数、CPU关键指标、内存关键指标,并将收集到的指标以JSON格式输出到指定目录;
[0032] S2:编写C++监控程序,并将该程序部署到Gem5镜像,在负载运行时将该监控程序作为一个并行的子进程和测试负载同时运行,该监控程序用于实时输出负载运行期间虚拟机内部的性能数据;
[0033] 监控程序作为子进程,按每秒一次的间隔收集虚拟机内的性能数据,性能数据包括:CPU利用率、内存占用率、磁盘IO、网络IO,监控程序按约定格式将收集到的关键性能数据输出至虚拟机的控制台;
[0034] S3:编写Python程序实时采集S1和S2输出的指标和数据,这些数据输出在Gem5的日志文件和控制台文件内,并且文件格式不统一,使用python编写的匹配规则实时过滤这些文件中的关键数据,过滤后再进一步处理成满足存储和前端展示的目标格式,然后将格式化后的数据存储到数据库中;
[0035] S4:编写可视化程序;
[0036] 采用unity编写可视化展示客户端,并用接口获取整个集群所有Gem5节点和虚拟机内部的性能数据;
[0037] S5:运行仿真集群,仿真集群运行后输出测试负载运行期间各个Gem5的关键性能指标和虚拟机内部的性能数据,并通过可视化程序多维度实时可视化展示,可更加方便的定位集群性能瓶颈;
[0038] S6:根据S5的可视化展示的结果,通过逐步调整仿真集群运行参数,使关键性能指标和性能数据逼近真实集群;
[0039] S7:重复S5至S6,直至仿真集群达到预定目标,相比现有技术,本发明通过量化性能参数比较、可定制的逐步逼近方法,可以有效解决Gem5处理器仿真存在的精度问题,大幅提升仿真结果对真实机器性能的准确预测能力。
[0040] 在本实施例中,本申请引入实时监控机制,通过修改Gem5源码,实时输出关键性能指标,构建虚拟机内部监控,实时输出虚拟机内部的关键性能指标,大幅提高了数字化集群性能评估的准确性和真实性,开发可视化模块,通过动态图表等形式直观呈现评估过程和结果,本申请大幅提高了数字化集群性能评估的准确性和真实性,实时、可视化、多维度地展示集群性能,可以更准确的找出集群的性能瓶颈,可加速数字化集群架构设计评估的迭代速度,降低数字化集群设计验证的成本。
[0041] 实施例2:
[0042] 本实施例与实施例1的区别在于:S5中,可视化程序实时从数据库内获取整个集群的性能数据和关键性能指标,并通过图表、曲线、趋势进行展示,可以多次运行的历史数据做趋势对比,方便分析。