
基本信息:
- 专利标题: 异构计算系统的检查点部署方法、系统、产品以及装置
- 申请号:CN202411732114.5 申请日:2024-11-29
- 公开(公告)号:CN119226092B 公开(公告)日:2025-03-21
- 发明人: 李仁刚 , 唐轶男 , 王丽 , 范宝余 , 曹芳 , 王立
- 申请人: 浪潮电子信息产业股份有限公司
- 申请人地址: 山东省济南市高新区草山岭南路801号9层东侧
- 专利权人: 浪潮电子信息产业股份有限公司
- 当前专利权人: 浪潮电子信息产业股份有限公司
- 当前专利权人地址: 山东省济南市高新区草山岭南路801号9层东侧
- 代理机构: 北京集佳知识产权代理有限公司
- 代理人: 李亚茹
- 主分类号: G06F11/30
- IPC分类号: G06F11/30 ; G06F9/50
摘要:
本发明公开了一种异构计算系统的检查点部署方法、系统、产品以及装置,涉及计算机技术领域。根据各异构算力设备的需求参数计算在每个存储设备上部署检查点时各存储设备对应的故障恢复耗时期望值,以权衡各异构算力设备的各需求参数对应检查点恢复的影响。根据各异构算力设备的需求参数和故障恢复耗时期望值确定初步的第一检查点部署关系,以实现在部署过程中针对于各异构算力设备的特性参数对应部署检查点到各个存储设备的局部最优选择的可预测性。根据初步的第一检查点部署关系,通过各异构算力设备的部署位置进行优化确定第二检查点部署关系,有效跳出局部最优解增加找到全局最优解的可能性,提高训练任务的执行效率。
公开/授权文献:
- CN119226092A 异构计算系统的检查点部署方法、系统、产品以及装置 公开/授权日:2024-12-31