一种医学人工智能与高性能计算资源调度系统及调度方法转让专利

申请号 : CN202210133573.6

文献号 : CN114185689B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 应志野李春漾陈一龙于浩澎龚力匡亚岚

申请人 : 四川大学四川大学华西医院

摘要 :

本发明公开一种医学人工智能与高性能计算资源调度系统及调度方法,所述系统包括:用户登录系统:用于客户从办公环境登录到系统,并提供作业提交、数据上传下载等功能;资源管理系统:用于部署数据库、监控等基础管理进程和服务;作业调度系统:通过对计算资源的CPU、GPU、FPGA、内存等进行统一调度和管理;容器镜像库:用于存放容器镜像模版和用户预定义或自定义的镜像;计算资源系统:进行计算的物理资源;并行文件系统:用于存放用户上传的数据、计算完成的数据和其它数据;所述各子系统通过高速网络通信连接。本发明可实现人工智能与高性能计算资源的一体化调度,降低建设成本,提升资源利用率。

权利要求 :

1.一种医学人工智能与高性能计算资源调度系统,其特征在于:所述系统包括:用户登录系统(10):用于客户从办公环境登录到系统,并提供作业提交、数据上传下载功能;资源管理系统(20):用于部署数据库、监控基础管理进程和服务;作业调度系统(30):通过对计算资源的CPU、GPU、FPGA、内存进行统一调度和管理;容器镜像库(40):用于存放容器镜像模版和用户预定义或自定义的镜像;计算资源系统(50):进行计算的物理资源;并行文件系统(60):用于存放用户上传的数据、计算完成的数据和其它数据;所述用户登录系统(10)、资源管理系统(20)、作业调度系统(30)、容器镜像库(40)、计算资源系统(50)、并行文件系统(60)通过高速网络(70)通信连接;

所述系统的调度方法,步骤包括:

S1、用户在用户登录系统(10)上传作业,作业数据存放在并行文件系统(60)中;

S2、资源管理系统(20)根据用户上传的作业判断类型;

S2.1、CPU类型作业,直接跳转到“S6”;

S2.2、GPU/FPGA类型,进行下一步流程;

S3、资源管理系统(20)根据用户上传的作业判断容器镜像库(40)中是否有满足要求的镜像;

S3.1、有满足要求的容器镜像,直接跳转到“S6”;

S3.2、无满足要求的容器镜像,进行下一步流程;

S4、从容器镜像库(40)拉取镜像模版或类似的镜像到用户登录系统(10);

S5、在用户登录系统(10)启动镜像并进入到镜像内部,安装应用软件,配置环境,并将满足使用要求的镜像重新打包并回传到容器镜像库(40)上进行另存;

S6、作业调度系统(30)根据任务需求从计算资源系统(50)中分配节点资源给任务;

S7、在分配到的节点中,通过SSD创建分布式全闪文件系统,作为计算缓存区;

S8、从并行文件系统(60)中拷贝作业数据到计算缓存区;

S9、根据作业要求启动计算流程和计算程序;

S10、计算完成后,从计算缓存区移动相关数据到并行文件系统(60);

S11、对应节点释放计算资源,流程结束。

2.根据权利要求1所述的医学人工智能与高性能计算资源调度系统,其特征在于:所述计算资源系统(50)包括CPU、GPU、FPGA多种不同的配置类型。

3.根据权利要求2所述的医学人工智能与高性能计算资源调度系统,其特征在于:所述计算资源系统(50)还配置有SSD硬盘。

4.根据权利要求1所述的医学人工智能与高性能计算资源调度系统,其特征在于:所述高速网络(70)包括以太网、Infiniband网。

说明书 :

一种医学人工智能与高性能计算资源调度系统及调度方法

技术领域

[0001] 本发明涉及大数据处理技术领域,具体涉及一种医学人工智能与高性能计算资源调度系统及调度方法。

背景技术

[0002] 医学领域涉及大量人工智能和高性能计算,在高性能计算领域,计算作业以计算密集型为主,通过平台的调度,在计算集群中的一个或多个计算节点上执行。每个作业对计
算资源的需求是不同的。计算资源需求最重要的两个指标是CPU核心数和内存大小,其次的
指标还包括存储、GPU、带宽等。当每个计算作业分配到需要的资源开始执行后,不能被中
断、迁移,如果一旦发生中断需要重新执行。作业调度系统的主要功能是根据作业对计算资
源的需求,在计算平台中为作业分配合理的计算资源,并且将作业启动。当计算平台比较繁
忙,不能满足计算资源需求时,调度系统会将作业放置到等待队列中,等待计算平台的空
闲。
[0003] 人工智能应用都运行在GPU上,当模型训练完成,在实际场景进行部署的时候,GPU通常采用静态分配。每个算法都需要固定大小的显存,一个业务场景需要多个算法和检测
规则,算法模型在启动实例化的时候也比较的耗时,所以,一般在算法部署的时候,就根据
GPU显存大小、算法类型和算法个数提前分配好GPU资源。
[0004] 鉴于人工智能一般以物理机进行资源分配,无作业调度机制,有效利用率低,经常出现机器不够用;虽然人工智能已出现少量训练开发平台,但无法进行高性能计算;而人工
智能和高性能计算分别建设,建设成本高,管理复杂,资源复用低;集群一般采用共享存储,
存储性能要求高,建设成本高。
[0005] 因此,有必要研发一种可以实现人工智能与高性能计算资源的一体化调度的资源调度系统。

发明内容

[0006] 为解决上述现有技术中的不足,本发明出于实际业务开展需要,提供一种医学人工智能与高性能计算资源调度系统及方法,实现人工智能与高性能计算资源的一体化调
度,降低建设成本,提升资源利用率。
[0007] 为实现上述技术目的,本发明采用的技术方案为:
[0008] 一种医学人工智能与高性能计算资源调度系统,所述系统包括:用户登录系统:用于客户从办公环境登录到系统,并提供作业提交、数据上传下载等功能;资源管理系统:用
于部署数据库、监控等基础管理进程和服务;作业调度系统:通过对计算资源的CPU、GPU、
FPGA、内存等进行统一调度和管理;容器镜像库:用于存放容器镜像模版和用户预定义或自
定义的镜像;计算资源系统:进行计算的物理资源;并行文件系统:用于存放用户上传的数
据、计算完成的数据和其它数据;所述用户登录系统、资源管理系统、作业调度系统、容器镜
像库、计算资源系统、并行文件系统通过高速网络通信连接。
[0009] 优选的,所述计算资源系统包括CPU、GPU、FPGA等多种不同的配置类型。
[0010] 进一步地,所述计算资源系统还配置有SSD硬盘。
[0011] 优选的,所述高速网络包括以太网、Infiniband网。
[0012] 一种医学人工智能与高性能计算资源调度方法,步骤包括:
[0013] S1、用户在用户登录系统上传作业,作业数据存放在并行文件系统中;
[0014] S2、资源管理系统根据用户上传的作业判断类型;
[0015] S2.1、CPU等类型作业,直接跳转到“S6”;
[0016] S2.2、GPU/FPGA等类型,进行下一步流程;
[0017] S3、资源管理系统根据用户上传的作业判断容器镜像库中是否有满足要求的镜像;
[0018] S3.1、有满足要求的容器镜像,直接跳转到“S6”;
[0019] S3.2、无满足要求的容器镜像,进行下一步流程;
[0020] S4、从容器镜像库拉取镜像模版或类似的镜像到用户登录系统;
[0021] S5、在用户登录系统启动镜像并进入到镜像内部,安装应用软件,配置环境,并将满足使用要求的镜像重新打包并回传到容器镜像库上进行另存;
[0022] S6、作业调度系统根据任务需求从计算资源系统中分配节点资源给任务;
[0023] S7、在分配到的节点中,通过SSD创建分布式全闪文件系统,作为计算缓存区;
[0024] S8、从并行文件系统中拷贝作业数据到计算缓存区;
[0025] S9、根据作业要求启动计算流程和计算程序;
[0026] S10、计算完成后,从计算缓存区移动相关数据到并行文件系统;
[0027] S11、对应节点释放计算资源,流程结束。
[0028] 与现有技术相比,本发明的有益效果有:
[0029] 1)本发明提供的医学人工智能和高性能计算资源调度系统,多种计算资源融合建设、管理、调度,系统架构简单,硬件复用率高,建设和运维成本低;可在同1套平台上同时进
行人工智能计算和高性能计算;
[0030] 2)本发明提供的医学人工智能和高性能计算资源调度方法进行资源调度分配,提高硬件使用率和有效负荷;本发明的计算资源节点上增加SSD,按需配置为分布式全闪文件
系统,用户计算过程中数据存放,有效提供计算效率。

附图说明

[0031] 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对
范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这
些附图获得其他相关的附图。
[0032] 图1是本发明的医学人工智能与高性能计算资源调度系统的系统架构示意图;
[0033] 图2是本发明的医学人工智能与高性能计算资源调度方法的流程图。
[0034] 附图标记:10‑用户登陆系统,20‑资源管理系统,30‑作业调度系统,40‑容器镜像库,50‑计算资源系统,60‑并行文件系统,70‑高速网络。

具体实施方式

[0035] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施
例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实
施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施
例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的
所有其他实施例,都属于本申请保护的范围。
[0036] 一种医学人工智能与高性能计算资源调度系统,包括用户登录系统10、资源管理系统20、作业调度系统30、容器镜像库40、计算资源系统50、并行文件系统60,所述用户登录
系统10、资源管理系统20、作业调度系统30、容器镜像库40、计算资源系统50、并行文件系统
60通过高速网络70通信连接,所述高速网络70包括以太网、Infiniband网等多种类型。
[0037] 用户登录系统10用于客户从办公环境登录到系统,并提供作业提交、数据上传下载等功能;资源管理系统20用于部署数据库、监控等基础管理进程和服务;作业调度系统30
通过对计算资源的CPU、GPU、FPGA、内存等进行统一调度和管理;容器镜像库40用于存放容
器镜像模版和用户预定义或自定义的镜像;计算资源系统50是实际进行计算的物理资源,
包括CPU、GPU、FPGA等多种不同的配置类型,各资源节点包括CPU物理核、内存容量、GPU核
数、FPGA卡数等基础参数;同时在节点上需要配置1块高性能的SSD硬盘;并行文件系统60用
于存放用户上传的数据、计算完成的数据和其它数据。
[0038] 一种使用上述医学人工智能与高性能计算资源调度系统进行算力资源调度的方法,如图2所示,步骤包括:
[0039] S1、用户在用户登录系统10上传作业,作业数据存放在并行文件系统60中;
[0040] S2、资源管理系统20根据用户上传的作业判断类型;
[0041] S2.1、CPU等类型作业(用户需要CPU、内存等基础资源),直接跳转到“S6”;
[0042] S2.2、GPU/FPGA等类型(用户需要调用专用的板卡),进行下一步流程;
[0043] S3、资源管理系统20根据用户上传的作业判断容器镜像库40中是否有满足要求的镜像;
[0044] S3.1、有满足要求的容器镜像,直接跳转到“S6”;
[0045] S3.2、无满足要求的容器镜像,进行下一步流程;
[0046] S4、从容器镜像库40拉取镜像模版或类似的镜像到用户登录系统10;
[0047] S5、在用户登录系统10启动镜像并进入到镜像内部,安装应用软件,配置环境,并将满足使用要求的镜像重新打包并回传到容器镜像库40上进行另存;
[0048] S6、作业调度30根据任务需求从计算资源系统50中分配节点资源给任务;
[0049] S7、在分配到的节点中,通过SSD创建分布式全闪文件系统,作为计算缓存区;
[0050] S8、从并行文件系统60中拷贝作业数据到计算缓存区;
[0051] S9、根据作业要求启动计算流程和计算程序;
[0052] S10、计算完成后,从计算缓存区移动相关数据到并行文件系统60;
[0053] S11、对应节点释放计算资源,流程结束。
[0054] 本发明提供的医学人工智能和高性能计算资源调度系统,多种计算资源融合建设、管理、调度,系统架构简单,硬件复用率高,建设和运维成本低;可在同1套平台上同时进
行人工智能计算和高性能计算;本发明提供的医学人工智能和高性能计算资源调度方法进
行资源调度分配,提高硬件使用率和有效负荷;除共享存储外还在计算资源节点上增加
SSD,按需配置为分布式全闪文件系统,用户计算过程中数据存放,有效提供计算效率。
[0055] 当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形
都应属于本发明所附的权利要求的保护范围。