一种超级计算机作业数据分层存储系统及方法转让专利
申请号 : CN202210145523.X
文献号 : CN114201119B
文献日 : 2022-05-13
发明人 : 庞晓磊 , 李长松 , 张婷 , 刘嘉琦 , 赵欣婷 , 徐斌 , 夏梓峻 , 张健 , 孙福兴 , 贾子傲 , 王普 , 杨晶
申请人 : 天津市天河计算机技术有限公司
摘要 :
权利要求 :
1.一种超级计算机作业数据分层存储系统的存储方法,其特征在于:存储系统包括设置在超级计算机中的三层存储系统,三层存储系统分别为高速存储层、在线存储层和近线存储层,所述高速存储层挂载一般计算节点;在线存储层挂载登陆节点和小微作业计算节点,在线存储层用于用户登陆、作业数据操作管理和小作业任务的处理;
存储方法包括以下步骤:
步骤1、构建作业数据拷贝回传机制;
作业数据拷贝回传机制为:作业数据存于在线存储层中,当用于进行提交作业数据时,将作业数据自动从在线存储层拷贝到高速存储层进行计算,在作业数据计算完成后,自动将作业数据以及作业数据的计算结果从高速存储层回传至在线存储层;
步骤2、构建原始数据存留时间计算机制;
原始数据存留时间计算机制为:作业数据第一次提交高速存储层并计算运行完毕后,保留作业数据的预设时间,保留作业数据的预设时间的计算方法为:2
T留存时间 = D作业数据量/S拷贝速度/R作业运行时间*(0.1*W警告 + E错误 + 10*KE关键错误)*(1‑U空间使用率)*δ常量系数
其中,T留存时间为作业原始数据留存时间;D作业数据量为作业原始数据总大小,S拷贝速度为作业原始数据拷贝速度,R作业运行时间为作业运行时间,W警告为作业运行日志警告数量,E错误为作业运行日志错误数量,KE关键错误为作业运行日志关键错误数量,U空间使用率为高速存储层当前空间使用率,δ常量系数为常量系数值;
步骤3、构建作业数据自动归档和换回机制;
步骤4、在高速存储层、在线存储层和近线存储层的三层存储系统中植入步骤1的作业数据拷贝回传机制;采用步骤2的原始数据存留时间计算机制和步骤3的作业数据自动归档和换回机制实现超级计算机作业数据分层存储。
2.根据权利要求1所述的一种超级计算机作业数据分层存储系统的存储方法,其特征在于:所述高速存储层选用利于超级计算机作业运行的存储资源;所述在线存储层选用空间和性能利于超级计算机系统用户日常数据管理的存储资源;所述近线存储层选用利于长期不使用的作业数据进行归档存储的存储资源。
3.根据权利要求1所述的一种超级计算机作业数据分层存储系统的存储方法,其特征在于:所述步骤1的具体实现方法为:将yhrun交互式提交作业命令和yhbatch批处理式提交作业命令进行重写,在实际执行提交作业之前,先获取作业提交脚本中的作业文件路径,生成在高速存储层中对应的路径,将作业数据拷贝到高速存储层中;然后再实际执行yhrun交互式提交作业命令或yhbatch批处理式提交作业命令提交作业;提交成功后,获取jobid提交作业的ID,通过该提交作业的ID设置触发器,监控作业运行状态,作业运行完毕后,自动将结果数据回传。
4.根据权利要求1所述的一种超级计算机作业数据分层存储系统的存储方法,其特征在于:所述步骤3中作业数据自动归档和换回机制为:定期扫描在线存储层,若在线存储层存在超过阈值时间未访问的文件,则将其移动到近线存储层,然后在原有的位置创建一个软连接,指向文件被移动到的位置。
说明书 :
一种超级计算机作业数据分层存储系统及方法
技术领域
背景技术
科研工作效率。然而,在同一时期,超级计算机底层存储系统的发展速度则较为平缓,随着
超级计算机计算性能的不断提高,与之配套的存储系统开始力不从心,在运行高IO的计算
作业时,存储系统开始成为整个高性能计算系统的瓶颈,制约高性能计算系统性能的进一
步提高。
的性能需求。而对于超级计算机来说,整个存储系统的数据量非常大,考虑到成本因素,不
可能将整个存储集群都使用高性能存储设备来搭建。因此,只能搭建一个小的专有集群,在
一定程度上解决问题。当前尚没有一个较通用的方法,能够从整体上来解决这一问题。
定性变差,也因此而导致其上层超级计算机系统的运行不稳定。当前为了解决这一问题,只
能采用存储系统扩容或者督促用户及时删除无用数据的方法,前者增加了存储系统的硬件
成本,而后者则降低了用户对超级计算机的使用满意度。
发明内容
性能瓶颈的问题,并提高存储系统乃至整个超级计算机的运行稳定性。
计算节点;在线存储层挂载登陆节点和小微作业计算节点,在线存储层用于用户登陆、作业
数据操作管理和小作业任务的处理。
用利于长期不使用的作业数据进行归档存储的存储资源。
归档和换回机制实现超级计算机作业数据分层存储。
业数据计算完成后,自动将作业数据以及作业数据的计算结果从高速存储层回传至在线存
储层。
件路径,生成在高速存储层中对应的路径,将作业数据拷贝到高速存储层中;然后再实际执
行yhrun交互式提交作业命令或yhbatch批处理式提交作业命令提交作业;提交成功后,获
取jobid提交作业的ID,通过该提交作业的ID设置触发器,监控作业运行状态,作业运行完
毕后,自动将结果数据回传。
运行日志错误数量,KE关键错误为作业运行日志关键错误数量,U空间使用率为高速存储层当前空间
使用率,δ常量系数为常量系数值。
创建一个软连接,指向文件被移动到的位置。
算机制和作业数据自动归档和换回机制,并将超级计算机系统与三层存储系统进行融合,
实现了在控制存储系统整体设备成本的前提下,解决了超级计算机系统用户作业数据存储
空间、存取性能和设备成本之间的矛盾,在保持存储设备低成本的同时,提高存储系统总可
用空间和存储服务IO性能,提高数据总可用存储空间,降低存储系统设备平均成本。
系统性能瓶颈问题。
持较低的存储空间使用率,从而解决了超级计算机运行高IO作业时的存储系统性能瓶颈问
题,并提高存储系统的稳定性,进而提高整个超级计算机系统的稳定性。
附图说明
具体实施方式
机用户一般通过登录节点进行作业数据管理,而作业任务的运行则通过计算节点,因此高
速存储层挂载一般计算节点;在线存储层挂载登陆节点和小微作业计算节点。用户的作业
数据存储在在线存储层,用户可以通过登录节点,对作业数据进行管理;当有作业需要运行
时,通过“作业拷贝回传机制”,将作业数据从在线存储层拷贝到高速存储层。同时,对于较
小的作业任务,可以直接提交到小微作业计算节点上,避免了作业数据拷贝的时间开销。
能最低的存储系统放在最后一层,用于满足海量存储空间的需求。各层存储系统发挥各自
的特点优势,共同对外提供数据存储服务。如图1所示,高速存储层选用性能高、空间小,且
利于超级计算机作业运行的存储资源;所述在线存储层选用空间和性能均为一般水平,且
利于超级计算机系统用户日常数据管理的存储资源;所述近线存储层选用空间大、性能低、
成本低,且利于长期不使用的作业数据进行归档存储的存储资源。
超级计算机系统用户在超级计算机上的日常作业数据,这就要求,作业数据能够在高速存
储层和在线存储层之间进行自动流转。如图3所示,构建作业拷贝回传机制:对超级计算机
作业管理系统进行改造,使作业提交时,将作业原始数据从在线存储层拷贝到高速存储层;
作业运行完毕后,将结果数据从高速存储层拷贝到在线存储层。
业文件路径,生成在高速存储层中对应的路径,将作业数据拷贝到高速存储层中;然后再实
际执行yhrun交互式提交作业命令或yhbatch批处理式提交作业命令提交作业;提交成功
后,获取jobid提交作业的ID,通过该提交作业的ID设置触发器,监控作业运行状态,作业运
行完毕后,自动将结果数据回传。
通过作业拷贝回传装置,使作业数据只有需要被超级计算机访问时,才会被拷贝到高速存
储层中,访问完毕后即被移出高速存储层,这一机制可以使高速存储层保持较低的存储空
间使用率,从而增加存储系统的稳定性,进而增加整个超级计算机系统的稳定性。
业第一次提交并运行完毕后,不会立刻将高速存储层中的作业数据删除,而是保留的预设
时间。当作业算法或数据进行了少量修改并再次被提交时,仅需将修改部分的数据重新拷
贝即可。
业多次提交时,仍需进行完整的数据拷贝。
存储层中的留存时间。如作业的数据量较大,则考虑再次拷贝时的成本较高,因此增加作业
数据的留存时间;如作业运行时间较长,则考虑其数据拷贝操作时间占比较小,甚至可以忽
略不计,因此降低作业数据的留存时间;另外,如果作业运行时间极短,则作业运行可能已
经发生错误,因此该作业被重新提交的可能性极大,应增加作业数据留存时间;当作业运行
日志中包含警告或者错误,则其被重新提交的可能性较大,增加作业数据留存时间;当整体
的存储系统空间使用率较低时,能够容纳的数据较多,因此增加作业数据留存时间,反之则
降低作业数据留存时间。保留作业数据的预设时间的计算方法为:
运行日志错误数量,KE关键错误为作业运行日志关键错误数量,U空间使用率为高速存储层当前空间
使用率,δ常量系数为常量系数值。
层存在超过阈值时间未访问的文件,则将其移动到近线存储层,然后在原有的位置创建一
个软连接,指向文件被移动到的位置。
文件的访问,当用户访问文件时,自动将文件换回到在线存储层,保证用户的文件的正常使
用。
归档和换回机制实现超级计算机作业数据分层存储。
得出的其他实施方式,同样属于本发明保护的范围。