分级存储系统及其数据迁移方法转让专利

申请号 : CN200810082824.2

文献号 : CN101311911B

文献日 : 2011-03-02

相似专利: 请登录后查看

本发明提供一种兼顾高性能和大容量的、低价格的分级存储系统，其具有：与多个计算机连接的文件服务器；与该文件服务器连接的第一存储装置；与该第一存储装置连接的第二存储装置，其中，第二存储装置具有第二卷，第一存储装置具有第一卷和将所述第二卷虚拟化为自身装置的卷而得到的虚拟卷，所述文件服务器将第一卷作为第一目录进行加载，将所述虚拟卷作为第二目录进行加载，并且向第一目录复制上述第二目录内的预先决定的文件。

1.一种存储系统，其具有：多个计算机；与所述多个计算机连接的文件服务器；与所述文件服务器相连接的，具有第一卷的第一存储装置；与所述第一存储装置相连接的，具有第二卷的第二存储装置；以及与所述文件服务器、所述第一存储装置以及所述第二存储装置连接的管理装置，该存储系统的特征在于，所述第一存储装置具有将所述第二卷虚拟化为自身装置的卷而得到的虚拟卷，所述文件服务器具有以下的单元，该单元根据所述管理装置的指示，将所述虚拟卷作为第二目录进行加载，在预先决定的第一时刻，将所述第一卷作为第一目录进行加载，向所述第一目录复制所述第二目录内的文件，在预先决定的第二时刻，向所述第二目录复制所述第一目录内的预先决定的文件，所述管理装置具有：收集单元，其收集所述计算机的计算执行作业信息；

分析单元，其分析所述收集的计算执行作业信息；

提取单元，其根据所述分析的计算执行作业信息，提取输入输出的文件的特性；以及选择单元，其根据所述文件的特性，选择存储文件的所述第一卷。

2.根据权利要求1所述的存储系统，其特征在于，所述提取单元提取文件大小作为文件的特性，

所述选择单元，在所述提取出的文件大小大于预定的值时，选择由预定盘数以上数量的磁盘装置构成的第一卷。

3.根据权利要求1所述的存储系统，其特征在于，所述提取单元提取文件数量作为文件的特性，

所述选择单元在所述提取出的文件数量多于预定的值时，选择预定的卷数以上的卷作为第一卷。

4.根据权利要求3所述的存储系统，其特征在于，所述文件服务器将选择出的多个所述第一卷分别作为独立的所述第一目录进行加载，并且对多个所述第一目录分散地复制所述第二卷中存储的多个文件。

5.根据权利要求1所述的存储系统，其特征在于，所述文件服务器具有：

卸载单元，其在所述预先决定的第二时刻向所述第二目录复制了所述第一目录内的预先决定的文件之后，卸载所述第一目录；以及卷提供单元，其将卸载的所述第一卷作为其他计算的文件存储用卷进行提供。

6.根据权利要求1所述的存储系统，其特征在于，所述选择单元在所述第二时刻之前的规定时间，作为输出计算结果的文件存储用卷，选择与所述第一卷不同的第三卷，所述文件服务器将所述第三卷作为第三目录进行加载。

7.根据权利要求1所述的存储系统，其特征在于，具有以下的单元，该单元在所述第一时刻将所述第一卷作为所述第一目录进行加载，并且向第一目录复制了所述第二目录内的预先决定的文件之后，切断构成所述第二卷的磁盘装置的电源。

8.根据权利要求7所述的存储系统，其特征在于，所述文件服务器具有在所述计算机从所述第一目录读出希望的文件之后，卸载所述第一卷的单元，该存储系统具有切断构成所述被卸载的第一卷的磁盘装置的电源的单元。

9.根据权利要求1所述的存储系统，其特征在于，具有决定所述第一以及第二时刻的时刻决定单元，该时刻决定单元选择已转为执行由所述管理装置通知的作业的前一个作业的时刻，作为所述第一时刻。

10.根据权利要求1所述的存储系统，其特征在于，具有决定所述第一以及第二时刻的时刻决定单元，该时刻决定单元选择执行对象作业的前一个作业的文件的从所述第二目录向所述第一目录的复制完成的时刻，作为所述第一时刻。

11.根据权利要求1所述的存储系统，其特征在于，具有决定所述第一以及第二时刻的时刻决定单元，该时刻决定单元选择比执行对象作业的执行预定时间提前文件存储用第一卷的选定或者生成的处理所需要的时间以上的时刻，作为所述第一时刻。

12.根据权利要求1所述的存储系统，其特征在于，具有决定所述第一以及第二时刻的时刻决定单元，该时刻决定单元选择在执行对象作业的执行开始时间上加上该作业的计算时间而得的时刻，作为所述第二时刻。

13.一种存储系统，其具有：多个计算机；与所述多个计算机连接的文件服务器；与所述文件服务器相连接的，具有第一卷和第三卷的第一存储装置；与所述第一存储装置相连接的，具有第二卷的第二存储装置；以及与所述文件服务器、所述第一存储装置以及所述第二存储装置连接的管理装置，该存储系统的特征在于，所述第一存储装置具有将所述第二卷虚拟化为自身装置的卷而得到的虚拟卷，所述计算机对所述第三卷写入或者读出在该计算机的主存储器中存储的数据，所述文件服务器具有以下的单元，该单元根据所述管理装置的指示，将所述虚拟卷作为第二目录进行加载，在预先决定的第一时刻，将所述第一卷作为第一目录进行加载，向所述第一目录复制所述第二目录内的文件，在预先决定的第二时刻，向所述第二目录复制所述第一目录内的预先决定的文件，所述管理装置具有：收集单元，其收集所述计算机的计算执行作业信息；

分析单元，其分析所述收集的计算执行作业信息；以及根据由所述管理装置通知的所述计算执行作业信息，并且根据在所述计算机内的计算中使用的主存储器容量、和向所述第三卷写入所述计算机内的主存储器中存储的数据的次数，计算所述第三卷的数量和容量的单元。

14.根据权利要求13所述的存储系统，其特征在于，所述管理装置在所述第一存储装置内的卷的分配中，在首先分配了所述第一卷之后，将剩余的卷作为所述第三卷进行分配。

15.根据权利要求14所述的存储系统，其特征在于，所述管理装置，在所述剩余的卷的容量小于作为根据所述计算执行作业信息而计算出的第三卷所需要的总容量时，向所述计算机指示再次设定对所述第三卷进行写入的次数。

16.根据权利要求14所述的存储系统，其特征在于，所述管理装置，在所述剩余的卷的容量小于作为根据所述计算执行作业信息而计算出的第三卷所需要的总容量时，在所述剩余的卷的范围内分配第三卷，在由于容量不足在执行计算的过程中无法在所述第三卷中写入数据时，删除最早的数据。

17.根据权利要求14所述的存储系统，其特征在于，在开始执行计算之后，所述文件服务器卸载所述第一卷，所述管理装置将所述卸载的第一卷作为所述第三卷进行分配。

18.根据权利要求17所述的存储系统，其特征在于，所述管理装置在计算结束之前，将所述第三卷作为第一卷进行重新分配，所述文件服务器将所述重新分配而得的第一卷作为所述第一目录再次进行加载。

19.一种存储系统中的数据迁移方法，该存储系统具有：多个计算机；与所述多个计算机连接的文件服务器；与所述文件服务器相连接的，具有第一卷的第一存储装置；与所述第一存储装置相连接的，具有第二卷的第二存储装置；以及与所述文件服务器、所述第一存储装置以及所述第二存储装置连接的管理装置，所述第一存储装置具有将所述第二卷虚拟化为自身装置的卷而得到的虚拟卷，该数据迁移方法的特征在于，具有如下步骤：

根据所述管理装置的指示，将所述虚拟卷作为第二目录进行加载的步骤；

在预先决定的第一时刻，将所述第一卷作为第一目录进行加载，向所述第一目录复制所述第二目录内的文件的步骤；以及在预先决定的第二时刻，向所述第二目录复制所述第一目录内的预先决定的文件的步骤，所述管理装置执行以下步骤：

收集所述计算机的计算执行作业信息的收集步骤；

分析所述收集的计算执行作业信息的分析步骤；

根据所述分析的计算执行作业信息，提取输入输出的文件的特性的提取步骤；以及根据所述文件的特性，选择存储文件的所述第一卷的选择步骤。

20.根据权利要求19所述的数据迁移方法，其特征在于，选择已转为执行由所述管理装置通知的作业的前一个作业的时刻，作为所述第一时刻。

21.根据权利要求19所述的数据迁移方法，其特征在于，选择执行对象作业的前一个作业的文件的从所述第二目录向所述第一目录复制完成的时刻，作为所述第一时刻。

22.根据权利要求19所述的数据迁移方法，其特征在于，选择比执行对象作业的执行预定时间提前文件存储用第一卷的选定或者生成的处理所需要的时间以上的时刻，作为所述第一时刻。

23.根据权利要求19所述的数据迁移方法，其特征在于，选择在执行对象作业的执行开始时间上加上该作业的计算时间而得的时刻，作为所述第二时刻。

分级存储系统及其数据迁移方法

技术领域

[0001] 本发明涉及一种存储计算机(以下也称为“服务器”)数据的存储装置系统(以下也称为“存储系统”)，尤其涉及使多个磁盘装置构成的多个存储装置成为分级结构，为了文件的输入输出而连接了NAS(Network Attached Storage)的存储系统中的分级存储装置之间的数据迁移方法、以及将分级存储装置提供的卷向NAS提供的目录进行分配的方法。

背景技术

[0002] 近年来，面向HPC(High Performance Computing)的计算机、即所谓的超级计算机的计算能力的提高引起人们的注意，预计今后数年将会出现具有每秒千万亿次浮点运算(Peta FLOPS：Floating Operation Per Second)级的计算性能的超级计算机，大约10年后将会出现具有每秒百亿亿次浮点运算(ExaFLOPS)级的计算性能的超级计算机。与此相伴，利用超级计算机进行的科学计算等大规模计算的规模也变大，预计输入输出超级计算机的各个文件的大小也会从吉字节(GB：Giga Byte)增大到超过太字节(TB：Tera Byte)。因此，对于与超级计算机连接的存储系统，预计对于容量的要求将会从拍字节(PetaByte)级达到艾字节(Exa Byte)级。此外，根据高速进行TB级文件的输入输出的需要，还考虑存储装置的I/O处理性能与目前相比需要提高1～2位左右。

[0003] 目前，在面向超级计算机的存储系统中，横向地排列与超级计算机的节点数相应数量的性能价格比良好的中型存储装置来使它们并行工作，由此提供了与服务器要求的I/O处理性能相应的存储装置的I/O处理性能。

[0004] 此外，面向超级计算机的存储装置所要求的性能要件是各种各样的，为了高速地输入输出大文件而要求高的顺序(sequential)性能，为了同时输入输出大量文件而要求高的事务处理(transaction)性能。

[0005] 为了应对这样的性能要件，在专利文献1中公开了根据计算机或应用程序所要求的性能来分配存储文件的卷的技术。该方法为：对每个业务应用程序预先决定该应用程序的文件的存储要件(对于存储文件的卷要求的性能以及可靠性等要件)，而且在存储装置一侧预先具有存储装置自身具有的文件存储用卷的性能等的规格表，对于每个应用程序的存储要件，以文件单位参照上述表来分配存储目的地卷。

[0006] 【专利文献1】特开2004-70403

发明内容

[0007] 要求面向超级计算机的存储系统具有高速进行大文件或大量文件的输入输出的高性能，并且要求以较低的价格构成大容量的系统。

[0008] 但是，今后在横向排列多台现有的中型存储装置来构成所需要的PB～EB级容量的大规模系统的方法中，为了实现所需要的性能，需要数百台至一千台以上的中型存储装置，存在难以提供低价格的系统的问题。

[0009] 此外，作为对于面向超级计算机的存储系统的各种各样性能要件的应对方法，当通过专利文献1公开的现有技术进行处理时存在以下的问题。即，在现有技术中，分配与各个文件的特性相适合的存储用卷来存储文件，由此实现了文件输入输出的高速化，此时，在由超级计算机执行的科学计算等程序中，在输入输出中使用的文件的种类多种多样，因此存在难以对于每个计算预先决定对于文件存储用卷的性能以及可靠性的必要要件的问题。

[0010] 为了解决上述问题，在本发明中，在由与多个计算机连接的文件服务器；与所述文件服务器连接的第一存储装置；与第一存储装置连接的第二存储装置；以及与上述文件服务器、第一存储装置以及第二存储装置连接的存储管理装置构成的存储系统中，所述第一存储装置具有在自身装置内的磁盘装置上形成的第一卷，所述第二存储装置具有在自身装置内的磁盘装置上形成的第二卷，所述第一存储装置具有将所述第二卷虚拟化为自身装置的卷而得的虚拟卷，所述文件服务器将所述虚拟卷作为第二目录进行加载，在预先决定的第一时刻，将所述第一卷作为第一目录进行加载，向所述第一目录复制上述第二目录内的预先决定的文件，在预先决定的第二时刻，向所述第二目录复制所述第一目录内的预先决定的文件。

[0011] 并且，所述存储管理装置具有：收集所述计算机的计算执行作业信息的单元；分析所述计算执行作业信息的单元；以及决定所述第一和第二时刻的单元。

[0012] 此外，所述存储管理装置具有：根据所述计算执行作业信息，提取为了进行计算而输入输出的文件的特性的单元；以及选择存储文件的所述第一卷的单元。所述文件服务器将选择出的所述第一卷作为所述第一目录进行加载。在此，所述选择存储文件的所述第一卷的单元，在文件的大小大于预先决定的第一值时，选择由预先决定的第二值以上数量的磁盘装置构成的第一卷。

[0013] 此外，所述选择存储文件的所述第一卷的单元，在文件数量大于预先决定的第三值时，选择预先决定的第四值以上数量的卷，所述文件服务器将选择出的所述多个第一卷分别作为独立的第一目录进行加载，将多个文件分散复制到所述多个第一目录。

[0014] 而且，所述文件服务器在所述预先决定的第二时刻向所述第二目录复制所述第一目录内的预先决定的文件后，卸载所述第一目录，将卸载的所述第一卷作为其他计算的文件存储用卷进行提供。

[0015] 另外，本发明还提供一种存储系统中的数据迁移方法，该存储系统具有：多个计算机；与所述多个计算机连接的文件服务器；与所述文件服务器相连接的，具有第一卷的第一存储装置；与所述第一存储装置相连接的，具有第二卷的第二存储装置；以及与所述文件服务器、所述第一存储装置以及所述第二存储装置连接的管理装置，所述第一存储装置具有将所述第二卷虚拟化为自身装置的卷而得到的虚拟卷，该数据迁移方法的特征在于，具有如下步骤：根据所述管理装置的指示，将所述虚拟卷作为第二目录进行加载的步骤；在预先决定的第一时刻，将所述第一卷作为第一目录进行加载，向所述第一目录复制所述第二目录内的文件的步骤；以及在预先决定的第二时刻，向所述第二目录复制所述第一目录内的预先决定的文件的步骤。

[0016] 此外，根据本发明的实施方式以及附图，本申请公开的问题及其解决方法将会变得明确。

[0017] 根据本发明，可以通过最少数量的存储装置提供兼顾超级计算机所要求的高性能和大容量双方面的存储系统。

附图说明

[0018] 图1表示本发明的存储系统以及与其相关的计算机、管理服务器的结构例。

[0019] 图2表示本发明第一分级存储装置的结构的例子。

[0020] 图3表示本发明第二分级存储装置的结构的例子。

[0021] 图4表示文件存储用目录和文件存储用虚拟卷、文件存储用卷的对应关系的例子。

[0022] 图5表示文件存储用目录和文件存储用虚拟卷、文件存储用第一卷、第二卷的对应关系的例子。

[0023] 图6表示本发明的文件服务器和第一、第二分级存储装置之间的文件的升级(staging)/降级(destaging)顺序的一例。

[0024] 图7表示本发明的计算机管理服务器和存储管理服务器的结构的一例。

[0025] 图8表示本发明的存储系统以及与其相关的计算机、管理服务器的其他结构的例子。

[0026] 图9表示计算机执行脚本的例子。

[0027] 图10表示本发明的文件服务器和第一、第二分级存储装置之间的文件的升级/降级顺序的其他例子。

[0028] 符号说明

[0029] 1计算机系统；2存储系统；11第一分级存储装置；12第二分级存储装置；13文件服务器；14计算机；16IP交换机；17FC交换机；18计算机管理服务器；19存储管理服务器；21JOB管理部；22用户管理部；23信息提供部；24信息收集部；25信息分析部；26卷管理部；27用户区域管理部；28存储管理部；51文件存储用第一卷；52文件存储用第二卷；61文件存储用虚拟卷

具体实施方式

[0030] 图1表示包含第一实施方式的存储装置的系统的构成例。计算机系统1具有存储系统2、IP交换机16、计算机14以及计算机管理服务器18。此外，存储系统2具有文件服务器13、第一分级存储装置11、第二分级存储装置12、光纤通道(FC：Fibre Channel)交换机17以及存储管理服务器19。

[0031] 如图1所示，经由IP交换机16将文件服务器13与计算机14连接，由此连接了存储系统2和计算机14。此外，计算机管理服务器18和存储管理服务器19直接连接，或者经由LAN(Local Area Network)相互连接。而且，存储管理服务器19、文件服务器13、第一分级存储装置以及第二分级存储装置直接连接，或者经由LAN(Local Area Network)相互连接。

[0032] 第一分级存储装置11直接与文件服务器13连接。作为连接接口，一般使用光纤通道、iSCSI等发送块数据的协议的接口。在此，第一分级存储装置11还可以经由交换机(Switch)与文件服务器13连接。第二分级存储装置12经由FC交换机17与第一分级存储装置11连接。作为连接接口，除了光纤通道之外可以使用iSCSI等发送块数据的协议的接口。

[0033] 第一分级存储装置11具有文件存储用第一卷51，用于存储文件服务器13进行输入输出处理的文件。第二分级存储装置12具有文件存储用第二卷52，用于存储文件服务器13进行输入输出处理的文件。此外，第一分级存储装置11具有虚拟化功能，该虚拟化功能虚拟地提供第二分级存储装置12具有的卷，作为该第一分级存储装置11提供给计算机14的卷、即文件存储用虚拟卷。

[0034] 图2表示第一分级存储装置11的结构的一例。控制器31具有：通道IF(接口)部32，其控制来自文件服务器13或计算机14等上位装置的数据的写入/读取访问；盘IF(接口)部33，其与多个硬盘42连接，控制向硬盘42的数据的写入/读出访问；高速缓冲存储器34，其暂时存储向硬盘42的写入/读出数据；以及连接部35，其连接通道IF部32、盘IF部33以及高速缓冲存储器34。连接部35一般由一个以上的开关(Switch)构成，但也可以由一条以上的公共总线构成。

[0035] 通道IF部32在接收到来自上位装置的数据写入/读出访问时，控制其与高速缓冲存储器34之间的数据传输，盘IF部33在向硬盘42的数据写入/读出时，控制其与高速缓冲存储器34之间的数据传输。通过这种经由高速缓冲存储器34的、通道IF部32和盘IF部33之间的数据交换，进行从上位装置向硬盘42的数据的写入/读出。为了进行这样的控制，通道IF部32、盘IF部33具有一个以上的处理器(未图示)。在该处理器上连接内部LAN37。而且，存储装置外部的存储管理服务器19与内部LAN37连接。

[0036] 在此，上述控制器31的结构仅为一个实施例，并不是将结构限定为上述那样的结构。控制器31可以具有根据来自计算机的数据写入/读出请求，进行向硬盘42的数据的写入/读出的功能。

[0037] 而且，控制部31可以具有控制硬盘42的电源的ON/OFF(接通/切断)的电源控制部36，此时，电源控制部36与内部LAN37连接。

[0038] 硬盘安装部41具有多个硬盘42、和对各个硬盘42提供电源的硬盘电源43。将多个硬盘42分组为由多个硬盘42构成的RAID组(Gr.)。

[0039] 在此，可以对每个硬盘42或每个RAID Gr.设置一个或者两个左右(组成冗余结构时)硬盘电源43。

[0040] 控制器31内的电源控制部36与硬盘电源43连接，进行电源ON/OFF的控制。

[0041] 在此，电源控制部36可以不在控制器31中，而在硬盘安装部41中。此外，电源控制部36可以直接与存储管理服务器19连接。

[0042] 在由多个硬盘42构成的RAID组(Gr.)的区域上形成在图1的说明中记述的文件存储用第一卷51。

[0043] 图3表示第二分级存储装置12的结构的一例。控制器71具有：计算机连接端口76，其连接第一分级存储装置11等上位装置；盘连接端口78，其连接多个硬盘42；共享存储器73，其暂时存储向硬盘42的写入/读出数据；以及处理器72。此外，经由连接部74连接计算机连接端口76、盘连接端口78、处理器72以及共享存储器73。连接部74一般由开关(Switch)构成，但也可以由公共总线构成。

[0044] 处理器72在接收到来自上位装置的数据写入/读出访问时，控制计算机连接端口76与共享存储器73之间的数据传输，并且在向硬盘42的数据写入/读出时，控制硬盘42与共享存储器73之间的数据传输。通过这种经由共享存储器73的计算机连接端口76和硬盘42之间的数据交换，进行从上位装置向硬盘42的数据写入/读出。

[0045] 在处理器72上连接内部LAN77。而且，存储装置外部的存储管理服务器19与内部LAN77连接。在此，上述控制器71的结构仅为一个实施例，并不是将结构限定为上述那样的结构。控制器71可以具有根据来自计算机的数据写入/读出请求，进行向硬盘42的数据的写入/读出的功能。

[0046] 而且，控制部71可以具有控制硬盘42的电源的ON/OFF(接通/切断)的电源控制部75，此时，电源控制部75与内部LAN37连接。

[0047] 关于硬盘安装部41，与图2所示的第一分级存储装置的结构相同。

[0048] 在由多个硬盘42构成的RAID组(Gr.)的区域上形成在图1的说明中记述的文件存储用第二卷52。

[0049] 在图2、图3中，关于第一分级存储装置11、第二分级存储装置12的结构，分别记述了一般的结构，并不是将它们限定为上述结构。作为第一分级存储装置11，只要是以下的装置即可：作为所要求的I/O处理性能，具有高于第二分级存储装置12的I/O处理性能。此外，作为第二分级存储装置12，只要是以下的装置即可：作为所要求的规格，可以通过与第一分级存储装置11相比数量少的硬盘实现上述计算机所需要的容量。

[0050] 图7表示计算机管理服务器18以及存储管理服务器19的功能。

[0051] 计算机管理服务器18具有：JOB管理部21，其管理由计算机14执行的JOB；用户管理部22，其管理委托计算机执行JOB的用户；以及信息提供部23，其成为向存储管理服务器19提供由计算机执行的JOB信息的接口。

[0052] 此外，在说明本实施例中的构成要素时使用的JOB管理部等各功能部可以通过软件以逻辑方式构成，也可以通过专用LSI等以硬件方式构成，而且还可以通过软件和硬件的组合来实现。此外，在以逻辑方式构成时，各功能部被存储在存储器中，由处理器来执行，由此实现其功能。

[0053] JOB管理部21具有投入JOB管理部201、JOB调度程序202以及结束JOB管理部206。此外，JOB调度程序202具有等待队列203和执行队列205。

[0054] 用户为了使用计算机14执行计算JOB，生成图9所示的计算执行脚本234，并将其输入计算机管理服务器18。例如通过计算机管理服务器18具备的GUI(Graphical User Interface)、CLI(Command Line Interface)，直接在计算机管理服务器18中进行该输入，或者通过与计算机管理服务器连接的客户终端来进行该输入。

[0055] 输入的计算执行脚本234由投入JOB管理部201进行管理，被分配给等待队列203内按照优先度从高到低的顺序所准备的队列1：211、队列2：212、队列3：213、或者队列4：214中的某一个。该分配方法、即优先度附加方法例如根据计算执行脚本234中记述的计算时间的长短、使用的主存储器容量的多少等进行判断，或者由用户在计算执行脚本234中明确地指定优先顺序。按照在各队列中排列的顺序执行JOB。此外，队列1～4的JOB的执行顺序为从优先度高的队列1开始依次执行。在优先度高的队列的JOB进入执行之后，如果在计算机14的CPU资源中存在空闲，可以执行下一优先度的JOB，则在空闲的CPU上也并行地执行该JOB。关于其之后的下一优先度的JOB也相同。在执行队列205中管理执行中的JOB，当JOB结束时将管理向结束JOB管理部206转移。

[0056] 用户管理部22管理从计算机管理服务器18或者从与计算机管理服务器18连接的客户终端使用计算机14的用户，即管理用户认证和用于存储用户在计算中使用的文件的用户目录。为了进行该管理，例如使用NIS(NetworkInformation Service)或LDAP(Lightweight Directory Access Protocol)等协议。

[0057] 此外，信息提供部23对存储管理服务器19发送各JOB的计算执行脚本234和表示JOB的执行顺序的信息、以及使用计算机14的用户和该用户使用的用户目录的信息。

[0058] 存储管理服务器19具有：信息收集部24，其从计算机管理服务器18的信息提供部23取得计算机14执行的JOB信息；信息分析部25，为了在存储装置中使用JOB信息而对其进行分析；卷管理部26，其根据所分析的信息，对第一分级存储装置11、第二分级存储装置12具有的卷向文件服务器13管理的用户目录的加载/卸载进行管理，或者对该用户目录之间的文件的升级/降级进行管理；用户区域管理部27，其管理文件服务器13处理的用户目录；以及存储管理部28，其向文件服务器13、第一分级存储装置11以及第二分级存储装置12指示卷的分配，或者指示卷的加载/卸载。

[0059] 接下来，使用图4至图6对用户执行计算时的用户目录的管理顺序进行说明。

[0060] 图4表示用户开始计算之前的用户目录和卷的关系的一例。文件服务器13根据存储管理部28的指示，加载文件存储用虚拟卷61来作为用户目录、即文件存储用目录81。

[0061] 第一分级存储装置11内的控制器31根据存储管理部的指示，将第二分级存储装置12内的文件存储用第二卷52虚拟为第一分级存储装置11内的文件存储用虚拟卷61，并且由第一分级存储装置11进行管理。由此，第一分级存储装置11也可以统一管理第二分级存储装置12的卷，因此可以简化卷的管理。

[0062] 在此，可以直接加载文件存储用第二卷52来作为文件存储用目录81。

[0063] 在目录树91中表示用户目录和文件存储用第二卷52的关系的一例。在此，对usr0下的每个目录dir0，dir1和usr1下的每个目录dir0、dir1、dir2分配了独立的文件存储用第二卷52。在此，上述用户目录和文件存储用第二卷52的对应关系(映射)由存储管理部19内的用户区域管理部27进行管理。此外，在用户从与存储管理服务器19连接的客户终端发出请求时，生成或者变更该对应关系。

[0064] 图6表示了本发明的分级存储系统中的文件的升级/降级的顺序。首先，在步骤501中，存储管理服务器19的信息收集部24从计算机管理服务器18的信息提供部23取得等待队列203内的全部JOB的计算执行脚本234以及表示JOB的执行顺序的信息。

[0065] 在此，作为JOB调度程序202控制JOB的执行顺序的方法，具有如下方法：(1)当JOB的执行结束时转为执行按照顺序的下一个JOB的方法；(2)对投入JOB管理部201投入多个JOB，根据所投入的多个JOB的计算执行脚本234内记载的计算时间，对各JOB的执行开始时间和执行结束时间进行调度，根据该调度顺次执行JOB的方法。

[0066] 因此，在方法(1)的情况下，信息收集部24从信息提供部23取得在等待队列203内排列的全部计算执行脚本234以及表示JOB执行顺序的信息，所述JOB执行顺序表示该计算执行脚本234是等待队列203内的哪个队列的第几个JOB。然后，在每个等待队列203内的队列(队列1～4)中，对计算执行脚本234附加序号。在此，可以由信息提供部23执行该序号附加，然后将结果发送给信息收集部24。

[0067] 此外，在方法(2)的情况下，信息收集部24从信息提供部23取得表示计算机管理服务器18进行了调度的各JOB的执行开始时间和执行结束时间的表。

[0068] 然后，在步骤502进行计算执行脚本234的分析。

[0069] 在对该分析进行说明之前，在图9中表示记述了由计算机14执行的执行作业(或者计算)的信息的计算执行脚本234的一例。因为多个用户投入计算执行脚本234，所以在图9中表示了具有多个计算执行脚本的图像。为了管理第一分级存储装置11、第二分级存储装置12具有的卷向文件服务器13所管理的用户目录的加载/卸载的调度，或者为了管理该用户目录之间的文件的升级/降级的调度，以及为了管理文件服务器13处理的用户目录，计算执行脚本234至少包含存储计算参数和计算执行结果的目录的信息300。

[0070] 最好还包含计算执行时间(CPU TIME)301、计算重复次数302、以及输出计算结果的重复次数间隔303。根据这些信息，计算机可以准确地求出输出文件的时间。

[0071] 在此，图9的计算执行脚本的格式仅为一个实施例，并不是将格式限定为图示的那样。只要至少包含上述信息即可。

[0072] 在信息分析部25中，从各JOB的计算执行脚本234中提取计算时间、输入输出用文件的目录、以及输入输出的文件的特性。在此，所谓文件的特性是指例如文件大小、文件数量。

[0073] 然后，在步骤503中，在卷管理部26中，根据文件的特性决定用于存储在计算中使用的文件的文件存储用第一卷51所需要的规格。以下叙述决定规格的方法的例子。

[0074] 首先，作为一例，在计算中使用的文件的大小大于预先决定的文件大小时(例如文件大小为1TB以上时)，将构成在该计算中使用的卷的硬盘的数量设为在第一分级存储装置11中可以设定的最大硬盘数量(例如16个)。在此，假设所准备的文件存储用第一卷51为tmp0，将构成该卷的硬盘的数量决定为tmp0的规格。

[0075] 因为跨越构成卷的全部硬盘来存储文件，所以通过增加构成卷的硬盘的数量，可以提高文件读出的并行度，文件读出的吞吐量提高。

[0076] 作为另一例子，在文件数量多于预先决定的数量时，将文件存储用第一卷51的数量设为针对每个文件数量预先决定的数量以上的数量。例如，在文件数量为1000个以上时，将文件存储用第一卷51的数量设定为文件数量的1/100。在此，假设文件存储用第一卷51的数量为8个，将它们设为tmp1～8。

[0077] 其原因在于，例如在一个卷中存储了全部的文件时，该卷的文件的读出吞吐量成为瓶颈。通过将文件分散存储在根据文件数量而决定的多个卷中，文件的读出吞吐量提高。

[0078] 在此，在上述两个例子中，显然可以使各卷(tmp0～8)的容量为在各个卷中存储的全部文件的总的大小以上。

[0079] 然后，在步骤504中，在卷管理部26中，决定文件存储用目录81和文件存储用第一卷51(tmp0～tmp8)的对应关系(映射)。

[0080] 使用图5说明该关系的一例。在图4中说明的计算开始前的用户用文件存储用目录81和文件存储用第二卷52的对应关系中加入文件存储用第一卷51。在此，作为文件存储用第一卷51，增加tmp0～tmp8的关系。如目录树92所示，通过文件服务器13分别将它们作为目录usr0下的tmp0、usr1下的目录tmp1～8进行加载。

[0081] 即，在文件存储用第二卷usr0/dir0中存储有usr0在计算中使用的、文件的大小大于预先决定的大小的文件，作为存储该文件的第一分级存储装置11内的文件存储用第一卷51，将tpm0加载为vdir0下的目录tmp0。

[0082] 此外，usr1在计算中使用的文件的数量大于预先决定的数量，将这些文件存储在文件存储用第二卷usr1/dir0～dir2中，作为存储该文件的第一分级存储装置11内的文件存储用第一卷51，将tmp1～8加载为vidr0～2的三个目录下的tmp1～8。

[0083] 在此，为了在加载了文件存储用第二卷的目录和加载了文件存储用第一卷的目录之间使对应关系变得清楚，在两者中存储了相同文件的情况下，在将文件存储用第二卷一方的目录设为dir0～2时，将对应的第一卷一方的目录设为vdir0～2。但是，如果进行了管理使两者的对应关系清楚，则可以不像该例子那样研究目录名的命名方法。

[0084] 然后，在步骤505中，在卷管理部26中对在步骤503中已决定了规格的文件存储用第一卷的选定/生成的时间、以及将该文件存储用第一卷加载为用户目录的时间进行调度。

[0085] 通过由JOB调度程序202控制JOB的执行顺序来决定上述加载/卸载时间的决定方法。而且，在该JOB调度程序202控制JOB的执行顺序的方法中具有如下方法：(1)当JOB的执行结束时转为执行按照顺序的下一个JOB的方法；(2)对投入JOB管理部201投入多个JOB，根据所投入的多个JOB的计算执行脚本234内记载的计算时间，对各JOB的执行开始时间和执行结束时间进行调度，根据该调度顺次执行JOB的方法。在下面对这些方法进行说明。

[0086] 在方法(1)的情况下，对队列中的作为对象的JOB在计算中使用的文件的升级时间进行计算，而且检查该JOB的前一个JOB的计算所需时间。在此，设文件的升级时间为如下值：在根据所升级的文件的数量、各文件大小以及从第二分级存储装置12向第一分级存储装置11的数据传输吞吐量计算出的时间上，加上例如计算出的时间的10％左右的余量而得到的值。在升级的时间比前一个JOB的计算时间短时，不决定加载时间地转为执行前一个JOB后，可以由计算机管理服务器18对该卷管理部通知已开始执行的信息。在升级的时间比前一个JOB的计算时间长时，前一个JOB的文件的升级结束后，由计算机管理服务器18对该卷管理部通知升级已结束的信息。此时，存在根据前一个JOB的计算所需时间，即使该前一个JOB结束，但相应JOB的文件的升级没有结束的情况。在这种情况下无法执行相应JOB。为了防止这样的状况，存储管理服务器19对计算机管理服务器18通知表示各JOB所需要的文件的升级是否结束的信息。在计算机管理服务器18中进行控制，以便根据从上述存储管理服务器19发送的升级结束信息，在开始执行各JOB之前检查执行该JOB所需要的文件的升级是否已完成，如果升级已完成则执行JOB，如果没有完成则在升级完成之后执行JOB。

[0087] 此外，将进行卸载的时间设为，在已转为执行相应JOB的时间上加上相应JOB的计算时间而得的时间。因此，在方法(1)的情况下，在开始执行相应JOB后决定进行卸载的时间。

[0088] 在方法(2)的情况下，卷管理部根据从计算机服务器18取得的所述信息，取得各JOB的执行开始时间和执行结束时间。因此，将加载开始时间设定为JOB执行开始时间之前的一定时间。设该一定时间为如下值：在根据进行升级的文件的数量、各文件大小以及从第二分级存储装置12向第一分级存储装置11的数据传输吞吐量计算出的时间上，例如加上该计算出的时间的10％左右的余量而得到的值。

[0089] 将卸载时间设定为JOB执行结束时间之后的一定时间。该一定时间是输出该JOB的计算结果所需要的时间，根据每个文件大小，将其设为基于根据第一分级存储装置的写入吞吐量以及文件大小计算出的值而预先决定的值。

[0090] 然后在步骤506中进行等待，直到到达指定时间(表示时刻)1为止。在方法(1)的情况下，指定时间1没有被预先决定，成为已转为执行从计算机管理服务器18通知的相应JOB的前一个JOB的时刻，或者成为相应JOB的前一个JOB的文件的升级已完成的时刻。在方法(2)的情况下，指定时间1是比步骤505中决定的时间提前文件存储用第一卷的设定或生成处理所需要的时间以上的时间。在此，首先判断在第一分级存储装置51内是否具有所需要的规格的卷，在存在这样的卷时需要“选定时间”，在不存在时需要“生成处理所需要的时间”。

[0091] 如果到达指定时间1，则在步骤507中，卷管理部26经由存储管理部28对第一分级存储装置11指示选定或者生成在步骤503中决定的规格的文件存储用第一卷51。

[0092] 然后，存储管理部28在步骤508中检查卷的选定或者生成是否完成，如果已完成则进入到步骤509。

[0093] 在步骤509中，卷管理部26按照在步骤504中决定的目录树，经由存储管理部28向文件服务器13指示在步骤507中选定/生成的文件存储用第一卷向用户目录的加载、以及由相应JOB使用的文件的升级。然后，文件服务器13执行加载，在加载完成之后对相应JOB使用的文件进行升级。

[0094] 在为图5中说明的例子时，通过将usr0/dir0的文件向usr/vdir0/tmp0复制来进行升级。此外，通过将usr1/dir0的文件分散地复制到usr1/vdir0/tmp1、2；将usr1/dir1的文件分散地复制到usr1/vdir1/tmp3～6；将usr1/dir2的文件分散地复制到usr1/vdir2/tmp7、8来进行升级。

[0095] 在步骤510中，存储管理部28检查来自文件服务器13的升级完成报告，若有升级完成报告则进入步骤511。

[0096] 在步骤511中，存储管理部28经由信息收集部24向计算机管理服务器18通知相应JOB所需要的文件升级完成。

[0097] 然后，在步骤512中进行等待，直到到达指定时间(表示时刻)2为止。在方法(1)的情况下，如上所述，指定时间2在执行相应JOB之后决定，使其成为已转为执行相应JOB的时间加上相应JOB的计算时间而得到的时间。在此，在即使到达指定时间2，JOB也没有结束的情况下，例如在计算所需要的时间与预定相比延长时，无法进行文件的降级以及卷的卸载。因此，从计算机管理服务器18取得JOB的完成通知。根据该信息，在到达指定时间2时检查相应JOB是否结束，在没有结束时，在存储管理服务器19取得相应JOB的结束通知之前等待步骤513的执行。在方法(2)的情况下，指定时间2成为在步骤505中决定的时间。在此，在即使到达指定时间2，JOB也没有结束的情况下，进行与方法(1)情况下相同的处理。

[0098] 如果到达指定时间2，则在步骤513中，存储管理部28向文件服务器13指示相应文件的降级，文件服务器13接受指示进行降级。即，将步骤509中说明的复制源目录作为复制目的地目录，将复制目的地目录作为复制源，来复制相应文件。然后，如果相应文件的降级结束，则文件服务器13从用户目录卸载相应的文件存储用第一卷51，将用户目录恢复到图4所示的状态。然后，在步骤514中，存储管理部28检查来自文件服务器13的卸载完成报告，如果接收到完成报告则转移至步骤515。

[0099] 然后，在步骤515中，存储管理服务器19释放已卸载的文件存储用第一卷来用作其他JOB使用的文件存储用卷。然后，重复进行步骤506至步骤515的处理。

[0100] 根据本实施方式，由计算机14执行的JOB在必要时可以将需要的文件升级到第一分级存储装置11中，所以可以发挥第一分级存储装置11的高性能，使文件向计算机14的输入输出高速化。此外，可以使第一分级存储装置11的容量为最小限度，可以削减存储系统的成本。

[0101] 在本实施方式中，在将JOB文件存储用第一卷51作为用户目录进行加载之后，在由计算机14进行的JOB执行结束、对输出的文件进行降级之前，不卸载并释放文件存储用第一卷51。

[0102] 但是，在图6所示的顺序中，在步骤511中存储管理服务器19向计算机管理服务器18通知升级完成，在计算机14从用户目录读出相应文件之后，可以从相应目录卸载文件存储用第一卷51，确保该卷作为其他JOB使用的文件存储用第一卷51，对其他的用户目录加载该卷。此时，在使用卸载了卷的用户目录的JOB结束之前，可以重新确保需要的卷，对该用户目录加载该卷。

[0103] 此外，可以预先分开地准备输入文件用目录以及卷、和输出用目录以及卷，输入用卷可以在相应JOB开始执行后从输入用目录卸载，释放该卷用于其他的JOB。

[0104] 此外，可以在指定时间1仅准备好输入用目录以及卷，在相应JOB开始执行后，从输入用目录进行卸载，释放该卷用于其他的JOB，在指定时间2之前确保输出用卷，对输出用目录加载该卷。

[0105] 通过进行上述的控制，可以进一步削减第一分级存储装置11所需要的容量，使存储系统1低成本化。

[0106] 如果在指定时间2，因为第一分级存储装置11的容量不足而无法确保输出用卷的情况下，通过将该JOB的文件直接写入加载了第二分级存储装置12的存储该JOB的文件的文件存储用第二卷52的用户目录中，可以避免第一分级存储装置11的容量不足。然后，使用图10对在本实施方式的存储系统2中降低消耗电力的方法进行说明。在该方法中，具有以下的方法：仅在第二分级存储装置12和第一分级存储装置11之间升级、降级与执行JOB相关的文件时，接通构成第二分级存储装置12的存储有相关文件的卷的硬盘的电源，在除此之外的时间，切断构成不进行文件升级、降级的卷的硬盘的电源。

[0107] 图10表示该方法的顺序。基本的处理流程与图6所示的流程相同。不同点如下所述。

[0108] 首先，在步骤411(相当于图6的步骤509)之前，在步骤409中，存储管理服务器19对第二分级存储装置12发出以下的指示：接通构成存储有成为升级对象的文件的文件存储用第二卷的硬盘的电源。存储管理服务器19具有表示文件存储用第二卷和构成该卷的硬盘的对应关系的表。

[0109] 然后，在步骤410中，存储管理服务器19对来自第二分级存储装置12的HDD电源接通的完成报告进行检查，如果收到完成报告则转移至步骤411的处理。

[0110] 此外，在步骤413之后，存储管理服务器19对第二分级存储装置12发出指示，来再次切断构成存储有文件升级已完成的文件的文件存储用第二卷52的硬盘的电源。

[0111] 然后，如果到达指定时间2，则在步骤416中存储管理服务器19对第二分级存储装置12发出指示，来再次接通构成与相应的JOB相关联的文件存储用第二卷52的硬盘的电源。

[0112] 然后，在步骤417中，存储管理服务器19检查来自第二分级存储装置12的HDD电源接通的完成报告，如果收到完成报告，则转移至步骤418的处理。

[0113] 此外，在步骤420之后，在步骤421中，存储管理服务器19对第二分级存储装置12发出指示，来再次切断构成存储有文件降级已完成的文件的文件存储用第二卷52的硬盘的电源。之后，重复步骤406至步骤421的处理。

[0114] 此外，还可以在步骤413之后，在计算机14已读入了输入文件之后，存储管理服务器19对第一分级存储装置11发出指示，来切断构成存储有该文件的文件存储用第一卷51的硬盘的电源。此时，在步骤416之后，存储管理服务器19对第一分级存储装置11发出指示，来再次接通上述电源已切断的硬盘的电源。存储管理服务器19具有表示文件存储用第一卷和构成该卷的硬盘的对应关系的表。

[0115] 由此，与仅切断第二分级存储装置12的硬盘的电源的情况相比，可以进一步降低消耗电力。

[0116] 接下来，对本发明的第二实施方式进行说明。

[0117] 图8表示包含第二实施方式的存储装置的系统的结构例。图8所示的系统的结构除了以下的不同点以外，与图1所示的系统的结构相同。

[0118] 不同点在于，第一分级存储装置11具有转储(dump)用卷53、以及第一分级存储装置11经由FC交换机15与计算机14相连接。

[0119] 在本实施例的系统中，在JOB的执行过程中，定期将计算机14中的执行JOB时使用的全部处理器的主存储器(处理器在计算中使用的数据)的内容原样不变地作为块数据写入转储用卷53。把向转储用卷53写入该主存储器的内容的时刻称为检查点(check point)。如此，通过在每个检查点向转储用卷53写入在计算中使用的处理器的主存储器的内容，在由于计算机的故障而使JOB的执行中断时，通过将在JOB执行中断前不久的检查点在转储用卷53中写入的主存储器的内容读入计算机14的主存储器中，可以从该时刻起继续再次开始计算。

[0120] 在不进行这样的处理时，在由于计算机的故障而使JOB的执行中断时，需要从最初开始重新进行计算，浪费计算时间。

[0121] 在进行该处理的系统中，在第一分级存储装置11内，除了用于向计算机14输入输出文件的卷(文件存储用第一卷51)之外，还需要准备转储用卷53，因此与没有转储用卷的情况相比需要更多的容量，成为存储系统1成本上升的原因。为了防止成本上升，执行如下所示的转储用卷53的分配。

[0122] 首先，存储管理服务器19从所述计算机管理服务器18取得用于计算机14内的计算的主存储器容量、和在转储用卷53中写入在计算机14的主存储器内存储的数据的次数、即检查点的次数的信息，该存储管理服务器19根据该信息设定作为转储用卷53而确保的卷的数量和容量。例如，设转储用卷53为一个，在该卷中写入在全部检查点的主存储器的内容时，将转储用卷53的容量设为(主存储器容量)×(检查点的数量)。此外，在准备与检查点的数量相同的转储用卷53时，将各转储用卷53的容量设为与主存储器容量相等，或者设为具有余量，例如比主存储器容量稍微多5％左右的容量。

[0123] 然后，对转储用卷53的分配方法进行说明。通过第一分级存储装置11根据存储管理服务器的指示执行，来实现以下的方法。在第一分级存储装置11中的卷的分配中，优先进行文件存储用第一卷51的分配，将剩余的卷分配给转储用卷53。其原因在于，文件存储用第一卷51是用于存储执行JOB所需要的文件的卷，当无法确保该卷时无法执行JOB。

[0124] 因为通过这样的想法来进行卷的分配，所以当确保了根据检查点和在计算中使用的主存储器容量而计算出的转储用卷的数量以及各个卷的容量时，在超过第一分级存储装置11的最大容量时，经由计算机管理服务器18向用户通知再次设定检查点的次数。

[0125] 或者，不准备所需数量的转储用卷53，而分配在剩余卷的范围内分配的最大数量的转储用卷53。而且，在计算的过程中在所准备的数量的转储用卷53全部用尽时，向存储有最早的检查点的数据的转储用卷53覆盖写入新的检查点的数据。此时，经由计算机管理服务器18向用户通知执行该处理，可以使用户选择执行该处理或者再次设定检查点的数量。

[0126] 或者，可以使转储用卷53仅为2～3个，在该数量范围内循环使用卷。即，如果卷的数量不足，则向较早的检查点的卷覆盖写入新的检查点的数据。

[0127] 此外，可以在最初向用户提示上述三个分配方法，让用户选择。

[0128] 此外，在预先已知JOB的计算开始时间和结束时间，并且计算时间比卷的重新分配和向用户目录加载/卸载卷所需的时间长时，可以在计算开始后从用户目录卸载用于存储输入文件的文件存储用第一卷51，将其作为转储用卷53重新进行分配。此时，在计算结束时间之前的一定时间，释放与存储JOB的输出文件所需要的卷相等的转储用卷，将其作为存储输出用文件的卷再次进行分配，并且作为用户目录进行加载。

[0129] 如此，可以削减第一分级存储装置11所需要的容量，可以削减存储系统1的成本。

[0130] 在此，可以将在上述说明的转储用卷53中存储的检查点的主存储器的内容，关于用户指定的检查点，向在第二分级存储装置12中准备的转储用卷进行降级。如此，当希望在计算结束后从某个检查点再次进行计算时，可以缩短计算时间。

分级存储系统及其数据迁移方法转让专利

申请号 : CN200810082824.2

文献号 : CN101311911B

文献日 : 2011-03-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 藤本和久 , 松并直人 , 赤池洋俊

申请人 : 株式会社日立制作所

摘要 :

权利要求 :

说明书 :