一种文件存储方法、装置、设备及计算机可读存储介质转让专利

申请号 : CN202010213191.5

文献号 : CN111443869B

文献日 : 2021-07-02

本申请公开了一种文件存储方法，包括：获取待存储文件，并将待存储文件转换为对应的二进制码串；将二进制码串按照第一位数进行分割，并将分割得出的分割码串按照第二位数进行分组，得出对应的分割码组；在同一分割码串中，利用预设的平衡序列对应替换分割码组中的第一分割码组，并利用第二分割码组将第三分割码组的位数补充至与平衡序列的位数相等；其中，各平衡序列中的0、1含量均相等；根据各分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储DNA信息片段。本方法能够提高DNA信息片段的逻辑存储密度，提高核苷酸存储空间的实际存储效率。本申请还公开了一种文件存储装置、设备及存储介质，均具有上述有益效果。

1.一种文件存储方法，其特征在于，包括：获取待存储文件，并将所述待存储文件转换为对应的二进制码串；

将所述二进制码串按照第一位数进行分割，并将分割得出的分割码串按照第二位数进行分组，得出对应的分割码组；

在同一所述分割码串中，利用预设的平衡序列对应替换所述分割码组中的第一分割码组，并利用第二分割码组将第三分割码组的位数补充至与平衡序列的位数相等；其中，各所述平衡序列中的0、1含量均相等；

根据各所述分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储所述DNA信息片段。

2.根据权利要求1所述的方法，其特征在于，在所述获取待存储文件，并将所述待存储文件转换为对应的二进制码串之后，进一步包括：将所述二进制码串转换为对应的Base64码串；

对应的，所述将所述二进制码串按照第一位数进行分割，并将分割得出的分割码串按照第二位数进行分组，得出对应的分割码组的过程，具体包括：将所述Base64码串按照第三位数进行分割，得到Base64码组；其中，所述Base64码组中的一个所述Base64码对应一个所述分割码组。

3.根据权利要求1所述的方法，其特征在于，在所述根据各所述分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储所述DNA信息片段之后，进一步包括：对所述DNA信息片段进行测序以验证所述DNA信息片段的碱基序列是否与编码出的标准碱基序列一致。

4.根据权利要求3所述的方法，其特征在于，所述对所述DNA信息片段进行测序以验证所述DNA信息片段的碱基序列是否与编码出的标准碱基序列一致的过程，具体包括：通过Illumina测序法对所述DNA信息片段进行双向测序以验证所述DNA信息片段的所述碱基序列是否与编码出的标准碱基序列一致。

5.根据权利要求4所述的方法，其特征在于，进一步包括：若不一致，则发出对应的提示信息。

6.根据权利要求1所述的方法，其特征在于，在所述根据各所述分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储所述DNA信息片段之后，进一步包括：检测所述DNA信息片段的长度。

7.根据权利要求1至6任一项所述的方法，其特征在于，在所述根据各所述分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储所述DNA信息片段之后，进一步包括：

记录存储所述DNA信息片段的时间。

8.一种文件存储装置，其特征在于，包括：获取模块，用于获取待存储文件，并将所述待存储文件转换为对应的二进制码串；

分割模块，用于将所述二进制码串按照第一位数进行分割，并将分割得出的分割码串按照第二位数进行分组，得出对应的分割码组；

第一转换模块，用于在同一所述分割码串中，利用预设的平衡序列对应替换所述分割码组中的第一分割码组，并利用第二分割码组将第三分割码组的位数补充至与平衡序列的位数相等；其中，各所述平衡序列中的0、1含量均相等；

确定模块，用于根据各所述分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储所述DNA信息片段。

9.一种文件存储设备，其特征在于，包括：存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的文件存储方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文件存储方法的步骤。

一种文件存储方法、装置、设备及计算机可读存储介质

技术领域

[0001] 本发明涉及信息存储领域，特别涉及一种文件存储方法、装置、设备及计算机可读存储介质。

背景技术

[0002] 近年来，人工智能、云计算、物联网等信息技术的飞速发展引发了数据文件的迅猛增长。虽然随着科技的进步，存储硬盘在不断优化提升，但远远满足不了爆炸式增长的数据
信息的存储需求。现有技术提出了一种基于DNA存储介质的信息存储方法，通过将待存储文
件进行DNA编码，以降低在存储待存储文件时所需的存储空间。但是，现有技术中，需要在
DNA编码的过程中引入纠错码来控制DNA信息片段中鸟嘌呤和胞嘧啶的含量，以避免在存储
或者传输待存储文件时出现的错误。纠错码本身并不是待存储文件中的信息，但它同样会
占用核苷酸存储空间。例如，原本100个核苷酸可以存储100位待存储文件中的信息，但是设
置纠错码需要占用10位，即需要10个核苷酸用于设置纠错码，因此实际存储待存储文件只
能利用90个核苷酸。这样一来，将导致DNA信息片段的逻辑存储密度低，待存储文件实际能
够占用的核苷酸存储空间少，核苷酸存储空间的实际存储效率低。

[0003] 因此，如何提高文件存储时核苷酸存储空间的实际存储效率，是本领域技术人员目前需要解决的技术问题。

发明内容

[0004] 有鉴于此，本发明的目的在于提供一种文件存储方法，能够提高文件存储时核苷酸存储空间的实际存储效率；本发明的另一目的是提供一种文件存储装置、设备及计算机
可读存储介质，均具有上述有益效果。

[0005] 为解决上述技术问题，本发明提供一种文件存储方法，包括：

[0006] 获取待存储文件，并将所述待存储文件转换为对应的二进制码串；

[0007] 将所述二进制码串按照第一位数进行分割，并将分割得出的分割码串按照第二位数进行分组，得出对应的分割码组；

[0008] 在同一所述分割码串中，利用预设的平衡序列对应替换所述分割码组中的第一分割码组，并利用第二分割码组将所述第三分割码组的位数补充至与平衡序列的位数相等；
其中，各所述平衡序列中的0、1含量均相等；

[0009] 根据各所述分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储所述DNA信息片段。

[0010] 优选地，在所述获取待存储文件，并将所述待存储文件转换为对应的二进制码串之后，进一步包括：

[0011] 将所述二进制码串转换为对应的Base64码串；

[0012] 对应的，所述将所述二进制码串按照第一位数进行分割，并将分割得出的分割码串按照第二位数进行分组，得出对应的分割码组的过程，具体包括：

[0013] 将所述Base64码串按照第三位数进行分割，得到Base64码组；其中，所述Base64码组中的一个所述Base64码对应一个所述分割码组。

[0014] 优选地，在所述根据各所述分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储所述DNA信息片段之后，进一步包括：

[0015] 对所述DNA信息片段进行测序以验证所述DNA信息片段的碱基序列是否与编码出的标准碱基序列一致。

[0016] 优选地，所述对所述DNA信息片段进行测序以验证所述DNA信息片段的碱基序列是否与编码出的标准碱基序列一致的过程，具体包括：

[0017] 通过Illumina测序法对所述DNA信息片段进行双向测序以验证所述DNA信息片段的所述碱基序列是否与编码出的标准碱基序列一致。

[0018] 优选地，进一步包括：

[0019] 若不一致，则发出对应的提示信息。

[0020] 优选地，在所述根据各所述分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储所述DNA信息片段之后，进一步包括：

[0021] 检测所述DNA信息片段的长度。

[0022] 优选地，在所述根据各所述分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储所述DNA信息片段之后，进一步包括：

[0023] 记录存储所述DNA信息片段的时间。

[0024] 为解决上述技术问题，本发明还提供一种文件存储装置，包括：

[0025] 获取模块，用于获取待存储文件，并将所述待存储文件转换为对应的二进制码串；

[0026] 分割模块，用于将所述二进制码串按照第一位数进行分割，并将分割得出的分割码串按照第二位数进行分组，得出对应的分割码组；

[0027] 第一转换模块，用于在同一所述分割码串中，利用预设的平衡序列对应替换所述分割码组中的第一分割码组，并利用第二分割码组将所述第三分割码组的位数补充至与平
衡序列的位数相等；其中，各所述平衡序列中的0、1含量均相等；

[0028] 确定模块，用于根据各所述分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储所述DNA信息片段。

[0029] 为解决上述技术问题，本发明还提供一种文件存储设备，包括：

[0030] 存储器，用于存储计算机程序；

[0031] 处理器，用于执行所述计算机程序时实现上述任一种文件存储方法的步骤。

[0032] 为解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种文件存储
方法的步骤。

[0033] 本发明提供的一种文件存储方法，通过获取待存储文件，并将待存储文件转换为对应的二进制码串；然后将二进制码串按照第一位数进行分割，并将分割得出的分割码串
按照第二位数进行分组，得出对应的分割码组；再在同一分割码串中，利用预设的平衡序列
对应替换分割码组中的第一分割码组，并利用第二分割码组将第三分割码组的位数补充至
与平衡序列的位数相等；其中，各平衡序列中的0、1含量均相等；根据各分割码组的对应关
系以及碱基映射关系确定出DNA信息片段，并存储DNA信息片段。可见，本方法是在编码DNA
信息片段的过程中，通过构建0、1含量均相等的平衡序列来控制DNA信息片段中的鸟嘌呤和
胞嘧啶含量，以避免在存储或者传输待存储文件时出现的错误。相较于现有技术，本方法避
免了纠错码占用核苷酸存储空间的情况，最大限度地利用DNA信息片段中每个核苷酸的信
息存储能力，因此本方法能够提高DNA信息片段的逻辑存储密度，提高核苷酸存储空间的实
际存储效率。

[0034] 为解决上述技术问题，本发明还提供了一种提高文件存储时核苷酸存储空间的实际存储效率装置、设备及计算机可读存储介质，均具有上述有益效果。

附图说明

[0035] 为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发
明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根
据提供的附图获得其他的附图。

[0036] 图1为本发明实施例提供的一种文件存储方法的流程图；

[0037] 图2为本发明实施例提供的一种文件存储方法的过程示意图；

[0038] 图3为本发明实施例提供的一种文件存储方法中DNA编码过程的示意图；

[0039] 图4为本发明实施例提供的一种文件存储装置的结构图；

[0040] 图5为本发明实施例提供的一种文件存储设备的结构图。

具体实施方式

[0041] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于
本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例，都属于本发明保护的范围。

[0042] 本发明实施例的核心是提供一种文件存储方法，能够提高文件存储时核苷酸存储空间的实际存储效率；本发明的另一核心是提供一种文件存储装置、设备及计算机可读存
储介质，均具有上述有益效果。

[0043] 为了使本领域技术人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

[0044] 图1为本发明实施例提供的一种文件存储方法的流程图。如图1所示，一种文件存储方法包括：

[0045] S10：获取待存储文件，并将待存储文件转换为对应的二进制码串。

[0046] 在实际操作中，首先获取待存储文件，其中，待存储文件可以是图片、文字等格式的文件，本实施例对待存储文件的具体类型不做限定。在获取到待存储文件之后，将待存储
文件中的信息利用预设编码方式转换为对应的二进制码，因此，整个待存储文件转换为对
应的二进制码串。

[0047] S20：将二进制码串按照第一位数进行分割，并将分割得出的分割码串按照第二位数进行分组，得出对应的分割码组。

[0048] 具体的，在将待存储文件转换为对应的二进制码串之后，先将二进制码串按照第一位数进行分割，得出对应的分割码串；然后将分割码串按照第二位数进行分组，得出对应
的分割码组。需要说明的是，本实施例对第一位数和第二位数的实际值不做限定，在实际操
作中，一般将第一位数设置为第二位数的整数倍，便于后续的操作。例如，作为一种具体的
实施方式，第一位数可以是42位，第二位数可以是6位，即分割码串为42位二进制码，分割码
组为6位二进制码；因此按照本实施例的方式进行切分，一个分割码串将对应切分为7个分
割码组。

[0049] S30：在同一分割码串中，利用预设的平衡序列对应替换分割码组中的第一分割码组，并利用第二分割码组将第三分割码组的位数补充至与平衡序列的位数相等；

[0050] 其中，各平衡序列中的0、1含量均相等。

[0051] 具体的，预先设置与各分割码组对应的平衡序列，平衡序列中的0、1含量是相等的；例如，假设平衡序列为8位二进制码，则该平衡序列中的0和1均为4位。在本实施例中，第
一分割码组和第三分割码组分别对应同一分割码串中的三个分割码组，第二分割码组对应
同一分割码串中的一个分割码组，利用预设的平衡序列对应替换分割码组中的第一分割码
组，然后利用第二分割码组将第三分割码组的位数补充至与平衡序列的位数相等。此时，同
一分割码串中，有6个分割码组对应转换为8位二进制码。

[0052] S40：根据各分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储DNA信息片段。

[0053] 具体的，首先设置分割码组的对应关系，如1‑2组分割码组为对应关系，3‑4组分割码组为对应关系，5‑6组分割码组为对应关系；然后在分割码串中的6个分割码组对应转换
为8位二进制码的基础上，根据预设的分割码组的对应关系将各转换后的分割码组对应组
合；然后根据预设的碱基映射关系，将对应组合的2位二进制码转换为对应的碱基，从而得
出DNA序列；再将DNA序列通过固相合成以及DNA连接酶转换得出DNA信息片段。其中，本实施
例对预设的碱基映射关系的具体映射方式不做限定，例如在本实施例中，00映射为腺嘌呤
A，10映射为胸腺嘧啶T，01映射为胞嘧啶C，11映射为鸟嘌呤G。固相合成即在固相载体上经
过程序化循环(脱保护，活化，偶连，氧化)过程，将核苷酸连接到DNA合成链末端，随着循环
周期进行，DNA链逐渐增长，以得出DNA信息片段。然后，将得出的DNA信息片段进行存储，即
对应存储的是待存储文件中的信息。

[0054] 本发明实施例提供的一种文件存储方法，通过获取待存储文件，并将待存储文件转换为对应的二进制码串；然后将二进制码串按照第一位数进行分割，并将分割得出的分
割码串按照第二位数进行分组，得出对应的分割码组；再在同一分割码串中，利用预设的平
衡序列对应替换分割码组中的第一分割码组，并利用第二分割码组将第三分割码组的位数
补充至与平衡序列的位数相等；其中，各平衡序列中的0、1含量均相等；根据各分割码组的
对应关系以及碱基映射关系确定出DNA信息片段，并存储DNA信息片段。可见，本方法是在编
码DNA信息片段的过程中，通过构建0、1含量均相等的平衡序列来控制DNA信息片段中的鸟
嘌呤和胞嘧啶含量，以避免在存储或者传输待存储文件时出现的错误。相较于现有技术，本
方法避免了纠错码占用核苷酸存储空间的情况，最大限度地利用DNA信息片段中每个核苷
酸的信息存储能力，因此本方法能够提高DNA信息片段的逻辑存储密度，提高存储空间的实
际存储效率。

[0055] 在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例在获取待存储文件，并将待存储文件转换为对应的二进制码串之后，进一步包括：

[0056] 将二进制码串转换为对应的Base64码串；

[0057] 对应的，将二进制码串按照第一位数进行分割，并将分割得出的分割码串按照第二位数进行分组，得出对应的分割码组的过程，具体包括：

[0058] 将Base64码串按照第三位数进行分割，得到Base64码组；其中，Base64码组中的一个Base64码对应一个分割码组。

[0059] 需要说明的是，在本实施例中，是在将待存储文件转换为对应的二进制码串之后，再进一步将二进制码串转换为Base64码串。需要说明的是，一个base64码对应的是去除掉8
位二进制码的首位的2个0后得出的6位二进制码；对应的，由于本实施例进一步将二进制码
串转换为对应的Base64码串，因此在进行码串分割时，具体是将Base64码串按照第三位数
进行分割，得到Base64码组。

[0060] 对应的，对同一分割码串中的各分割码组进行转换，也就是将Base64码组中的各Base64码进行转换。具体的，预先设置的与各分割码组对应的平衡序列，也就是与各Base64
码对应的平衡序列，利用预设的平衡序列替换Base64码组中的预设的3位Base64码；利用预
设的1位Base64码将其他3位Base64码对应的二进制补齐至8位，与平衡序列对应的二进制
码位数相同；然后根据同一Base64码组中各Base64码的对应关系和碱基映射关系，确定出
DNA信息片段，并对得出的DNA信息片段进行存储。

[0061] 可见，本实施例通过进一步将二进制码串转换为对应的Base64码串，再基于base64码串进行DNA编码，能够进一步提高存储待存储文件的效率。

[0062] 在根据各分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储DNA信息片段之后，进一步包括：

[0063] 对DNA信息片段进行测序以验证DNA信息片段的碱基序列是否与编码出的标准碱基序列一致。

[0064] 具体的，在本实施例中，是在根据各分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储DNA信息片段之后，进一步对DNA信息片段进行测序，获取实际存储
的DNA信息片段中的碱基序列；然后将实际获取的碱基序列与编码出的标准碱基序列进行
比较，以确定存储的DNA信息片段是否准确。

[0065] 作为优选的实施方式，对DNA信息片段进行测序以验证DNA信息片段的碱基序列是否与编码出的标准碱基序列一致的过程，具体包括：

[0066] 通过Illumina测序法对DNA信息片段进行双向测序以验证DNA信息片段的碱基序列是否与编码出的标准碱基序列一致。

[0067] 具体的，在本实施例中，通过在DNA信息片段5’和3’端添加测序引物，将DNA信息片段中的DNA序列插入含有双向测序引物的质粒中，通过Illumina测序法对DNA信息片段中的
碱基序列进行双向测序，即得出存储的DNA信息片段中的碱基序列，然后将存储的DNA信息
片段中的碱基序列和编码出的标准碱基序列进行比较，判断二者是否一致，以确定存储的
DNA信息片段是否准确；并且成熟的Illumina测序方法及双向测序保证测序本身不会误读
引入错误，进一步保障存储DNA信息片段的正确性。

[0068] 具体的，在本实施例中，作为优选的实施方式，进一步包括：

[0069] 若不一致，则发出对应的提示信息。

[0070] 具体的，在本实施例中，是在确定出存储的DNA信息片段的碱基序列与编码出的标准碱基序列不一致的情况下，发出对应的提示信息，以提示用户存储待存储文件存在错误，
使得用户及时知晓存储状况。

[0071] 需要说明的是，本实施例对发出提示信息的具体实现方式不做限定，只要是能够达到提示的目的即可。在实际操作中，可以是在确定出不一致的情况下，触发预设的提示装
置运行以发出对应的信息，如触发显示器显示当前存储的碱基序列和编码出的标准碱基序
列不一致的情况，者触发蜂鸣器发出蜂鸣音或者触发指示灯进行灯光闪烁等，以使得用户
可以根据提示装置的运行情况直观地获取待存储文件的存储状况。

[0072] 为了使本领域技术人员更清楚本方法的技术方案，本实施例进一步利用场景实施例并结合附图2和附图3来进行说明。其中，图2为本发明实施例提供的一种文件存储方法的
过程示意图，图3为本发明实施例提供的一种文件存储方法中DNA编码过程的示意图。

[0073] 具体的，在实际操作中，首先获取待存储数据文件“Changchun Institute Of Applied Chemistry,Chinese Academy Of Sciences,Southern University of Science
and Technology,Shanghai Jiao Tong University,Fuzhou University,Fudan
University”，然后将存储文件利用编码器转换为二进制码串，再转换为对应的Base64码串
“Q2hhb mdjaH VuIEl uc3Rp dHV0Z SBvZi BBcHB saWVk IENoZ W1pc3 RyeSw gQ2hp
bmVzZ SBBY2 FkZW1 5IG9m IFNja WVuY2 VzLCB Tb3V0 aGVyb iBVbm l2ZXJ zaXR5 IG9mI
FNjaW VuY2U gYW5k IFRlY 2hub2 xvZ3k sIFNo YW5na GFpIE ppYW8 gVG9u ZyBVb ml2ZX
JzaXR 5LCBG dXpob 3UgVW 5pdmV yc2l0 eSBhb mQgRn VkYW4 gVW5p dmVyc 2l0eS 4＝”；
然后将Base64码串以7个字符为一组进行分割，得出Base64码组，即7位Base64码为一组
Base64码组。

[0074] 然后，构建70组8位平衡序列，并选取64组与base码设置一一对应关系，即选取出的平衡序列与base64码分别对应，每组平衡序列包含的0、1数目各占一半，均为4个。且可以
理解的是，由于base64码也是由去除掉8位二进制码的首位的2个0后得出的6位二进制确定
出的，因此平衡序列也与各分割码组对应。如表1所示，为本发明实施例提供的一种平衡序
列与base64码的对应关系：

[0075] 表1平衡序列与base64码的对应关系

[0076]

[0077]

[0078] 然后，利用平衡序列与base64码的对应关系，利用平衡序列的二进制码将每个base64码组中的第1、3、5个字符进行替换；利用base64码组中的第7个字符对应的二进制码
将对应的base64码组中的第2、4、6个字符补齐至8位。

[0079] 具体的，如图3所示，在分割得出的第一个base64码组“Q2hhbmd”中，“Q”“h”“b”分别为第1、3、5个字符，利用平衡序列中对应的二进制码进行替换；“2”“h”“m”分别为base64
码组中的第2、4、6个字符，且每个base64码对应的是6位二进制；利用第7个字符“d”对应的6
位二进制码分别将第2、4、6个字符对应的六位二进制码补齐为8位，与平衡序列中对应的二
进制码的位数相等。更具体的，将“d”对应的6位二进制码中的“10”对应补充至“2”的6位二
进制码中，将“d”对应的6位二进制码中的“11”对应补充至“h”的6位二进制码中，将“d”对应
的6位二进制码中的“10”对应补充至“m”的6位二进制码中。需要说明的是，在实际操作中，
对具体的补充位置不做限定，例如可以补充至6位二进制码最前端，或者最后端，本实施例
优选的补充至6位二进制码的最后端。此时，一个base64码组对应的7个字符，即7位base64
码中，其中6个base64码都按照预设规则转换为对应的8位二进制码；然后根据各字符位数
的对应关系以及碱基映射关系确定出DNA序列。

[0080] 具体的，将第1个字符和第2个字符组对，将第3个字符和第4个字符组对，以及将第5个字符和第6个字符组对，分别得出8个2位二进制码；再结合预设的碱基映射关系，如00映
射为腺嘌呤A，10映射为胸腺嘧啶T，01映射为胞嘧啶C，11映射为鸟嘌呤G，确定出对应的DNA
碱基序列，即base64码组“Q2hhbmd”对应的DNA碱基序列为“AGTAGTGC”。DNA碱基序列通过固
相合成及DNA连接酶得到DNA信息片段，该DNA信息片段即保存了待存储文件信息的信息。

[0081] 进一步的，将DNA信息片段中的DNA序列插入含有双向测序引物的质粒中，通过Illumina测序法对DNA信息片段中的碱基序列进行双向测序，即得出存储的DNA信息片段中
的碱基序列，然后将存储的DNA信息片段中的碱基序列和编码出的标准碱基序列进行比较，
判断二者是否一致，以确定存储的DNA信息片段是否准确

[0082] 可见，在本实施例中，在编码DNA信息片段的过程中，通过构建0、1含量均相等的平衡序列来控制DNA信息片段中的鸟嘌呤和胞嘧啶含量，以避免在存储或者传输待存储文件
时出现的错误。相较于现有技术，本方法避免了纠错码占用核苷酸存储空间的情况，最大限
度地利用DNA信息片段中每个核苷酸的信息存储能力，因此本方法能够提高DNA信息片段的
逻辑存储密度，提高存储空间的实际存储效率。

[0083] 在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例在根据各分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储DNA
信息片段之后，进一步包括：

[0084] 检测DNA信息片段的长度。

[0085] 具体的，在本实施例中，是在根据各分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储DNA信息片段之后，进一步检测所存储的DNA信息片段的长度。在实
际操作中，DNA信息片段的长度一般为500‑1000dp，通过检测存储的DNA信息片段的长度，避
免DNA信息片段过长或过短导致的存储问题。

[0086] 在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例在根据各分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储DNA
信息片段之后，进一步包括：

[0087] 记录存储DNA信息片段的时间。

[0088] 具体的，在本实施例中，是在根据各分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储DNA信息片段之后，进一步获取存储DNA信息片段的时间，并记录该
时间，因此用户能够根据记录的信息直观便捷直观地获取存储DNA信息片段的存储时间。需
要说明的是，记录存储DNA信息片段的时间的方式，可以是利用数据库表的方式进行记录，
也可以是利用文本文档的方式进行记录，本实施例对此不做限定。

[0089] 另外，在实际操作中，在记录存储DNA信息片段的时间的同时，还可以进一步记录DNA信息片段的序号标识、DNA信息片段的长度等信息，以便于用户能够更便捷直观地获取
待存储文件的相关存储信息。

[0090] 可见，本实施例通过进一步记录存储DNA信息片段的时间，能够更进一步提升用户的使用体验。

[0091] 上文对于本发明提供的一种文件存储方法的实施例进行了详细的描述，本发明还提供了一种与该方法对应的文件存储装置、设备及计算机可读存储介质，由于装置、设备及
计算机可读存储介质部分的实施例与方法部分的实施例相互照应，因此装置、设备及计算
机可读存储介质部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

[0092] 图4为本发明实施例提供的一种文件存储装置的结构图，如图4所示，一种文件存储装置包括：

[0093] 获取模块41，用于获取待存储文件，并将待存储文件转换为对应的二进制码串；

[0094] 分割模块42，用于将二进制码串按照第一位数进行分割，并将分割得出的分割码串按照第二位数进行分组，得出对应的分割码组；

[0095] 第一转换模块43，用于在同一分割码串中，利用预设的平衡序列对应替换分割码组中的第一分割码组，并利用第二分割码组将第三分割码组的位数补充至与平衡序列的位
数相等；其中，各平衡序列中的0、1含量均相等；

[0096] 确定模块44，用于根据各分割码组的对应关系以及碱基映射关系确定出DNA信息片段，并存储DNA信息片段。

[0097] 本发明实施例提供的文件存储装置，具有上述文件存储方法的有益效果。

[0098] 作为优选的实施方式，一种文件存储装置进一步包括：

[0099] 第二转换模块，用于将二进制码串转换为对应的Base64码串；

[0100] 对应的，分割模块具体包括：

[0101] 分割子模块，用于将Base64码串按照第三位数进行分割，得到Base64码组；其中，Base64码组中的一个Base64码对应一个分割码组。

[0102] 作为优选的实施方式，一种文件存储装置进一步包括：

[0103] 测序模块，用于对DNA信息片段进行测序以验证DNA信息片段的碱基序列是否与编码出的标准碱基序列一致。

[0104] 测序模块具体包括：

[0105] 测序子模块，用于通过Illumina测序法对DNA信息片段进行双向测序以验证DNA信息片段的碱基序列是否与编码出的标准碱基序列一致。

[0106] 作为优选的实施方式，一种文件存储装置进一步包括：

[0107] 提示模块，用于在测序子模块的判断结果为不一致时，发出对应的提示信息。

[0108] 作为优选的实施方式，一种文件存储装置进一步包括：

[0109] 长度检测模块，用于检测DNA信息片段的长度。

[0110] 作为优选的实施方式，一种文件存储装置进一步包括：

[0111] 记录模块，用于记录存储DNA信息片段的时间。

[0112] 图5为本发明实施例提供的一种文件存储设备的结构图，如图5所示，一种文件存储设备包括：

[0113] 存储器51，用于存储计算机程序；

[0114] 处理器52，用于执行计算机程序时实现如上述文件存储方法的步骤。

[0115] 本发明实施例提供的文件存储设备，具有上述文件存储方法的有益效果。

[0116] 为解决上述技术问题，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述文件存储方法的步骤。

[0117] 本发明实施例提供的计算机可读存储介质，具有上述文件存储方法的有益效果。

[0118] 以上对本发明所提供的文件存储方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例
的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通
技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些
改进和修饰也落入本发明权利要求的保护范围内。

[0119] 说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而
言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明
即可。

[0120] 专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和
软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些
功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业
技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应
认为超出本发明的范围。

一种文件存储方法、装置、设备及计算机可读存储介质转让专利

申请号 : CN202010213191.5

文献号 : CN111443869B

文献日 : 2021-07-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 刘凯 , 张轶 , 王帆 , 张洪杰

申请人 : 中国科学院长春应用化学研究所

摘要 :

权利要求 :

说明书 :