一种基于人工智能的结构化数据文本编辑方法及系统转让专利

申请号 : CN201910842205.7

文献号 : CN110609990B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 邴立新肖雪

申请人 : 趋新科技(北京)有限公司

摘要 :

本发明公开了一种基于人工智能的结构化数据文本编辑方法及系统,所述方法包括如下步骤,S1、根据结构化数据的数据特性,将结构化数据序列化为普通文本数据;S2、使用普通的文本工具对普通文本数据进行相关的编辑操作,获取编辑后的普通文本数据;S3、将编辑后的普通文本数据反序列化为新的结构化数据。优点是:解决结构化的数据只能使用类似excel这种表格工具来编辑的问题;可用来管理结构化的表格类数据,使针对表格类的业务数据的管理和编辑,像编辑普通文本一样简单;同时,实现了以文本编辑的方式来编辑结构化的业务数据,大大提高结构化数据的编辑便利性和编辑效率。

权利要求 :

1.一种基于人工智能的结构化数据文本编辑方法,其特征在于:所述方法包括如下步骤,

S1、根据结构化数据的数据特性,将结构化数据序列化为普通文本数据;

S2、使用普通的文本工具对普通文本数据进行相关的编辑操作,获取编辑后的普通文本数据;

S3、将编辑后的普通文本数据反序列化为新的结构化数据;步骤S3具体包括如下内容,S31、将编辑后的普通文本数据中的各行数据反序列化为结构化的多行数据;即使用标识与行号或序列号的对应关系,将编辑后的普通文本数据中的各行数据对应到结构化的多行数据;

S32、基于人工智能将步骤S31中每行数据中文本内容按照数据类型进行分类,之后将对应数据类型的文本内容对应到具备相同数据类型的列中;当同一行数据存在相同数据类型的文本内容时,则进一步根据序列化过程中使用到的分隔符以及各个列的顺序信息,将其对应到相应的列中;

S33、将步骤S32中获取的各行数据进行逐行汇总,最终生成新的结构化数据。

2.根据权利要求1所述的基于人工智能的结构化数据文本编辑方法,其特征在于:在步骤S1之前还包括,装载外部的结构化数据;所述装载外部结构化数据具体为,识别待装载的结构化数据中的结构化信息,并根据结构化信息将能够代表结构化信息的数据与实际数据分离,将其作为结构化数据的数据特性;针对不同的结构化数据需要采用不同的识别方式、识别其结构化信息。

3.根据权利要求1所述的基于人工智能的结构化数据文本编辑方法,其特征在于:所述步骤S1具体包括如下内容,S11、将结构化数据的整行数据序列化;即将结构化数据中的各行数据分别序列化为一条普通文本数据,并将各行数据分别与相应的普通文本数据进行关联;

S12、将结构化数据同一行数据中的多列数据序列化;即将同一行中的所有列数据序列化为一整段普通文本数据。

4.根据权利要求3所述的基于人工智能的结构化数据文本编辑方法,其特征在于:步骤S11中,所述结构化数据具备固定的行号或序列号,根据行号或序列号对结构化数据中的各行数据进行标识。

5.根据权利要求4所述的基于人工智能的结构化数据文本编辑方法,其特征在于:步骤S12中,分析同一行数据中每列数据的数据类型和数据取值范围,识别出每列数据具体是分类型数据、数值型数据、日期型数据、人物名称类数据、地理位置类型数据还是开放型普通文本类型数据;若同一行数据中存在多列相邻且相同类型的数据,则在序列化的时候使用特殊的分隔符将两列数据分割开。

6.根据权利要求1所述的基于人工智能的结构化数据文本编辑方法,其特征在于:所述步骤S3之后还包括,将生成的新的结构化数据保存为结构化的数据文件,或者是,调用数据接口将生成的新的结构化数据进行保存。

7.根据权利要求6所述的基于人工智能的结构化数据文本编辑方法,其特征在于:在保存新的结构化数据的过程中,使用行号或序列号将其与装载的外部的结构化数据中的原始数据相关联,编辑后的结构化数据和装载的外部结构化数据的行号或序列号都存在,并相互对应;若新的结构化数据中存在没有行号或序列号的数据,则表示此条数据为编辑操作过程中的新增数据;若在编辑操作过程中有数据被删除,则在新的结构化数据中其对应数据为删除状态。

8.一种基于人工智能的结构化数据文本编辑系统,所述编辑系统用于实现上述权利要求1至7任一所述的编辑方法,其特征在于:所述编辑系统包括,数据装载模块;用于装载外部的结构化数据,将结构化数据中能够代表结构化信息的数据与实际数据分离,并将其作为结构化数据的数据特性;

数据序列化模块;根据结构化数据的数据特性,将结构化数据序列化为普通文本数据;

文本编辑模块;使用普通的文本工具对普通文本数据进行相关的编辑操作,获取编辑后的普通文本数据;

数据反序列化模块;将编辑后的普通文本数据反序列化为新的结构化数据;

数据保存输出模块;将生成的新的结构化数据保存为结构化的数据文件,或者是,调用数据接口将生成的新的结构化数据进行保存。

说明书 :

一种基于人工智能的结构化数据文本编辑方法及系统

技术领域

[0001] 本发明涉及计算机软件设计与开发领域,尤其涉及一种基于人工智能的结构化数据文本编辑方法及系统。

背景技术

[0002] 目前数据编辑软件主要分成两类,一类是类似word,txt等文本编辑工具软件;另一种是类似excel的表格编辑工具。目前在绝大部分业务功能类的软件中普遍使用的表格类的工具来管理业务数据,这种方式首先用列表显示出需要管理的结构化数据,然后选定某一行后点击编辑,弹出针对于这一条数据的编辑界面;或者类似excel可以直接编辑一个单元格,不管那种方式必须针对一个固定的行或一个固定的单元格来编辑。
[0003] 第一种类似word类的文本编辑工具,使用简单但无法针对结构化的业务数据(表格类的业务数据)进行管理操作;第二种类似excel的表格编辑工具,因为数据列比较固定,每个表格只对针对固定的一个业务数据进行管理,当多类业务数据时无法聚合到一起统一管理、统一操作,并且仅能针对固定行或固定单元格来编辑,操作比较复杂,编辑的效率不高。

发明内容

[0004] 本发明的目的在于提供一种基于人工智能的结构化数据文本编辑方法及系统,从而解决现有技术中存在的前述问题。
[0005] 为了实现上述目的,本发明采用的技术方案如下:
[0006] 一种基于人工智能的结构化数据文本编辑方法,所述方法包括如下步骤,[0007] S1、根据结构化数据的数据特性,将结构化数据序列化为普通文本数据;
[0008] S2、使用普通的文本工具对普通文本数据进行相关的编辑操作,获取编辑后的普通文本数据;
[0009] S3、将编辑后的普通文本数据反序列化为新的结构化数据。
[0010] 优选的,在步骤S1之前还包括,装载外部的结构化数据;所述装载外部结构化数据具体为,识别待装载的结构化数据中的结构化信息,并根据结构化信息将能够代表结构化信息的数据与实际数据分离,将其作为结构化数据的数据特性;针对不同的结构化数据需要采用不同的识别方式、识别其结构化信息。
[0011] 优选的,所述步骤S1具体包括如下内容,
[0012] S11、将结构化数据的整行数据序列化;即将结构化数据中的各行数据分别序列化为一条普通文本数据,并将各行数据分别与相应的普通文本数据进行关联;
[0013] S12、将结构化数据同一行数据中的多列数据序列化;即将同一行中的所有列数据序列化为一整段普通文本数据。
[0014] 优选的,步骤S11中,所述结构化数据具备固定的行号或序列号,根据行号或序列号对结构化数据中的各行数据进行标识。
[0015] 优选的,步骤S12中,分析同一行数据中每列数据的数据类型和数据取值范围,识别出每列数据具体是分类型数据、数值型数据、日期型数据、人物名称类数据、地理位置类型数据还是开放型普通文本类型数据;若同一行数据中存在多列相邻且相同类型的数据,则在序列化的时候使用特殊的分隔符将两列数据分割开。
[0016] 优选的,步骤S3具体包括如下内容,
[0017] S31、将编辑后的普通文本数据中的各行数据反序列化为结构化的多行数据;即使用标识与行号或序列号的对应关系,将编辑后的普通文本数据中的各行数据对应到结构化的多行数据;
[0018] S32、基于人工智能将步骤S31中每行数据中文本内容按照数据类型进行分类,之后将对应数据类型的文本内容对应到具备相同数据类型的列中;当同一行数据存在相同数据类型的文本内容时,则进一步根据序列化过程中使用到的分隔符以及各个列的顺序信息,将其对应到相应的列中;
[0019] S33、将步骤S32中获取的各行数据进行逐行汇总,最终生成新的结构化数据。
[0020] 优选的,所述步骤S3之后还包括,将生成的新的结构化数据保存为结构化的数据文件,或者是,调用数据接口将生成的新的结构化数据进行保存。
[0021] 优选的,在保存新的结构化数据的过程中,使用行号或序列号将其与装载的外部的结构化数据中的原始数据相关联,编辑后的结构化数据和装载的外部结构化数据的行号或序列号都存在,并相互对应;若新的结构化数据中存在没有行号或序列号的数据,则表示此条数据为编辑操作过程中的新增数据;若在编辑操作过程中有数据被删除,则在新的结构化数据中其对应数据为删除状态。
[0022] 本发明的目的还在于提供一种基于人工智能的结构化数据文本编辑系统,所述编辑系统用于实现上述任一所述的编辑方法,所述编辑系统包括,
[0023] 数据装载模块;用于装载外部的结构化数据,将结构化数据中能够代表结构化信息的数据与实际数据分离,并将其作为结构化数据的数据特性;
[0024] 数据序列化模块;根据结构化数据的数据特性,将结构化数据序列化为普通文本数据;
[0025] 文本编辑模块;使用普通的文本工具对普通文本数据进行相关的编辑操作,获取编辑后的普通文本数据;
[0026] 数据反序列化模块;将编辑后的普通文本数据反序列化为新的结构化数据;
[0027] 数据保存输出模块;将生成的新的结构化数据保存为结构化的数据文件,或者是,调用数据接口将生成的新的结构化数据进行保存。
[0028] 本发明的有益效果是:1、本发明解决结构化的数据只能使用类似excel这种表格工具来编辑的问题。2、本发明可用来管理结构化的表格类数据,使针对表格类的业务数据的管理和编辑,像编辑普通文本一样简单。3、本发明实现以文本编辑的方式来编辑结构化的业务数据,大大提高结构化数据的编辑便利性和编辑效率。

附图说明

[0029] 图1是本发明实施例中编辑方法的流程示意图;
[0030] 图2是本发明实施例中Excel表格中代表结构化信息的数据的示意图;
[0031] 图3是本发明实施例中使用行号标识一行数据的示意图;
[0032] 图4是本发明实施例中序列化后的数据示意图;
[0033] 图5是本发明实施例中普通文本数据反序列化后的示意图;
[0034] 图6是本发明实施例中获取的新的结构化数据的示意图。

具体实施方式

[0035] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
[0036] 如图1至图6所示,本实施例中提供了一种基于人工智能的结构化数据文本编辑方法,所述方法包括如下步骤,
[0037] S1、根据结构化数据的数据特性,将结构化数据序列化为普通文本数据;
[0038] S2、使用普通的文本工具对普通文本数据进行相关的编辑操作,获取编辑后的普通文本数据;
[0039] S3、将编辑后的普通文本数据反序列化为新的结构化数据。
[0040] 本实施例中,该方法适用于Excel类的表格文件、以及xml、或json的形式的文件;本实施例以Excel类的表格文件为例,详细说明该方法的实施过程。
[0041] 本实施例中,在步骤S1之前还包括,装载外部的结构化数据;所述装载外部结构化数据具体为,识别待装载的结构化数据中的结构化信息,并根据结构化信息将能够代表结构化信息的数据与实际数据分离,将其作为结构化数据的数据特性;针对不同的结构化数据需要采用不同的识别方式、识别其结构化信息。
[0042] 本实施例中,将excel中的第一行数据作为结构化信息的数据,用来识别结构数据有多少列,以及每列数据的标题、含义等;具体如图2。
[0043] 本实施例中,所述步骤S1具体包括如下内容,
[0044] S11、将结构化数据的整行数据序列化;即将结构化数据中的各行数据分别序列化为一条普通文本数据,并将各行数据分别与相应的普通文本数据进行关联;
[0045] S12、将结构化数据同一行数据中的多列数据序列化;即将同一行中的所有列数据序列化为一整段普通文本数据。
[0046] 本实施例中,步骤S11中,所述结构化数据具备固定的行号或序列号,根据行号或序列号对结构化数据中的各行数据进行标识。
[0047] 本实施例中,步骤S12中,分析同一行数据中每列数据的数据类型和数据取值范围,识别出每列数据具体是分类型数据、数值型数据、日期型数据、人物名称类数据、地理位置类型数据还是开放型普通文本类型数据;若同一行数据中存在多列相邻且相同类型的数据,则在序列化的时候使用特殊的分隔符将两列数据分割开。
[0048] 本实施例中,首先是结构化数据的整行数据的序列化;将结构化数据的中的一行与序列化后的普通文本数据进行关联;excel类数据,会以结构化数据的行号,对每一行数据进行标识;基于接口方式装载的数据,将会约定一个固定的序号列,如ID列。也即,结构化数据具备固定的行号或序列号,根据行号或序列号对结构化数据中的各行数据进行标识。具体如图3所示。
[0049] 本实施例中,序列化一行数据为文本数据后,记录这些数据对应的结构化数据的行号,以便反序列化数据时,与结构化数据中的原始数据进行对应。如图4所示。
[0050] 本实施例中,一行数据中的多个单元数据的序列化,将一行中所有单元的数据,序列化为一整段普通文本数据。一行数据序列化过程中,分析每列数据的数据类型、数据取值范围等信息,识别出每个单元是分类型数据、数值型数据、日期型数据、人物名称类数据、地理位置类型数据或是开放型普通文本类型等等,如果同一行数据中有多个单元类型相同并且相邻,在序列化文本内容时将采用特殊字符作为分割符将两列数据分割开,分割符可用$、|等,但不仅限于这两个分割符;分析出来的结果将用于反向序列化。
[0051] 本实施例中,采用相应的文本编辑器对序列化后的普通文本数据进行相应的编辑,此编辑过程与普通本文的编辑相同,对相应的内容进行录入、修改、删除、移动等操作,完成对数据的编辑。
[0052] 本实施例中,步骤S3具体包括如下内容,
[0053] S31、将编辑后的普通文本数据中的各行数据反序列化为结构化的多行数据;即使用标识与行号或序列号的对应关系,将编辑后的普通文本数据中的各行数据对应到结构化的多行数据;
[0054] S32、基于人工智能将步骤S31中每行数据中文本内容按照数据类型进行分类,之后将对应数据类型的文本内容对应到具备相同数据类型的列中;当同一行数据存在相同数据类型的文本内容时,则进一步根据序列化过程中使用到的分隔符以及各个列的顺序信息,将其对应到相应的列中;
[0055] S33、将步骤S32中获取的各行数据进行逐行汇总,最终生成新的结构化数据。
[0056] 本实施例中,根据序列化过程中生成的普通文本数据与结构化数据的关系,将最终编辑完成的普通文本数据反向序列化为结构化的多行数据;excel文件类结构化数据中的原始数据使用行号标识反向对应到原始数据,接口加载的结构化数据中原始数据通过接口数据中的ID标识数据反向对应到原始数据。之后,再将每一行数据,根据步骤1中,识别出的结构化数据的信息、以及步骤2中序列化过程中收集的每列单元的数据类型、数据取值范围、序列化中使用的分割符等数据,基于人工智能的识别技术先将普通文本内容按类型进行智能分类,然后将对应类别的文本内容对应到相同类型的单元中;如果有相同类型的单元,再进一步通过数据取值的范围以及序列化时使用的分割符、数据序的顺序等信息对应到具体的数据单元中,最终将一行文本数据反序列化为具有多个数据单元的一整行结构化数据。最后,将序列化的逐行数据汇总为完整的新的结构化数据;如图5至图6所示。
[0057] 本实施例中,所述步骤S3之后还包括,将生成的新的结构化数据保存为结构化的数据文件,或者是,调用数据接口将生成的新的结构化数据进行保存。
[0058] 本实施例中,在保存新的结构化数据的过程中,使用序列号将其与装载的外部的结构化数据中的原始数据相关联,编辑后的结构化数据和装载的外部结构化数据的行号或序列号都存在,并相互对应;若新的结构化数据中存在没有行号或序列号的数据,则表示此条数据为编辑操作过程中的新增数据;若在编辑操作过程中有数据被删除,则在新的结构化数据中其对应数据为删除状态。
[0059] 本实施例中,生成的数据保存为结构化数据文件或调用数据接口将编辑完成的数据进行保存。在保存数据的过程中将使用步骤1中生成的行号或ID对原始数据进行关联,其中编辑后数据与原始数据中行号或ID都存在的,将是针对数据的编辑,编辑后的数据中没有行号或ID的,是新增的结构数据,删除掉的数据在保存时会将行号或ID的数据标记为删除状态,如果保存为文件删除的数据将直接删除,如果通过接口装载的数数,将通过保存接口将删除的数据提交给数据保存接口,最终完成结构化数据的保存。
[0060] 实施例二
[0061] 本实施例中提供了一种基于人工智能的结构化数据文本编辑系统,所述编辑系统用于实现上述编辑方法,所述编辑系统包括,
[0062] 数据装载模块;用于装载外部的结构化数据,将结构化数据中能够代表结构化信息的数据与实际数据分离,并将其作为结构化数据的数据特性;
[0063] 数据序列化模块;根据结构化数据的数据特性,将结构化数据序列化为普通文本数据;
[0064] 文本编辑模块;使用普通的文本工具对普通文本数据进行相关的编辑操作,获取编辑后的普通文本数据;
[0065] 数据反序列化模块;将编辑后的普通文本数据反序列化为新的结构化数据;
[0066] 数据保存输出模块;将生成的新的结构化数据保存为结构化的数据文件,或者是,调用数据接口将生成的新的结构化数据进行保存。
[0067] 本实施例中,可将该系统支撑软件安装于设备中实现编辑过程的可视化,调用软件完成对结构化数据的编辑。其文本编辑模块为常用的文本编辑器,能够对普通文本进行编辑操作。该系统支持以接口的方式,装载结构化数据并基于xml、或json的形式,来约束、定义数据的列数,以及每列数据的标题、含义等。
[0068] 通过采用本发明公开的上述技术方案,得到了如下有益的效果:
[0069] 本发明提供了一种基于人工智能的结构化数据文本编辑方法及系统,本发明解决结构化的数据只能使用类似excel这种表格工具来编辑的问题。该方法和系统可用来管理结构化的表格类数据,使针对表格类的业务数据的管理和编辑,像编辑普通文本一样简单;实现了以文本编辑的方式来编辑结构化的业务数据,大大提高结构化数据的编辑便利性和编辑效率。
[0070] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。