一种自动生成数据采集模块的方法和系统转让专利
申请号 : CN202010145569.2
文献号 : CN111369290B
文献日 : 2021-05-11
发明人 : 杨国唯 , 吴连旺 , 李韶辉
申请人 : 广州快决测信息科技有限公司
摘要 :
权利要求 :
1.一种自动生成数据采集模块的方法,其特征在于,包括:输入终端输入至少一个待转换数据,并将所述至少一个待转换数据发送给转换终端;
其中,所述至少一个待转换数据中的每一个包含至少一个标识信息,所述至少一个标识信息包括切换标识和/或类型标识;
所述转换终端根据接收到的待转换数据识别所述至少一个标识信息,得到识别结果;
根据所述识别结果将所述至少一个待转换数据转换成目标数据;
数据生成端至少基于所述目标数据生成数据采集模块;
所述转换终端根据接收到的所述待转换数据识别所述至少一个标识信息,得到识别结果包括:
当所述标识信息为所述类型标识,先通过识别得到所述待转换数据中的所述类型标识,再通过语言识别模型识别所述类型标识中的文字得到所述识别结果,所述识别结果为所述待转换数据所属题目类型;
当所述标识信息为所述切换标识,通过识别出所述切换标识的位置及个数得到识别结果;
所述通过识别出所述切换标识的位置及个数得到识别结果包括:基于第一个所述切换标识对题目与选项之间进行切换,后续的所述切换标识对选项与选项之间进行切换;
所述根据所述识别结果将所述至少一个待转换数据转换成目标数据包括:根据所述识别结果确定所述至少一个待转换数据的转换类型,其中,所述待转换数据的转换类型包括单选题、填空题、多选题、排序题、评分题或矩阵题,在识别结果未识别出一个待转换数据的题目类型时,则确定所述待转换数据的转换类型为预设的类型;基于所述转换类型提取对应的转换策略;基于对应的所述转换策略和所述识别结果将所述至少一个待转换数据转换成目标数据;
所述基于所述转换类型提取对应的转换策略包括:根据所述识别结果中的题目类型,提取所述题目类型对应的转换规则作为所述对应的转换策略;其中,当所述题目类型为矩阵题时,所述对应的转换规则为第一行为矩阵题目,每个矩阵题目使用至少一个空格字符进行拆分识别,第二行及以后行数开始为矩阵选项。
2.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果将所述至少一个待转换数据转换成目标数据包括:根据所述识别结果确定切换方式;
基于所述切换方式对所述至少一个待转换数据进行切换。
3.根据权利要求1所述的方法,在所述输入终端的界面上同时显示输入的所述待转换数据和转换后的所述目标数据。
4.根据权利要求3所述的方法,还包括:所述输入终端根据所述界面上显示的所述目标数据生成修订指令;
所述转换终端根据所述修订指令定位到不满足预设要求的第一目标数据对应的第一待转换数据;
所述输入终端根据所述修订指令对所述第一待转换数据进行修订。
5.一种自动生成数据采集模块的系统,其特征在于,包括:输入终端,用于输入至少一个待转换数据,并将所述至少一个待转换数据发送给转换终端;其中,所述至少一个待转换数据中的每一个包含至少一个标识信息,所述至少一个标识信息包括切换标识和/或类型标识;
所述转换终端,用于根据接收到的待转换数据识别所述至少一个标识信息,得到识别结果;根据所述识别结果将所述至少一个待转换数据转换成目标数据;
所述转换终端还用于:
当所述标识信息为所述类型标识,先通过识别得到所述待转换数据中的所述类型标识,再通过语言识别模型识别所述类型标识中的文字得到所述识别结果,所述识别结果为所述待转换数据所属题目类型;
当所述标识信息为所述切换标识,通过识别出所述切换标识的位置及个数得到识别结果;
所述转换终端还用于:
基于第一个所述切换标识对题目与选项之间进行切换,后续的所述切换标识对选项与选项之间进行切换;
其中,所述转换终端还用于:
根据所述识别结果确定所述至少一个待转换数据的转换类型,其中,所述待转换数据的转换类型包括单选题、填空题、多选题、排序题、评分题或矩阵题,在识别结果未识别出一个待转换数据的题目类型时,则确定所述待转换数据的转换类型为预设的类型;基于所述转换类型提取对应的转换策略;基于对应的所述转换策略和所述识别结果将所述至少一个待转换数据转换成目标数据;
所述转换终端还用于:
根据所述识别结果中的题目类型,提取所述题目类型对应的转换规则作为所述对应的转换策略;其中,当所述题目类型为矩阵题时,所述对应的转换规则为第一行为矩阵题目,每个矩阵题目使用至少一个空格字符进行拆分识别,第二行及以后行数开始为矩阵选项;
数据生成端,用于至少基于所述目标数据生成数据采集模块。
6.根据权利要求5所述的系统,其特征在于,所述转换终端用于:根据所述识别结果确定切换方式;
基于所述切换方式对所述至少一个待转换数据进行切换。
7.根据权利要求5所述的系统,所述输入终端用于:在所述输入终端的界面上同时显示输入的所述待转换数据和转换后的所述目标数据。
8.根据权利要求7所述的系统,还包括:所述输入终端用于获取修订指令;
所述转换终端用于根据所述修订指令定位到不满足预设要求的第一目标数据对应的第一待转换数据;
所述输入终端用于对所述第一待转换数据进行修订。
9.一种自动生成数据采集模块的装置,包括处理器,其特征在于,所述处理器用于执行如权利要求1~4任一项所述的方法。
10.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1~4任一项所述的方法。
说明书 :
一种自动生成数据采集模块的方法和系统
技术领域
背景技术
要花费大量的时间成本及人力成本,录入调查问卷题目的效率低下,用户体验不佳。
发明内容
端;其中,所述至少一个待转换数据中的每一个包含至少一个标识信息;所述转换终端根据
接收到的待转换数据识别所述至少一个标识信息,得到识别结果;根据所述识别结果将所
述至少一个待转换数据转换成目标数据;数据生成端至少基于所述目标数据生成数据采集
模块。
终端;其中,所述至少一个待转换数据中的每一个包含至少一个标识信息;所述转换终端,
用于根据接收到的待转换数据识别所述至少一个标识信息,得到识别结果;根据所述识别
结果将所述至少一个待转换数据转换成目标数据;数据生成端,用于至少基于所述目标数
据生成数据采集模块。
块的方法。
附图说明
具体实施方式
对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将
本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表
相同结构或操作。
则可通过其他表达来替换所述词语。
括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备
也可能包含其它的步骤或元素。
各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操
作。
入的多个待转换数据进行识别,识别出其中的标识信息,确定识别结果,即每道题目的题目
类型、题目内容和题目选项所对应的内容,根据识别结果将多个待转换数据转换成调查问
卷格式所对应的题目类型、题目内容和题目选项,可以将转换后的数据直接录入调查问卷
中的题目内容,提高录入问卷题目的效率。
块系统100可以包含服务器110、网络120、输入终端130和数据库140。服务器110可包含处理
设备112。
入的题目数据)进行转换。服务器110可以是独立的服务器或者服务器组。该服务器组可以
是集中式的或者分布式的(如:服务器110可以是分布系统)。在一些实施例中该服务器110
可以是区域的或者远程的。例如,服务器110可通过网络访问存储于输入终端130、数据库
140中的信息和/或资料。在一些实施例中,服务器110可直接与输入终端130、数据库140直
接连接以访问存储于其中的信息和/或资料。在一些实施例中,服务器110可在云平台上执
行。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或
其任意组合。
112可以识别输入终端130输入的待转换数据的类型(如,确定输入的题目数据的题目属于
单选题或多选题等)。在一些实施例中,处理设备112可包含一个或多个子处理设备(例如,
单芯处理设备或多核多芯处理设备)。仅仅作为范例,处理设备112可包含中央处理器
(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器
(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、
微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。
生成数据采集模块系统100中的一个或多个组件(服务器110、输入终端130、数据库140)可
通过网络120发送数据和/或信息给自动生成数据采集模块系统100中的其他组件。在一些
实施例中,网络120可是任意类型的有线或无线网络。例如,网络120可包括缆线网络、有线
网络、光纤网络、电信网络、内部网络、网际网络、区域网络(LAN)、广域网络(WAN)、无线区域
网络(WLAN)、都会区域网络(MAN)、公共电话交换网络(PSTN)、蓝牙网络、ZigBee网络、近场
通讯(NFC)网络等或以上任意组合。在一些实施例中,网络120可包括一个或多个网络进出
点。例如,网络120可包含有线或无线网络进出点,如基站和/或网际网络交换点120‑1、120‑
2、…,通过这些进出点,自动生成数据采集模块系统100的一个或多个组件可连接到网络
120上以交换数据和/或信息。
包括具有发送数据功能的装置,在获取到输入的多个待转换数据时,将数据发送给服务器
110。在一些实施例中,输入终端130可以通过网络120将数据发送送给服务器110。例如,输
入终端130可以通过网络120将多道待转换的题目数据发送给送给服务器110。
等。又例如,数据库140还可以包括针对于一个特定领域的所有题目等。该特定领域可以是
医疗、传媒、科技领域。数据库140可以在单个中央服务器、通过通信链路连接的多个服务器
或多个个人设备中实现。数据库140可以由多个个人设备和云服务器生成。在一些实施例
中,数据库140可存储转换后的目标数据。例如,转换成的一系列调查问卷题目格式的题目。
在一些实施例中,数据库140可以存储基于目标数据生成的数据采集模块。例如,生成的问
卷。在一些实施例中,数据库140可存储供服务器110执行或使用的信息和/或指令,以执行
本申请中描述的示例性方法。在一些实施例中,数据库140可包括大容量存储器、可移动存
储器、挥发性读写存储器(例如,随机存取存储器RAM)、只读存储器(ROM)等或以上任意组
合。在一些实施例中,数据库140可在云平台上实现。例如,该云平台可包括私有云、公共云、
混合云、社区云、分散式云、内部云等或以上任意组合。
通过网络120访问存储于数据库140中的资料或指令,例如,针对于某款洗发水的一系列题
目信息;或针对于某款综艺观众满意度的一系列题目信息等。在一些实施例中,数据库140
可直接与自动生成数据采集系统100中的一个或多个组件(例如,服务器110、输入终端130
等)连接或通讯。在一些实施例中,数据库140可以是服务器110的一部分。
识别结果将所述至少一个待转换数据转换成目标数据。
的第一待转换数据;所述输入终端210根据所述修订指令对所述第一待转换数据进行修订。
以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微
处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计
算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD‑ROM的
载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据
载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门
阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等
的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实
现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成
子系统与其他模块连接。例如,在一些实施例中,例如,图2中披露的输入终端210、转换终端
220和数据生成端230可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或
两个以上模块的功能。例如,输入终端210、转换终端220可以是两个模块,也可以是一个模
块同时具有输入和转换功能。
该步骤302可以由输入终端210执行。
的问卷题目内容,该内容可以包括题目内容及题目选项。例如,用户输入的内容可以是一道
选择题,或者是多道题目,多道题目可以包括选择题、填空题、排序题及各个题目中包括的
题目内容、题目选项。
例如,标识信息可以由一个或者多个换行字符代表。
目与题目之间的切换、题目与选项之间的切换、选项与选项之间的切换或文字与图片之间
的切换等。在一些实施例中,可以通过字符代表切换标识。例如,键盘上的‘enter’字符,第
一个‘enter’字符代表题目与选项之间的切换,第二个或以上的‘enter’字符相当于选项与
选项之间的切换,两个或两个以上的连续‘enter’字符相当于题目与题目之间的切换。
一些实施例中,可以通过字符代表类型标识。例如,键盘上的‘【】’或‘[]’字符,在‘【】’或
‘[]’中包括的文字即为每道题目的题目类型,比如,“【单选题】”、“【多选题】”或“[排序
题]”,则说明该题目为单选题或者多选题又或者排序题。
识信息。在一些实施例中,输入终端可以通过键盘、手写屏幕等输入装置输入待转换数据。
又或者通过复制粘贴其他文档中的待转换数据,通过输入终端粘贴至相应的位置。在一些
实施例中,可以通过将某个文档中的众多问卷调查题目一起复制到输入终端中,通过在输
入终端中的众多问卷调查题目进行适应性修改(可以是添加切换标识和、类型标识),由此
使转换终端可以从众多问卷调查题目中识别出每一道题目的题目类型、题目内容及题目选
项,可以同时将批量导入的众多问卷调查题目进行转换。
个换行字符)、选项与选项的切换标识(第二个及以后‘enter’,即第二个及以后的换行字
符)以及题目的类别标识(‘【】’)。又例如,从电脑端输入“请问你的年龄是?(换行)18‑24岁
(换行)24‑38岁【单选题】(两个连续换行)请问你的职业是______?【填空题】”。其中,标识包
括题目与选项的切换标识(第一个换行符号‘enter’)、选项与选项的切换标识(第二个或以
后的换行符号_‘enter’)、两个或两个以上的连续切换标识(即‘enter enter’)和类型标识
(“【单选题】”和“【填空题】”)。
骤304可以由转换终端220执行。
题目内容及题目选项中相应的部分,作为识别结果。
转化后的题目需要满足调查问卷的格式要求。先对输入终端输入的需要转换成调查问卷格
式的内容进行识别,根据识别得到的题目类型、题目内容及题目选项所对应的部分,将输入
的数据转换成与调查问卷格式要求相同的题目类型、题目内容及题目选项,作为最终数据。
识),再识别到里面的文字(待转换数据所属题目类型)。在一些实施例中,可以通过语言识
别模型识别类型的文字,确定何种题型。在一些实施例中,可以通过识别出‘enter’(切换标
识)的位置(第几个‘enter’)及个数得到识别结果。在一些实施例中,根据识别结果中的识
别到的切换标识确定切换方式,基于切换方式对至少一个待转换数据的切换。例如,当识别
到两个或两个以上的换行符号(换行符号可以是‘enter’)时,则对待转换数据进行切换。可
以是每个待转换数据之间会设有两个换行符号,由此可以将多个待转换数据(每道题)进行
切换、区分。
题】”,数据转换软件可以通过识别到该数据中包含的切换标识(第一个enter换行字符为题
目与选项之间的切换、后续的enter、换行字符则为选项与选项之间的切换)和类型标识
(【单选题】),得到题目类型为单选题,题目内容为“请问你的年龄是”,题目选项为“18‑24
岁”以及“25‑38岁”,作为识别结果。根据该识别结果将输入的这段数据转换成题目类型为
单选题,题目内容为“请问你的年龄是”以及题目选项为“A、18‑24岁B、25‑38岁”作为目标数
据。转换成的这个题目可以作为问卷调查或问卷统计之类的问卷题目,客户可以通过在该
问卷中根据此问卷题目进行作答,已达到关于该问卷的调查及统计等效果。
行显示,使用户可以观察到输入的题目与转换后的题目的内容是否一致,或者转换后的题
目是否符合要求等,并根据观察结果确定是否需要对输入的待转换数据进行修改。
的目标数据对应的待转换数据。
成修订指令。其中,预设要求可以是根据标识信息的设置所预设的题目类型、题目内容及题
目选项各自所包含的部分。
其他方式生成修订指令,本实施例不做限制。
可以将鼠标的位置定位到对应的第一待转换数据,从而可以方便输入终端修改。
示的目标数据中的题目内容为“请问你的年龄是18‑24岁”,题目选项为“25‑38岁”。用户可
以从显示的内容中发现本来是题目选项A的“18‑24岁”转换后出现在题目内容里,导致转换
后的题目内容及题目选项错误。
据进行修订,生成正确的目标数据,为题目内容为“请问你的年龄是”,题目选项为“18‑24
岁”和“25‑38岁”。
可以与互联网中问卷网站的数据格式一致,生成的承载问卷形式内容的数据采集模块可以
应用于互联网中的任意格式相同的问卷网站。
如,识别结果中该题目的题目类型为单选题,或为多选题,或为填空题,或为排序题,或为PK
题,或为评分题,或为矩阵题,确定出一个或多个题目中的每道题目类型为上述多种类型中
的一种。
数据为“请问你对该商品的满意程度为______,在______方面还需要提升。”其中输入的数
据中没有题目类型标识“【】”或“{}”,转换终端也就无法从待转换数据中识别到类型标识,
则自动将待转换数据识别成单选题或者填空题的题目类型。单选题与填空题第一行均为题
目内容,而在有第二行的情况下(例如,单选题),则第二行内容为题目选项;而在没有第二
行的情况下(例如,填空题等),则只识别出该题目的题目内容。
矩阵题类型的转换规则。
应的转换规则。
内容。又如,评分题的转换规则可以是第一行为评分选项,在待转换数据的第一行中需匹配
‘1‑10’、‘1‑10分’、‘1~10’和‘1~10分’中的其中一种。又如矩阵题的转换规则可以是第一
行为矩阵题目,每个题目可以使用一个或多个空格字符进行拆分识别,第二行及以后行数
开始为矩阵选项。
(换行)25‑38岁【单选题】”,识别出的该待转换数据为单选题类型,则提取单选题的转换策
略为第一行(第一个‘enter’前)为题目内容,第二行及后面的行数(第一个‘enter’后的每
一个‘enter’前)为题目选项内容。基于转换策略及识别结果将输入的转换数据转换成题目
类型为“单选题”,题目内容为“请问你的年龄是”,题目选项为“18‑24岁”和“25‑38岁”作为
目标数据。
的方法。所述方法可以包括:输入终端输入至少一个待转换数据,并将所述至少一个待转换
数据发送给转换终端;其中,所述至少一个待转换数据中的每一个包含至少一个标识信息;
所述转换终端根据接收到的待转换数据识别所述至少一个标识信息,得到识别结果;根据
所述识别结果将所述至少一个待转换数据转换成目标数据;数据生成端至少基于所述目标
数据生成数据采集模块。
方法。所述方法可以包括:输入终端输入至少一个待转换数据,并将所述至少一个待转换数
据发送给转换终端;其中,所述至少一个待转换数据中的每一个包含至少一个标识信息;所
述转换终端根据接收到的待转换数据识别所述至少一个标识信息,得到识别结果;根据所
述识别结果将所述至少一个待转换数据转换成目标数据;数据生成端至少基于所述目标数
据生成数据采集模块。
目选项所包含的内容,将多个待识别数据转换成问卷调查格式的题目信息,提高录入问卷
题目的效率及用户体验;(2)转换终端可以识别到的标识信息包括切换标识和类型标识,以
及通过类型标识可以识别出单选题、多选题、填空题、排序题、PK题、评分题、矩阵题等题型,
增多可录入问卷题目的题目类型,提高录入问卷题目的兼容性。(3)转换终端根据识别结果
确定的转换策略对多个待转换数据进行转换,在多个待转换数据中存在错误的字符和/或
字符格式时,则转换终端可以直接根据转换策略将错误的字符和/或字符格式转换成策略
中规定的字符和/或字符格式,提高录入问卷题目的容错率。需要说明的是,不同实施例可
能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或
几种的组合,也可以是其他任何可能获得的有益效果。
对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类
修改、改进、修正仍属于本申请示范实施例的精神和范围。
此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施
例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中
的某些特征、结构或特点可以进行适当的组合。
他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全
由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软
件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面
可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序
编码。
合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介
质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用
的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线
电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、
PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完
全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机
上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程
计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连
接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务
(SaaS)。
种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的
目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请
实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设
备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安
装所描述的系统。
对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提
及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例
中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点
可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的
方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实
施例中,此类数值的设定在可行范围内尽可能精确。
或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后
附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术
语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使
用为准。
为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施
例。