文本信息处理方法、系统、介质和设备转让专利

申请号 : CN202110765335.2

文献号 : CN113254658B

文献日 : 2021-12-21

本发明提出一种文本信息处理方法、系统、介质和设备，在所述文本信息处理方法中，在对文本信息进行预处理得到数据预处理集合的基础上，根据数据参考集合，基于关键词匹配对数据预处理集合进行第一次筛选，基于深度学习对数据预处理集合进行第二次筛选，结合前后两次筛选的数据集合生成处理后的文本信息，能有效防止文本信息的误筛，提高了文本信息的处理准确率和处理效率；每个数据集合均包括相互之间存在映射关系的专业名词集合、形容词集合以及参数集合，在每个子集合单独对比筛选的基础上，结合存在映射关系的其他子集合的筛选结果的辅助验证，能进一步提高文本信息的筛选效率和准确率。

1.一种文本信息处理方法，其特征在于，包括：获取待处理的文本信息；

对所述文本信息进行预处理，生成多个词语及参数；

对多个所述词语及所述参数进行分类提取，获取对应的数据预处理集合，所述数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合；

获取相关领域的数据参考集合，所述数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合；

根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选，获取第一数据集合，所述第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描述集合以及第一参数集合；

根据所述数据参考集合，基于深度学习，对所述数据预处理集合进行第二次筛选，获取第二数据集合，所述第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业名词描述集合以及第二参数集合；

根据所述第一数据集合与所述第二数据集合，输出处理后的文本信息；

其中，所述根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选的步骤，包括：

针对所述专业名词预处理集合中的第a个元素，依次计算其与所述专业名词参考集合中的第b个元素之间的第一词串距离S（1 a，b），得到第一词串距离集合S（1 a）；

若所述第一词串距离集合S（1 a）的元素取值包含零，则保留第a个元素，将其加入所述第一专业名词集合，并将所述专业名词描述预处理集合中与其对应的元素加入所述第一专业名词描述集合，将所述参数预处理集合中与其对应的元素加入所述第一参数集合；

若所述第一词串距离集合S（1 a）的元素取值不包含零，则进一步判断所述第一词串距离集合S（1 a）中是否存在取值小于第一阈值的元素；

若所述第一词串距离集合S（1 a）中至少有一个元素的取值小于所述第一阈值，则按照从小到大的顺序对所述第一词串距离集合S（1 a）中小于第一阈值的元素进行统计排序，得到第一词串距离筛选集合S1（0 a）；

针对第一词串距离筛选集合S1（0 a）中的元素，从第一个元素开始，依次计算所述专业名词描述预处理集合中对应的第i个元素与所述专业名词描述参考集合中对应的第j个元素之间的第二词串距离S（2 i，j），得到第二词串距离集合S（2 i）；

若所述第二词串距离集合S（2 i）的元素取值包含零，则进一步判断所述第二词串距离集合S（2 i）中取值为零的元素的个数是否大于第二阈值；

若所述第二词串距离集合S（2 i）中取值为零的元素的个数大于等于所述第二阈值，则保留所述专业名词描述预处理集合中的对应元素，将其加入所述第一专业名词描述集合，并将与其对应的所述专业名词预处理集合中的元素加入所述第一专业名词集合，将与其对应的所述参数预处理集合中的元素加入所述第一参数集合；

若所述第二词串距离集合S（2 i）中取值为零的元素的个数小于所述第二阈值，则放弃所述专业名词描述预处理集合中对应的第i个元素，并放弃所述专业名词预处理集合中的对应元素与所述参数预处理集合中的对应元素。

2.根据权利要求1所述的文本信息处理方法，其特征在于，对所述文本信息进行预处理时，至少对所述文本信息依次进行数据清洗处理、标点符号去除处理、切词处理、停用词去除处理以及重复词去除处理。

3.根据权利要求1或2所述的文本信息处理方法，其特征在于，对多个所述词语及所述参数进行分类提取的步骤包括：

对所述词语进行词性标注；

根据所述词语的词性和上下文关系，对多个所述词语及所述参数进行分类提取，获取所述数据预处理集合。

4.根据权利要求3所述的文本信息处理方法，其特征在于，根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选的步骤进一步包括：若所述第一词串距离集合S（1 a）的元素取值不包含零，且所述第一词串距离集合S（1 a）中没有元素的取值小于所述第一阈值，则放弃所述专业名词预处理集合中的第a个元素，并放弃所述专业名词描述预处理集合中的对应元素与所述参数预处理集合中的对应元素。

5.根据权利要求4所述的文本信息处理方法，其特征在于，根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选的步骤进一步包括：若所述第二词串距离集合S（2 i）中取值为零的元素的个数小于所述第二阈值，则放弃所述专业名词描述预处理集合中对应的第i个元素，并放弃所述专业名词预处理集合中的对应元素与所述参数预处理集合中的对应元素。

6.根据权利要求5所述的文本信息处理方法，其特征在于，所述第一词串距离S（1 a，b）和所述第二词串距离S（2 i，j）的计算公式分别为：S（1 a，b）=[M]；

M= [S（2 a，b）+ S（3 a，b）]/2；

S（2 a，b）=|G2(a)|+|G2(b)|−2*|G2(a)∩G2(b)|；

S（3 a，b）=|G3(a)|+|G3(b)|−2*|G3(a)∩G3(b)|；

S（2 i，j）=[N]；

N= [S2（’i，j）+ S（3 i，j）]/2；

S2（’i，j）=|G2(i)|+|G2(j)|−2*|G2(i)∩G2(j)|；

S（3 i，j）=|G3(i)|+|G3(j)|−2*|G3(i)∩G3(j)|；

其中，第一词串距离S（1 a，b）为对M取整的值，S（2 a，b）表示第一2‑Gram词串距离，S（3 a，b）表示第一3‑Gram词串距离，第二词串距离S（2 i，j）为对N取整的值，S2’（i，j）表示第一3‑Gram词串距离，S（3 i，j）表示第二3‑Gram词串距离；G2(a)和 G2(b)分别表示所述专业名词预处理集合中的第a个元素和所述专业名词参考集合中的第b个元素中2‑Gram的集合，G2(i)和 G2(j)分别表示所述专业名词描述预处理集合中的第i个元素和所述专业名词描述参考集合中对应的第j个元素中2‑Gram的集合，G3(a)和 G3(b)分别表示所述专业名词预处理集合中的第a个元素和所述专业名词参考集合中的第b个元素中3‑Gram的集合，G3(i)和 G3(j)分别表示所述专业名词描述预处理集合中的第i个元素和所述专业名词描述参考集合中对应的第j个元素中3‑Gram的集合。

7.根据权利要求6所述的文本信息处理方法，其特征在于，根据所述数据参考集合，基于深度学习，对所述数据预处理集合进行第二次筛选的步骤包括：构建卷积循环神经网络模型，并基于所述第一数据集合与所述数据参考集合，对所述卷积循环神经网络模型进行训练；

利用训练后的所述卷积循环神经网络模型，对所述数据预处理集合进行筛选识别，获取所述第二数据集合。

8.根据权利要求7所述的文本信息处理方法，其特征在于，根据所述第一数据集合与所述第二数据集合，输出处理后的文本信息的步骤包括：分析所述第一数据集合与所述第二数据集合，得出二者的交集和并集；

根据所述交集，输出第一文本信息，所述第一文本信息包括所述交集的所有元素。

9.根据权利要求8所述的文本信息处理方法，其特征在于，根据所述第一数据集合与所述第二数据集合，输出处理后的文本信息的步骤还包括：根据所述交集与所述并集，输出第二文本信息，所述第二文本信息包括所述并集中除去与所述交集重复后的所有元素。

10.一种文本信息处理系统，其特征在于，包括：接收单元，接收待处理的文本信息，接收相关领域的数据参考集合，所述数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合；

预处理单元，对所述文本信息进行预处理，生成多个词语及参数；

分类提取单元，对多个所述词语及所述参数进行分类提取，获取对应的数据预处理集合，所述数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合；

筛选单元，对所述数据预处理集合进行两次筛选，获取第一数据集合与第二数据集合，所述第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描述集合以及第一参数集合，所述第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业名词描述集合以及第二参数集合；

输出单元，根据所述第一数据集合与所述第二数据集合输出处理后的文本信息；

其中，所述筛选单元进行第一次筛选，获取第一数据集的步骤，包括：针对所述专业名词预处理集合中的第a个元素，依次计算其与所述专业名词参考集合中的第b个元素之间的第一词串距离S（1 a，b），得到第一词串距离集合S（1 a）；

若所述第一词串距离集合S（1 a）的元素取值不包含零，则进一步判断所述第一词串距离集合S（1 a）中是否存在取值小于第一阈值的元素；

若所述第二词串距离集合S（2 i）的元素取值包含零，则进一步判断所述第二词串距离集合S（2 i）中取值为零的元素的个数是否大于第二阈值；

11.根据权利要求10所述的文本信息处理系统，其特征在于，所述筛选单元包括关键词匹配模块和深度学习模块，所述关键词匹配模块对所述数据预处理集合进行第一次筛选，得到所述第一数据集合，所述深度学习模块对所述数据预处理集合进行第二次筛选，得到所述第二数据集合。

12.一种计算机可读存储介质，其特征在于，所述存储介质上存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1‑9中任一项所述的文本信息处理方法。

13.一种电子设备，其特征在于，包括：处理器；

计算机可读存储介质，其上存储有指令，当所述处理器执行所述指令时，实现如权利要求1‑9中任一项所述的文本信息处理方法。

文本信息处理方法、系统、介质和设备

技术领域

[0001] 本发明涉及自然语言处理技术领域，尤其涉及一种文本信息处理方法、系统、介质和设备。

背景技术

[0002] 在自然语言处理中，通常会涉及多种输入途径和多种用途的文本，就以医疗数据而言，档案室老旧的纸质文本信息，各个医院或者平台的电子病历信息，现有的医疗数据越
来越繁杂，且不同医院或者平台对医疗数据的定义、记载方式等存在差异，对应的诊断文本
存在着特定用语、同义词表达、缩略语以及拼写和打字错误等造成诊断文本不一致的问题。

[0003] 因此，如何对繁复的医学文本信息进行有效地归纳总结，提高医学文本信息的处理效率与准确率是目前亟需解决的问题。

发明内容

[0004] 鉴于以上现有技术存在的问题，本发明提供一种文本信息的处理技术方案，用于解决据上述技术问题。

[0005] 为了实现上述目的及其他目的，本发明采用的技术方案如下。

[0006] 一种文本信息处理方法，包括：

[0007] 获取待处理的文本信息；

[0008] 对所述文本信息进行预处理，生成多个词语及参数；

[0009] 对多个所述词语及所述参数进行分类提取，获取对应的数据预处理集合，所述数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集
合以及参数预处理集合；

[0010] 获取相关领域的数据参考集合，所述数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合；

[0011] 根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选，获取第一数据集合，所述第一数据集合包括相互之间存在映射关系的第一专业名词集
合、第一专业名词描述集合以及第一参数集合；

[0012] 根据所述数据参考集合，基于深度学习，对所述数据预处理集合进行第二次筛选，获取第二数据集合，所述第二数据集合包括相互之间存在映射关系的第二专业名词集合、
第二专业名词描述集合以及第二参数集合；

[0013] 根据所述第一数据集合与所述第二数据集合，输出处理后的文本信息。

[0014] 可选地，对所述文本信息进行预处理时，至少对所述文本信息依次进行数据清洗、标点符号去除、切词、停用词去除以及重复词去除。

[0015] 可选地，对多个所述词语及所述参数进行分类提取的步骤包括：

[0016] 对所述词语进行词性标注；

[0017] 根据所述词语的词性和上下文关系，对多个所述词语及所述参数进行分类提取，获取所述数据预处理集合。

[0018] 可选地，根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选的步骤包括：

[0019] 针对所述专业名词预处理集合中的第a个元素，依次计算其与所述专业名词参考集合中的第b个元素之间的第一词串距离S（1 a，b），得到第一词串距离集合S（1 a）；

[0020] 若所述第一词串距离集合S（1 a）的元素取值包含零，则保留第a个元素，将其加入所述第一专业名词集合，并将所述专业名词描述预处理集合中与其对应的元素加入所述第
一专业名词描述集合，将所述参数预处理集合中与其对应的元素加入所述第一参数集合。

[0021] 可选地，根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选的步骤还包括：

[0022] 若所述第一词串距离集合S（1 a）的元素取值不包含零，则进一步判断所述第一词串距离集合S（1 a）中是否存在取值小于第一阈值的元素；

[0023] 若所述第一词串距离集合S（1 a）中至少有一个元素的取值小于所述第一阈值，则按照从小到大的顺序对所述第一词串距离集合S（1 a）中小于第一阈值的元素进行统计排
序，得到第一词串距离筛选集合S1（0 a）；

[0024] 针对第一词串距离筛选集合S1（0 a）中的元素，从第一个元素开始，依次计算所述专业名词描述预处理集合中对应的第i个元素与所述专业名词描述参考集合中对应的第j个
元素之间的第二词串距离S（2 i，j），得到第二词串距离集合S（2 i）；

[0025] 若所述第二词串距离集合S（2 i）的元素取值包含零，则进一步判断所述第二词串距离集合S（2 i）中取值为零的元素的个数是否大于第二阈值；

[0026] 若所述第二词串距离集合S（2 i）中取值为零的元素的个数大于等于所述第二阈值，则保留所述专业名词描述预处理集合中的对应元素，将其加入所述第一专业名词描述
集合，并将与其对应的所述专业名词预处理集合中的元素加入所述第一专业名词集合，将
与其对应的所述参数预处理集合中的元素加入所述第一参数集合；

[0027] 若所述第二词串距离集合S（2 i）中取值为零的元素的个数小于所述第二阈值，则放弃所述专业名词描述预处理集合中对应的第i个元素，并放弃所述专业名词预处理集合
中的对应元素与所述参数预处理集合中的对应元素。

[0028] 可选地，根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选的步骤进一步包括：

[0029] 若所述第一词串距离集合S（1 a）的元素取值不包含零，且所述第一词串距离集合S1（a）中没有元素的取值小于所述第一阈值，则放弃所述专业名词预处理集合中的第a个元
素，并放弃所述专业名词描述预处理集合中的对应元素与所述参数预处理集合中的对应元
素。

[0030] 可选地，根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选的步骤进一步包括：

[0031] 若所述第二词串距离集合S（2 i）中取值为零的元素的个数小于所述第二阈值，则放弃所述专业名词描述预处理集合中对应的第i个元素，并放弃所述专业名词预处理集合
中的对应元素与所述参数预处理集合中的对应元素。

[0032] 可选地，所述第一词串距离S（1 a，b）和所述第二词串距离S（2 i，j）的计算公式分别为：

[0033] S（1 a，b）=[M]；

[0034] M= [S（2 a，b）+ S（3 a，b）]/2；

[0035] S（2 a，b）=|G2(a)|+|G2(b)|−2*|G2(a)∩G2(b)|；

[0036] S（3 a，b）=|G3(a)|+|G3(b)|−2*|G3(a)∩G3(b)|；

[0037] S（2 i，j）=[N]；

[0038] N= [S2’（i，j）+ S（3 i，j）]/2；

[0039] S2’（i，j）=|G2(i)|+|G2(j)|−2*|G2(i)∩G2(j)|；

[0040] S（3 i，j）=|G3(i)|+|G3(j)|−2*|G3(i)∩G3(j)|；

[0041] 其中，第一词串距离S（1 a，b）为对M取整的值，S（2 a，b）表示第一2‑Gram词串距离，S3（a，b）表示第一3‑Gram词串距离，第二词串距离S（2 i，j）为对N取整的值， S2’（i，j）表示第一
3‑Gram词串距离，S（3 i，j）表示第二3‑Gram词串距离；G2(a)和 G2(b)分别表示所述专业名词
预处理集合中的第a个元素和所述专业名词参考集合中的第b个元素中2‑Gram的集合，G2
(i)和 G2(j)分别表示所述专业名词描述预处理集合中的第i个元素和所述专业名词描述
参考集合中对应的第j个元素中2‑Gram的集合，G3(a)和 G3(b)分别表示所述专业名词预处
理集合中的第a个元素和所述专业名词参考集合中的第b个元素中3‑Gram的集合，G3(i)和
G3(j)分别表示所述专业名词描述预处理集合中的第i个元素和所述专业名词描述参考集
合中对应的第j个元素中3‑Gram的集合。

[0042] 可选地，根据所述数据参考集合，基于深度学习，对所述数据预处理集合进行第二次筛选的步骤包括：

[0043] 构建卷积循环神经网络模型，并基于所述第一数据集合与所述数据参考集合，对所述卷积循环神经网络模型进行训练；

[0044] 利用训练后的所述卷积循环神经网络模型，对所述数据预处理集合进行筛选识别，获取所述第二数据集合。

[0045] 可选地，根据所述第一数据集合与所述第二数据集合，输出处理后的文本信息的步骤包括：

[0046] 分析所述第一数据集合与所述第二数据集合，得出二者的交集和并集；

[0047] 根据所述交集，输出第一文本信息，所述第一文本信息包括所述交集的所有元素。

[0048] 可选地，根据所述第一数据集合与所述第二数据集合，输出处理后的文本信息的步骤还包括：

[0049] 根据所述交集与所述并集，输出第二文本信息，所述第二文本信息包括所述并集中除去与所述交集重复后的所有元素。

[0050] 一种文本信息处理系统，包括：

[0051] 接收单元，接收待处理的文本信息，接收相关领域的数据参考集合，所述数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参
考集合；

[0052] 预处理单元，对所述文本信息进行预处理，生成多个词语及参数；

[0053] 分类提取单元，对多个所述词语及所述参数进行分类提取，获取对应的数据预处理集合，所述数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名
词描述预处理集合以及参数预处理集合；

[0054] 筛选单元，对所述数据预处理集合进行两次筛选，获取第一数据集合与第二数据集合，所述第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词
描述集合以及第一参数集合，所述第二数据集合包括相互之间存在映射关系的第二专业名
词集合、第二专业名词描述集合以及第二参数集合；

[0055] 输出单元，根据所述第一数据集合与所述第二数据集合输出处理后的文本信息。

[0056] 可选地，所述筛选单元包括关键词匹配模块和深度学习模块，所述关键词匹配模块对所述数据预处理集合进行第一次筛选，得到所述第一数据集合，所述深度学习模块对
所述数据预处理集合进行第二次筛选，得到所述第二数据集合。

[0057] 一种计算机可读存储介质，所述存储介质上存储有多条指令，所述指令适于处理器进行加载，以执行上述任一项所述的文本信息处理方法。

[0058] 一种电子设备，包括：

[0059] 处理器；

[0060] 计算机可读存储介质，其上存储有指令，当所述处理器执行所述指令时，实现上述任一项所述的文本信息处理方法。

[0061] 如上所述，本发明提供的一种文本信息处理方法、系统、介质和设备，至少具有以下有益效果：

[0062] 在对文本信息进行预处理得到数据预处理集合的基础上，根据数据参考集合，基于关键词匹配对数据预处理集合进行第一次筛选，基于深度学习对数据预处理集合进行第
二次筛选，结合前后两次筛选的数据集合生成处理后的文本信息，能有效防止文本信息的
误筛，提高文本信息的处理效率和准确率；每个数据集合均包括相互之间存在映射关系的
专业名词集合、形容词集合以及参数集合，在每个子集合单独对比筛选的基础上，结合存在
映射关系的其他子集合的筛选结果的辅助验证，能进一步提高筛选的效率和准确率。

附图说明

[0063] 图1为本发明一实施例中文本信息处理方法的步骤示意图。

[0064] 图2为本发明一实施例中文本信息处理系统的模块图。

[0065] 图3为本发明一实施例中用户终端的结构示意图。

具体实施方式

[0066] 以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实
施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离
本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施
例中的特征可以相互组合。

[0067] 需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸
绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也
可能更为复杂。

[0068] 请参阅图1，本发明提供一种文本信息处理方法，包括以下步骤：

[0069] S1、获取待处理的文本信息。如通过扫描识别或者文本传输等采集方式，从纸质文档或者医疗数据库中，获取海量的医学文本信息。

[0070] S2、对文本信息进行预处理，生成多个词语及参数。

[0071] 在本发明的一可选实施例中，对文本信息进行预处理时，至少对文本信息依次进行数据清洗、标点符号去除、切词、停用词去除以及重复词去除。

[0072] 其中，数据清洗、切词、停用词去除的详细步骤可参考现有技术，在此不再赘述。

[0073] S3、对多个词语及参数进行分类提取，获取对应的数据预处理集合，数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数
预处理集合。

[0074] 在本发明的一可选实施例中，对多个词语及参数进行分类提取的步骤S3进一步包括：

[0075] S31、对词语进行词性标注；

[0076] S32、根据词语的词性和上下文关系，对多个词语及参数进行分类提取，获取数据预处理集合。

[0077] 其中，数据预处理集合包括专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合，且专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合
三者之间存在映射关系，描述的是同一对象，便于后续识别筛选时的关联判别，提高识别筛
选的准确率。

[0078] S4、获取相关领域的数据参考集合，数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合。

[0079] 在本发明的一可选实施例中，基于互联网或者区块链等渠道，通过专业或者权威认定的医学词典、医学数据库等方式，获取相关领域的数据参考集合，该数据参考集合用作
后续识别筛选时的比对标准，其包括相互之间存在映射关系的专业名词参考集合、专业名
词描述参考集合以及参数参考集合。

[0080] S5、根据数据参考集合，基于关键词匹配，对数据预处理集合进行第一次筛选，获取第一数据集合，第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专
业名词描述集合以及第一参数集合。

[0081] 在本发明的一可选实施例中，根据数据参考集合，基于关键词匹配，对数据预处理集合进行第一次筛选的步骤S5进一步包括：

[0082] S51、针对专业名词预处理集合中的第a个元素，依次计算其与专业名词参考集合中的第b个元素之间的第一词串距离S（1 a，b），得到第一词串距离集合S（1 a）；

[0083] S52、若第一词串距离集合S1（a）的元素取值包含零，则保留第a个元素，将其加入第一专业名词集合，并将专业名词描述预处理集合中与其对应的元素加入第一专业名词描
述集合，将参数预处理集合中与其对应的元素加入第一参数集合；

[0084] S53、若第一词串距离集合S（1 a）的元素取值不包含零，则进一步判断第一词串距离集合S（1 a）中是否存在取值小于第一阈值的元素；

[0085] S54、若第一词串距离集合S（1 a）中至少有一个元素的取值小于第一阈值，则按照从小到大的顺序对第一词串距离集合S（1 a）中小于第一阈值的元素进行统计排序，得到第
一词串距离筛选集合S1（0 a）；

[0086] S55、针对第一词串距离筛选集合S1（0 a）中的元素，从第一个元素开始，依次计算专业名词描述预处理集合中对应的第i个元素与专业名词描述参考集合中对应的第j个元素
之间的第二词串距离S（2 i，j），得到第二词串距离集合S（2 i）；

[0087] S56、若第二词串距离集合S（2 i）的元素取值包含零，则进一步判断第二词串距离集合S（2 i）中取值为零的元素的个数是否大于第二阈值；

[0088] S57、若第二词串距离集合S（2 i）中取值为零的元素的个数大于等于第二阈值，则保留专业名词描述预处理集合中的对应元素，将其加入第一专业名词描述集合，并将与其
对应的专业名词预处理集合中的元素加入第一专业名词集合，将与其对应的参数预处理集
合中的元素加入第一参数集合；

[0089] S58、若第二词串距离集合S（2 i）中取值为零的元素的个数小于第二阈值，则放弃专业名词描述预处理集合中对应的第i个元素，并放弃专业名词预处理集合中的对应元素
与参数预处理集合中的对应元素。

[0090] 此外，根据数据参考集合，基于关键词匹配，对数据预处理集合进行第一次筛选的步骤S5还包括：

[0091] S59、若第一词串距离集合S（1 a）的元素取值不包含零，且第一词串距离集合S（1 a）中没有元素的取值小于第一阈值，则放弃专业名词预处理集合中的第a个元素，并放弃专业
名词描述预处理集合中的对应元素与参数预处理集合中的对应元素；

[0092] S510、若第二词串距离集合S（2 i）中取值为零的元素的个数小于第二阈值，则放弃专业名词描述预处理集合中对应的第i个元素，并放弃专业名词预处理集合中的对应元素
与参数预处理集合中的对应元素。

[0093] 其中，第一阈值为1 2，可根据专业名词预处理集合中的第a个元素的词串长度灵~
活调整；第二阈值为专业名词描述预处理集合中对应的第i个元素包含的元素个数的2/3。

[0094] 详细地，基于关键词匹配，对数据预处理集合进行第一次筛选的步骤S5主要基于N‑Gram模型进行分析，基于N‑Gram模型进行切词和词串距离计算，对数据预处理集合和数
据参考集合进行识别比对，保留数据预处理集合中与数据参考集合中相同的元素，得到第
一数据集合。

[0095] 在本发明的一可选实施例中，第一词串距离S（1 a，b）和第二词串距离S（2 i，j）的计算公式分别为：

[0096] S（1 a，b）=[M]；

[0097] M= [S（2 a，b）+ S（3 a，b）]/2；

[0098] S（2 a，b）=|G2(a)|+|G2(b)|−2*|G2(a)∩G2(b)|；

[0099] S（3 a，b）=|G3(a)|+|G3(b)|−2*|G3(a)∩G3(b)|；

[0100] S（2 i，j）=[N]；

[0101] N= [S2’（i，j）+ S（3 i，j）]/2；

[0102] S2’（i，j）=|G2(i)|+|G2(j)|−2*|G2(i)∩G2(j)|；

[0103] S（3 i，j）=|G3(i)|+|G3(j)|−2*|G3(i)∩G3(j)|；

[0104] 其中，第一词串距离S（1 a，b）为对M取整的值，S（2 a，b）表示第一2‑Gram词串距离，S3（a，b）表示第一3‑Gram词串距离，第二词串距离S（2 i，j）为对N取整的值， S2’（i，j）表示第一
3‑Gram词串距离，S（3 i，j）表示第二3‑Gram词串距离；G2(a)和 G2(b)分别表示专业名词预处
理集合中的第a个元素和专业名词参考集合中的第b个元素中2‑Gram的集合，G2(i)和 G2(j)
分别表示专业名词描述预处理集合中的第i个元素和专业名词描述参考集合中对应的第j
个元素中2‑Gram的集合，G3(a)和 G3(b)分别表示专业名词预处理集合中的第a个元素和专
业名词参考集合中的第b个元素中3‑Gram的集合，G3(i)和 G3(j)分别表示专业名词描述预
处理集合中的第i个元素和专业名词描述参考集合中对应的第j个元素中3‑Gram的集合。

[0105] 其中，第一词串距离S（1 a，b）、第二词串距离S（2 i，j）均为对应的2‑Gram词串距离和3‑Gram词串距离的平均值取整，能适当增大较长字符串识别时的容错率，降低误筛的几率。

[0106] S6、根据数据参考集合，基于深度学习，对数据预处理集合进行第二次筛选，获取第二数据集合，第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业
名词描述集合以及第二参数集合。

[0107] 在本发明的一可选实施例中，根据数据参考集合，基于深度学习，对数据预处理集合进行第二次筛选的步骤S6进一步包括：

[0108] S61、构建卷积循环神经网络模型，并基于第一数据集合与数据参考集合，对卷积循环神经网络模型进行训练；

[0109] S62、利用训练后的卷积循环神经网络模型，对数据预处理集合进行筛选识别，获取第二数据集合。

[0110] 在本发明的一可选实施例中，卷积循环神经网络模型至少包括：

[0111] CNN（卷积层），使用深度CNN，对输入图像提取特征，得到特征图；

[0112] RNN（循环层），使用双向RNN（BLSTM）对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签（真实值）分布；

[0113] CTC loss（转录层），使用 CTC 损失，把从循环层获取的一系列标签分布转换成最终的标签序列。

[0114] 卷积循环神经网络模型的具体结构可参见现有技术，在此不再赘述。

[0115] 在利用训练后的卷积循环神经网络模型进行筛选识别时，依次对专业名词预处理集合、专业名词描述预处理集合及参数预处理集合中的相关元素（即存在映射关系的元素）
进行识别筛选，获取第二数据集合。

[0116] S7、根据第一数据集合与第二数据集合，输出处理后的文本信息。

[0117] 详细地，根据第一数据集合与第二数据集合，输出处理后的文本信息的步骤S7还包括：

[0118] S71、分析第一数据集合与第二数据集合，得出二者的交集和并集；

[0119] S72、根据交集，输出第一文本信息，第一文本信息包括交集的所有元素；

[0120] S73、根据交集与并集，输出第二文本信息，第二文本信息包括并集中除去与交集重复后的所有元素。

[0121] 其中，根据第一数据集合与第二数据集合的交集输出第一文本信息，即前后两次筛选都通过的数据构成第一文本信息，第一文本信息为默认筛选无误的信息，提高了筛选
的准确率；根据第一数据集合与第二数据集合的并集中去除与交集重复后的元素输出第二
文本信息，即前后两次筛选中有且仅有一次筛选通过的数据构成第二文本信息，第二文本
信息为疑似信息，能有效降低误筛的几率，进一步提高了筛选的准确率。

[0122] 请参阅图2，本发明还提供了一种文本信息处理系统，用于执行前述方法实施例中所述的文本信息处理方法，由于系统实施例的技术原理与前述方法实施例的技术原理相
似，因而不再对同样的技术细节做重复性赘述。

[0123] 如图2所示，在本发明的一可选实施例中，文本信息处理系统包括：

[0124] 接收单元10，用于接收待处理的文本信息，还用于接收相关领域的数据参考集合，数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以
及参数参考集合；

[0125] 预处理单元11，用于对文本信息进行预处理，生成多个词语及参数；

[0126] 分类提取单元12，用于对多个词语及参数进行分类提取，获取对应的数据预处理集合，数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述
预处理集合以及参数预处理集合；

[0127] 筛选单元13，用于对数据预处理集合进行两次筛选，获取第一数据集合与第二数据集合，第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描
述集合以及第一参数集合，第二数据集合包括相互之间存在映射关系的第二专业名词集
合、第二专业名词描述集合以及第二参数集合；

[0128] 输出单元14，用于根据第一数据集合与第二数据集合输出处理后的文本信息。

[0129] 其中，接收单元10用于辅助执行前述方法实施例介绍的步骤S1及步骤S4，预处理单元11用于执行前述方法实施例介绍的步骤S2，分类提取单元12用于执行前述方法实施例
介绍的步骤S3，筛选单元13用于执行前述方法实施例介绍的步骤S5 S6，输出单元14用于执
~
行前述方法实施例介绍的步骤S7。

[0130] 进一步地，筛选单元13包括关键词匹配模块131和深度学习模块132，关键词匹配模块131对数据预处理集合进行第一次筛选，得到第一数据集合，深度学习模块132对数据
预处理集合进行第二次筛选，得到第二数据集合。

[0131] 基于前述实施例相同的发明构思，本发明还提供了一种计算机可读存储介质，其上存储有多条指令，指令适于处理器进行加载，以执行上述文本信息处理方法。其中，计算
机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器
件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有
一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦
式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD‑ROM)、光存储器
件、磁存储器件、或者上述的任意合适的组合。

[0132] 基于前述实施例相同的发明构思，本发明还提供了一种电子设备，该电子设备可以包括：处理器；计算机可读存储介质，其上存储有指令，当处理器执行指令时，使得电子设
备执行图1所述的文本信息处理方法。

[0133] 在实际应用中，该电子设备可以作为用户终端，也可以作为服务器，用户终端的例子可以包括：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3，
Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准
语音层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算
机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等，本申请实施例对于具体
的设备不加以限制。

[0134] 图3为本发明一可选实施例提供的用户终端的硬件结构示意图。如图所示，该用户终端可以包括：输入设备200、处理器201、输出设备202、存储器203和至少一个通信总线
204。通信总线204用于实现元件之间的通信连接。存储器203可能包含高速RAM存储器，也可
能还包括非易失性存储NVM，例如至少一个磁盘存储器，存储器203中可以存储各种程序，用
于完成各种处理功能以及实现本实施例的方法步骤。

[0135] 可选的，处理器201例如可以为中央处理器(Central Processing Unit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程
逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实
现，处理器201通过有线或无线连接耦合到输入设备200和输出设备202。

[0136] 可选的，输入设备200可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向
设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备
与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的
用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接
收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上
述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接
口或者输入接口等；输出设备202可以包括显示器、音响等输出设备。

[0137] 在本实施例中，该用户终端的处理器包括用于执行各设备中语音识别装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

[0138] 综上所述，在本发明所提供的一种文本信息处理方法、系统、介质和设备中，在对文本信息进行预处理得到数据预处理集合的基础上，根据数据参考集合，基于关键词匹配
对数据预处理集合进行第一次筛选，基于深度学习对数据预处理集合进行第二次筛选，结
合前后两次筛选的数据集合生成处理后的文本信息，能有效防止文本信息的误筛，提高了
文本信息的准确率和处理效率；每个数据集合均包括相互之间存在映射关系的专业名词集
合、形容词集合以及参数集合，在每个子集合单独对比筛选的基础上，结合存在映射关系的
其他子集合的筛选结果的辅助验证，能进一步提高筛选的准确率和效率。所以，本发明有效
克服了现有技术中的种种缺点而具高度产业利用价值。

[0139] 上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因
此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完
成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

文本信息处理方法、系统、介质和设备转让专利

申请号 : CN202110765335.2

文献号 : CN113254658B

文献日 : 2021-12-21

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 姚娟娟 , 钟南山 , 樊代明

申请人 : 明品云(北京)数据科技有限公司

摘要 :

权利要求 :

说明书 :