长文本的分段方法及装置、存储介质、电子装置转让专利
申请号 : CN202110476650.3
文献号 : CN113076720B
文献日 : 2022-01-28
发明人 : 田维政 , 李昕城
申请人 : 新声科技(深圳)有限公司
摘要 :
权利要求 :
1.一种长文本的分段方法,其特征在于,包括:将源语音文档转换为文本文档;
将所述文本文档转换为向量序列,其中,所述向量序列包括词向量序列和句向量序列;
根据所述向量序列生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系,连贯性关系是上下句逻辑关系;
基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段;
其中,基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段包括:设置所述文本文档的句序列集合中每个句子的初始标签信息,生成标记数据集,其中,所述初始标签信息用于表征对应的句子是否为段落分割点;将所述标记数据集拆分为训练集,验证集,以及测试集;采用预设文本分段模型,基于拆分后的所述标记数据集和所述语篇树更新所述初始标签信息,输出有效句序列,其中,所述有效句序列中的每个句子关联一个有效分段标签;在所述有效句序列中选择指定句,并以所述指定句为分割点,对所述文本文档进行分段,其中,所述指定句的有效分段标签为段落分割点。
2.根据权利要求1所述的方法,其特征在于,根据所述句向量序列生成语篇树包括:对所述句向量序列进行压缩和选择编码得到句状态序列,其中,所述句状态序列包括所有句子的状态序列向量;
在初始化堆栈中存储所述文本文档的词向量序列,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第一词状态向量序列:从所述初始化堆栈的顶部提取出一个词向量,并利用所述句状态序列中的状态序列向量计算该词向量的状态向量;
将所述第一词状态向量序列分割为第一序列和第二序列,基于所述第一序列与所述第二序列生成语篇树。
3.根据权利要求2所述的方法,其特征在于,基于所述第一序列与所述第二序列生成语篇树包括:
分别计算所述第一序列和所述第二序列的序列长度;
若所述第一序列和所述第二序列的序列长度小于或等于预设长度,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,将所述第一序列和所述第二序列分别输出为语篇树的第一叶子节点和第二叶子节点,所述第一连贯性关系输出为所述第一叶子节点和所述第二叶子节点的父节点;
若所述第一序列的序列长度大于预设长度,则将所述第一序列重新压进所述初始化堆栈,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第二词状态向量序列且序列长度小于或等于所述预设长度:从所述初始化堆栈的顶部提取出一个词向量,再利用所述句状态序列中的状态序列向量计算该词向量的状态向量;将所述第一序列拆分为第三序列和第四序列,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,以及所述第三序列与所述第四序列之间的第二连贯性关系,将所述第二序列输出为语篇树的第一叶子节点,将所述第三序列和所述第四序列分别输出为语篇树的第二叶子节点和第三叶子节点,所述第一连贯性关系输出为所述第一叶子节点,第二叶子节点和第三叶子节点的父节点,所述第二连贯性关系输出为所述第二叶子节点和所述第三叶子节点的父节点。
4.根据权利要求1所述的方法,其特征在于,采用预设文本分段模型和所述语篇树更新所述初始标签信息,输出有效句序列包括:从所述句向量序列中提取每个句子的特征向量;
采用双向长期短期记忆BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量,其中,所述融合特征向量包括句子信息和语篇树关系信息的特征向量;
采用条件随机场模型基于所述融合特征向量对每个句子进行分段标签预测,并更新每个句子的所述初始标签信息,输出有效句序列。
5.根据权利要求4所述的方法,其特征在于,采用BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量包括:
获取每个句子在所述语篇树中的位置信息,并基于所述位置信息设置每个句子的位置权重,并利用所述位置权重更新每个句子的特征向量,得到树特征向量;
将各个句子的树特征向量输入到BiLSTM网络,其中,所述BiLSTM网络包括一个正向LSTM和一个反向LSTM;
采用正向LSTM根据输入的树特征向量输出得到正向隐状态序列,以及采用反向LSTM根据输入的树特征向量输出得到反向隐状态序列,其中,所述正向隐状态序列包括每个句子的正向隐状态向量,所述反向隐状态序列包括每个句子的反向隐状态向量;
将所述正向隐状态序列,所述反向隐状态序列,以及所述树特征向量进行拼接得到所述融合特征向量。
6.根据权利要求1所述的方法,其特征在于,将所述文本文档转换为向量序列包括:采用正则表达式对所述文本文档进行数据清洗,得到清洗后的文本数据集合,其中,所述文本数据集合包括多个长文本;
对所述文本数据集合中的每个长文本分别进行分词和分句,得到与每个长文本对应的词序列和句序列;
将所述词序列和所述句序列分别转换为词向量序列和句向量序列。
7.一种长文本的分段装置,其特征在于,包括:第一转换模块,用于将源语音文档转换为文本文档;
第二转换模块,用于将所述文本文档转换为向量序列,其中,所述向量序列包括词向量序列和句向量序列;
生成模块,用于根据所述向量序列生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系,连贯性关系是上下句逻辑关系;
分段模块,用于基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段;
所述分段模块包括:设置单元,用于设置所述文本文档的句序列集合中每个句子的初始标签信息,生成标记数据集,其中,所述初始标签信息用于表征对应的句子是否为段落分割点;拆分单元,用于将所述标记数据集拆分为训练集,验证集,以及测试集;更新单元,用于采用预设文本分段模型,基于拆分后的所述标记数据集和所述语篇树更新所述初始标签信息,输出有效句序列,其中,所述有效句序列中的每个句子关联一个有效分段标签;分段单元,用于在所述有效句序列中选择指定句,并以所述指定句为分割点,对所述文本文档进行分段,其中,所述指定句的有效分段标签为段落分割点。
8.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至6任一项中所述的方法。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6任一项中所述的方法。
说明书 :
长文本的分段方法及装置、存储介质、电子装置
技术领域
背景技术
在很多冗余信息,通过直接收听语音或者观看视频来筛选自己所需的信息,是相当费时费
力的。随着人工智能技术和自然语言技术近年来的迅速发展,越来越多与语音文本相关的
项目开始得到研发并落地运用。从大型长文档(例如:会议语音文档、法律文档、技术手册和
论文文章等)中了解和提取信息仍然是一项具有挑战性的任务。由语音识别得到的会议语
音文档,通常是一整段长文档的无段落结构,不方便阅读,是一个十分有必要去解决的问
题。
全文的信息,如果在一个部分分析错误,则会导致连续累积的错误;另一种是基于图表的解
析方法,优点在于结果更精确,缺点在于速度很慢。但是这些方法不适配于现在深度神经网
络的训练方式,同时没能充分联系上下文信息来进行连贯性关系的分析。相关技术中的文
本分段将分段看作是一个序列标注任务,针对一篇文章,然后寻找段落与段落之间的相似
程度,从而得到分割点。但是这种方法只在上下文有明显差异的文章才能得到不错的分块
效果,分段的准确率较低。
发明内容
向量序列;根据所述向量序列生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向
量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系;
基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档
进行分段。
栈中存储所述文本文档的词向量序列,递归循环以下步骤,直到所述初始化堆栈中的内容
全部被提取出来,生成第一词状态向量序列:从所述初始化堆栈的顶部提取出一个词向量,
并利用所述句状态序列中的状态序列向量计算该词向量的状态向量;将所述第一词状态向
量序列分割为第一序列和第二序列,基于所述第一序列与所述第二序列生成语篇树。
预设长度,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,将所述
第一序列和所述第二序列分别输出为语篇树的第一叶子节点和第二叶子节点,所述第一连
贯性关系输出为所述第一叶子节点和所述第二叶子节点的父节点;若所述第一序列的序列
长度大于预设长度,则将所述第一序列重新压进所述初始化堆栈,递归循环以下步骤,直到
所述初始化堆栈中的内容全部被提取出来,生成第二词状态向量序列且序列长度小于或等
于所述预设长度:从所述初始化堆栈的顶部提取出一个词向量,再利用所述句状态序列中
的状态序列向量计算该词向量的状态向量;将所述第一序列拆分为第三序列和第四序列,
采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,以及所述第三序列
与所述第四序列之间的第二连贯性关系,将所述第二序列输出为语篇树的第一叶子节点,
将所述第三序列和所述第四序列分别输出为语篇树的第二叶子节点和第三叶子节点,所述
第一连贯性关系输出为所述第一叶子节点,第二叶子节点和第三叶子节点的父节点,所述
第二连贯性关系输出为所述第二叶子节点和所述第三叶子节点的父节点。
信息,生成标记数据集,其中,所述初始标签信息用于表征对应的句子是否为段落分割点;
将所述标记数据集拆分为训练集,验证集,以及测试集;采用预设文本分段模型,基于拆分
后的所述标记数据集和所述语篇树更新所述初始标签信息,输出有效句序列,其中,所述有
效句序列中的每个句子关联一个有效分段标签;在所述有效句序列中选择指定句,并以所
述指定句为分割点,对所述文本文档进行分段,其中,所述指定句的有效分段标签为段落分
割点。
BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量,其中,所述融合特征向量
包括句子信息和语篇树关系信息的特征向量;采用条件随机场模型基于所述融合特征向量
对每个句子进行分段标签预测,并更新每个句子的所述初始标签信息,输出有效句序列。
权重,并利用所述位置权重更新每个句子的特征向量,得到树特征向量;将各个句子的树特
征向量输入到BiLSTM网络,其中,所述BiLSTM网络包括一个正向LSTM和一个反向LSTM;采用
正向LSTM根据输入的树特征向量输出得到正向隐状态序列,以及采用反向LSTM根据输入的
树特征向量输出得到反向隐状态序列,其中,所述正向隐状态序列包括每个句子的正向隐
状态向量,所述反向隐状态序列包括每个句子的反向隐状态向量;
所述文本数据集合中的每个长文本分别进行分词和分句,得到与每个长文本对应的词序列
和句序列;将所述词序列和所述句序列分别转换为词向量序列和句向量序列。
列,其中,所述向量序列包括词向量序列和句向量序列;生成模块,用于根据所述向量序列
生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向量序列的一个句向量,叶子节
点的父节点对应下级至少两个叶子节点之间的连贯性关系;分段模块,用于基于所述语篇
树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段。
在初始化堆栈中存储所述文本文档的词向量序列,递归循环以下步骤,直到所述初始化堆
栈中的内容全部被提取出来,生成第一词状态向量序列:从所述初始化堆栈的顶部提取出
一个词向量,并利用所述句状态序列中的状态序列向量计算该词向量的状态向量;生成单
元,用于将所述第一词状态向量序列分割为第一序列和第二序列,基于所述第一序列与所
述第二序列生成语篇树。
或等于预设长度,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,
将所述第一序列和所述第二序列分别输出为语篇树的第一叶子节点和第二叶子节点,所述
第一连贯性关系输出为所述第一叶子节点和所述第二叶子节点的父节点;
提取出来,生成第二词状态向量序列且序列长度小于或等于所述预设长度:从所述初始化
堆栈的顶部提取出一个词向量,再利用所述句状态序列中的状态序列向量计算该词向量的
状态向量;将所述第一序列拆分为第三序列和第四序列,采用分类器解析所述第一序列和
所述第二序列之间的第一连贯性关系,以及所述第三序列与所述第四序列之间的第二连贯
性关系,将所述第二序列输出为语篇树的第一叶子节点,将所述第三序列和所述第四序列
分别输出为语篇树的第二叶子节点和第三叶子节点,所述第一连贯性关系输出为所述第一
叶子节点,第二叶子节点和第三叶子节点的父节点,所述第二连贯性关系输出为所述第二
叶子节点和所述第三叶子节点的父节点。
否为段落分割点;拆分单元,用于将所述标记数据集拆分为训练集,验证集,以及测试集;更
新单元,用于采用预设文本分段模型,基于拆分后的所述标记数据集和所述语篇树更新所
述初始标签信息,输出有效句序列,其中,所述有效句序列中的每个句子关联一个有效分段
标签;分段单元,用于在所述有效句序列中选择指定句,并以所述指定句为分割点,对所述
文本文档进行分段,其中,所述指定句的有效分段标签为段落分割点。
树提取所述特征向量的融合特征向量,其中,所述融合特征向量包括句子信息和语篇树关
系信息的特征向量;更新单元,用于采用条件随机场模型基于所述融合特征向量对每个句
子进行分段标签预测,并更新每个句子的所述初始标签信息,输出有效句序列。
向量,得到树特征向量;将各个句子的树特征向量输入到BiLSTM网络,其中,所述BiLSTM网
络包括一个正向LSTM和一个反向LSTM;采用正向LSTM根据输入的树特征向量输出得到正向
隐状态序列,以及采用反向LSTM根据输入的树特征向量输出得到反向隐状态序列,其中,所
述正向隐状态序列包括每个句子的正向隐状态向量,所述反向隐状态序列包括每个句子的
反向隐状态向量;将所述正向隐状态序列,所述反向隐状态序列,以及所述树特征向量进行
拼接得到所述融合特征向量。
理单元,用于对所述文本数据集合中的每个长文本分别进行分词和分句,得到与每个长文
本对应的词序列和句序列;转换单元,用于将所述词序列和所述句序列分别转换为词向量
序列和句向量序列。
方法实施例中的步骤。
节点对应下级至少两个叶子节点之间的连贯性关系,基于语篇树生成文本文档的段落分割
点,并采用段落分割点对文本文档进行分段,采用语篇树的分析方法,进行连贯性关系的分
析,充分利用了上下文信息,实现更效率和准确的分析性能,解决了相关技术对长文本自动
分段的准确率低的技术问题,实现了长文本的自动和准确分段,提高了自动识别文本的可
读性。
附图说明
具体实施方式
本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范
围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组
合。
的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆
盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚
地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设
备固有的其它步骤或单元。
结构框图。如图1所示,录音笔可以包括一个或多个(图1中仅示出一个)处理器102(处理器
102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据
的存储器104,可选地,上述录音笔还可以包括用于通信功能的传输设备106以及输入输出
设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述录音笔的
结构造成限定。例如,录音笔还可包括比图1中所示更多或者更少的组件,或者具有与图1所
示不同的配置。
器104内的录音笔程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器
104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪
存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器
102远程设置的存储器,这些远程存储器可以通过网络连接至录音笔。上述网络的实例包括
但不限于互联网、企业内部网、局域网、移动通信网及其组合。
(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可
与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)
模块,其用于通过无线方式与互联网进行通讯。
进行识别并转换成方便处理的文本格式,通过该语音识别模块得到的会议语音转换文本是
只有一个段落的长文本数据。
结构模型,从树根节点开始的树形图可以代表整个文本的修辞关系结构。用修辞结构理论
(RST)进行文本分析一般采取自底向上的剖析过程:首先,将一个文本切分成多个语篇单
元;然后,确定跨段和关系,除去非良构的树;最后,进行排歧、对可能共存的多种分析做出
解释。通过括号内标注出来的上下句逻辑关系,能够表示出语篇句间的连贯关系,表明文本
中的思路和意图。因此,如果能够让计算机掌握语篇连贯性结构的规律特征,就能进一步帮
助计算机生成和理解自然语言,有助于各种下游任务的性能提高。
出如图3的树形图。其中,以句子为单位,分成了a.b.c.三个部分,通常称为语篇单元。语篇
单元不局限于以句子来划分,对于图中的每一个语篇单元,可以根据需要进行更细化的划
分,例如划分出主谓宾等关系结构。在图中,a,b两个句子是通过“详述”关系而相关的,并且
它们作为一个整体通过“对照”关系与第三个c句子相关。通过这种关系分析的方法,可以知
道a.b.c.三个语篇单元是通过某种关系联系在一起的,具有某些相关性。因此可以根据这
种关系联系,融入进文本段落划分边界判断的任务中。
够表示出语篇句间的连贯关系,表明文本中的思路和意图。因此,如果能够让计算机掌握语
篇连贯性结构的规律特征,就能进一步帮助计算机生成和理解自然语言,有助于各种下游
任务的性能提高。
议语音文档得到有逻辑性的分段,从而让用户方便地阅读。一篇具有层次分明的段落结构
的文本才方便让读者阅读。传统自动文本分段技术有无监督的方法和有监督的方法。首先
将文档根据句子划分,然后依次比较两句相邻的句子的相似度,分割点往往就产生在相似
度最低的地方,这种是无监督的方法。将文本进行人工标记段落分割点,构造分类器或者序
列标注模型来进行分割点的学习和检测。
局部,被称为语篇单元。利用语篇单元能够让神经网络模型减少对文本中冗余信息的学习,
以能够更效率更准确地学习到语篇连贯性结构的规律特征,从而给如文本分段任务或者文
本摘要任务等下游任务提供更加简洁和丰富的信息。
父节点对应下级至少两个叶子节点之间的连贯性关系,基于语篇树生成文本文档的段落分
割点,并采用段落分割点对文本文档进行分段,采用语篇树的分析方法,进行连贯性关系的
分析,充分利用了上下文信息,实现更效率和准确的分析性能,解决了相关技术对长文本自
动分段的准确率低的技术问题,实现了长文本的自动和准确分段,提高了自动识别文本的
可读性。
文本;对文本数据集合中的每个长文本分别进行分词和分句,得到与每个长文本对应的词
序列和句序列;将词序列和句序列分别转换为词向量序列和句向量序列。
存在“脏”的情况,即包含有一些无意义或错误的字符或者多余的标点符号,这些都会对文
本数据造成干扰,因此需要设置正则表达式(可替代的技术)进行数据清洗,可以得到经过
清洗的文本数据集合context_all={text_1,text_2,…,text_n},其中context_all表示
所有的长文本集合,text_n表示文本集合的第n个长文本。
列word_list_n={word_1,word_2,…,word_n},其中word_list_n表示第n个长文本的词序
列,word_n表示长文本中的第n个单词;同样地,可以得到长文本对应的句序列seg_list_n
={seg_1,seg_2,…,seg_n},其中seg_list_n表示第n个长文本的句序列,seg_n表示文本
中的第n个句子。
型(可选的)来完成这一操作。预训练模型是指该模型已经经历过一系列的学习和训练,里
面包含的参数已经处于一个较好的初始状态,利用这种预训练模型可以使得向量化过程的
代价更小和能够达到更好的性能。将词序列word_list_n作为中文预训练模型的输入,能够
得到对应的词向量序列word_embedding_n(K)={embedding_1,embedding_2,…,
embedding_n},其中word_embedding_n表示第n个长文本的词向量序列,embedding_n表示
第n个词所对应的词向量,K表示每个词向量的向量维度,K是使用预训练模型时的所需要决
定的工程经验参数。同样地,将句序列seg_list_n作为预训练模型的输入,能够得到对应的
句向量序列seg_embedding_n(K)={seg_embedding_1,seg_embedding_2,…,seg_
embedding_n},其中seg_embedding_n表示第n个长文本的句向量序列,seg_embedding_n表
示第n个句子所对应的句向量,K表示每个句向量的向量维度,K是使用预训练模型时的所需
要决定的工程经验参数。
一个词向量,并利用句状态序列中的状态序列向量计算该词向量的状态向量;
器解析第一序列和第二序列之间的第一连贯性关系,将第一序列和第二序列分别输出为语
篇树的第一叶子节点和第二叶子节点,第一连贯性关系输出为第一叶子节点和第二叶子节
点的父节点;若第一序列的序列长度大于预设长度,则将第一序列重新压进初始化堆栈,递
归循环以下步骤,直到初始化堆栈中的内容全部被提取出来,生成第二词状态向量序列且
序列长度小于或等于预设长度:从初始化堆栈的顶部提取出一个词向量,再利用句状态序
列中的状态序列向量计算该词向量的状态向量;将第一序列拆分为第三序列和第四序列,
采用分类器解析第一序列和第二序列之间的第一连贯性关系,以及第三序列与第四序列之
间的第二连贯性关系,将第二序列输出为语篇树的第一叶子节点,将第三序列和第四序列
分别输出为语篇树的第二叶子节点和第三叶子节点,第一连贯性关系输出为第一叶子节
点,第二叶子节点和第三叶子节点的父节点,第二连贯性关系输出为第二叶子节点和第三
叶子节点的父节点。
这里以序列对序列模型(可替代技术)为例子进行流程说明。序列对序列模型是由编码器和
解码器两部分组成的。
列seg_h_n={seg_h_1,…,seg_h_T},其中seg_h_n表示第n个句子的状态序列向量集合,
seg_h_T表示经过第T个计算单元后该句子的状态序列向量。最后取seg_h_T来表示对应句
子的状态序列向量。
用步骤A得到的seg_h_T来计算该词向量的状态表示向量。
h_n表示第n个词状态表示向量。
part2={embedding_h_k,…,embedding_h_n},其中k为工程经验参数。使用一个分类器来
得到两个部分的关系,对于得到的两个部分part1和part2,若某个部分的序列长度大于L,L
为工程经验参数,则将该部分重新压进堆栈,重新执行步骤C)和D)。
一棵语篇树,其中节点(a)和(b)看作是一个语篇单元,语篇单元的父节点代表了它们之间
的关系。通过本模块的处理,将原本的长文分成了一颗颗语篇树的形式并得到相对应的语
篇单元关系信息,在后续的文本分段模块将加入对这些关系信息的学习,以提升分段任务
的性能效果。
directional LongShort‑TermMemory,双向长时间的短期记忆网络)基于语篇树提取特征
向量的融合特征向量,其中,融合特征向量包括句子信息和语篇树关系信息的特征向量;采
用条件随机场模型基于融合特征向量对每个句子进行分段标签预测,并更新每个句子的初
始标签信息,输出有效句序列。
重更新每个句子的特征向量,得到树特征向量;将各个句子的树特征向量输入到BiLSTM网
络,其中,BiLSTM网络包括一个正向LSTM和一个反向LSTM;采用正向LSTM根据输入的树特征
向量输出得到正向隐状态序列,以及采用反向LSTM根据输入的树特征向量输出得到反向隐
状态序列,其中,正向隐状态序列包括每个句子的正向隐状态向量,反向隐状态序列包括每
个句子的反向隐状态向量;将正向隐状态序列,反向隐状态序列,以及树特征向量进行拼接
得到融合特征向量。
信息的学习,注意力机制的本质是对输入的信息进行筛选,保留有价值的信息而滤去不重
要的信息,也即是对各种数据信息计算权重向量,包括:
节,文本分段模块通过学习有标签数据的特征来得到预测函数,进而预测出段落之间的分
割点。在本实施例的文本分段中,着重于基于句子来进行标注,对由已经得到的句序列集合
seg_list_n的每个句子后面自动标注上初始预测的标签【CON】或【CUT】,其中标签【CON】表
示对应的句子是连续的,【CUT】表示这里是段落分割点。标注例子:[句子1]【CON】[句子2]
【CUT】[句子3]【CON】[句子4]【CON】[句子5]【CUT】,这里一个文本有两个段落,其中[句子1]
和[句子2]是第一个段落,[句子3][句子4][句子5]是第二个段落。通过这种序列标注方式,
将句子处理成带有标签的标记数据集tag_seg。
特征提取器。
的特征向量。
下:
取出句子所在的语篇单元在对应的语篇树上的位置信息(对应句子在文本文档中的出现位
置),若该语篇单元在语篇树上靠得越前,则赋予的权重就应该越大。因此利用注意力机制,
对语篇单元的位置信息进行权重的计算,得到位置权重pos_weight,然后利用各个语篇单
元对应的特征向量embedding_h_list,根据对应权重pos_weight进行加权求和的计算,最
后得到的值作为语篇树对应的特征向量tree_vector。
制,对正向隐状态序列{h正_1,h正_2,…,h正_n}中每个时序的权重进行计算,得到h正_
weight,然后将正向隐状态序列和对应权重h正_weight进行加权求和,最后得到的值作为
该句子的正向隐状态向量h正_vector;
注意力机制,对反向隐状态序列{h反_1,h反_2,…,h反_n}中每个时序的权重进行计算,得
到h反_weight,然后将反向隐状态序列和对应权重h反_weight进行加权求和,最后得到的
值作为该句子的反向隐状态向量h反_vector;
tree_vector},在完整隐状态序列h中包含了经过BiLSTM+Attention通过句子信息和语篇
树关系信息学习到的句子特征向量。
CRF在重新对一个句子进行预测的时候可以利用上这个句子以前的分段标签信息,然后根
据维特比算法得到最优的分段标签结果,得到被标注上分段标签的句子序列。
记录下最终带有有效分段标签的句子序列,即预测了每个句子的标签是【CON】或者【CUT】,
最后得到文本分段结果。
据预处理操作,以便于后续模块的处理;(3)语篇分析模块:用于对文本的语篇树构建和语
篇单元的识别;(4)文本分段模块:用于对文本的分段操作。
处理请求,能够及时处理,返回结果。
下游任务的性能提升。所以,本实施例引入语篇连贯性关系的特征,提高段落分割点的识别
效果,从而得到性能更好的分段结果。
度神经网络来进行连贯性关系的分析,充分利用了上下文信息,实现更效率和准确的分析
性能。对于分段技术中依赖数据相似度,无法准确地识别出段落分割点的问题,本实施例利
用语篇分析方法得到的连贯性关系信息和语篇单元信息,以帮助提高文本分段的性能。
情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有
技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储
介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算
机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软
件和硬件的组合的实现也是可能并被构想的。
的连贯性关系;
在初始化堆栈中存储所述文本文档的词向量序列,递归循环以下步骤,直到所述初始化堆
栈中的内容全部被提取出来,生成第一词状态向量序列:从所述初始化堆栈的顶部提取出
一个词向量,并利用所述句状态序列中的状态序列向量计算该词向量的状态向量;生成单
元,用于将所述第一词状态向量序列分割为第一序列和第二序列,基于所述第一序列与所
述第二序列生成语篇树。
或等于预设长度,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,
将所述第一序列和所述第二序列分别输出为语篇树的第一叶子节点和第二叶子节点,所述
第一连贯性关系输出为所述第一叶子节点和所述第二叶子节点的父节点;
提取出来,生成第二词状态向量序列且序列长度小于或等于所述预设长度:从所述初始化
堆栈的顶部提取出一个词向量,再利用所述句状态序列中的状态序列向量计算该词向量的
状态向量;将所述第一序列拆分为第三序列和第四序列,采用分类器解析所述第一序列和
所述第二序列之间的第一连贯性关系,以及所述第三序列与所述第四序列之间的第二连贯
性关系,将所述第二序列输出为语篇树的第一叶子节点,将所述第三序列和所述第四序列
分别输出为语篇树的第二叶子节点和第三叶子节点,所述第一连贯性关系输出为所述第一
叶子节点,第二叶子节点和第三叶子节点的父节点,所述第二连贯性关系输出为所述第二
叶子节点和所述第三叶子节点的父节点。
否为段落分割点;拆分单元,用于将所述标记数据集拆分为训练集,验证集,以及测试集;更
新单元,用于采用预设文本分段模型,基于拆分后的所述标记数据集和所述语篇树更新所
述初始标签信息,输出有效句序列,其中,所述有效句序列中的每个句子关联一个有效分段
标签;分段单元,用于在所述有效句序列中选择指定句,并以所述指定句为分割点,对所述
文本文档进行分段,其中,所述指定句的有效分段标签为段落分割点。
树提取所述特征向量的融合特征向量,其中,所述融合特征向量包括句子信息和语篇树关
系信息的特征向量;更新单元,用于采用条件随机场模型基于所述融合特征向量对每个句
子进行分段标签预测,并更新每个句子的所述初始标签信息,输出有效句序列。
向量,得到树特征向量;将各个句子的树特征向量输入到BiLSTM网络,其中,所述BiLSTM网
络包括一个正向LSTM和一个反向LSTM;采用正向LSTM根据输入的树特征向量输出得到正向
隐状态序列,以及采用反向LSTM根据输入的树特征向量输出得到反向隐状态序列,其中,所
述正向隐状态序列包括每个句子的正向隐状态向量,所述反向隐状态序列包括每个句子的
反向隐状态向量;将所述正向隐状态序列,所述反向隐状态序列,以及所述树特征向量进行
拼接得到所述融合特征向量。
理单元,用于对所述文本数据集合中的每个长文本分别进行分词和分句,得到与每个长文
本对应的词序列和句序列;转换单元,用于将所述词序列和所述句序列分别转换为词向量
序列和句向量序列。
组合的形式分别位于不同的处理器中。
信接口82,存储器83通过通信总线84完成相互间的通信,存储器83,用于存放计算机程序;
向量序列;根据所述向量序列生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向
量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系;
基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档
进行分段。
栈中存储所述文本文档的词向量序列,递归循环以下步骤,直到所述初始化堆栈中的内容
全部被提取出来,生成第一词状态向量序列:从所述初始化堆栈的顶部提取出一个词向量,
并利用所述句状态序列中的状态序列向量计算该词向量的状态向量;将所述第一词状态向
量序列分割为第一序列和第二序列,基于所述第一序列与所述第二序列生成语篇树。
预设长度,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,将所述
第一序列和所述第二序列分别输出为语篇树的第一叶子节点和第二叶子节点,所述第一连
贯性关系输出为所述第一叶子节点和所述第二叶子节点的父节点;若所述第一序列的序列
长度大于预设长度,则将所述第一序列重新压进所述初始化堆栈,递归循环以下步骤,直到
所述初始化堆栈中的内容全部被提取出来,生成第二词状态向量序列且序列长度小于或等
于所述预设长度:从所述初始化堆栈的顶部提取出一个词向量,再利用所述句状态序列中
的状态序列向量计算该词向量的状态向量;将所述第一序列拆分为第三序列和第四序列,
采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,以及所述第三序列
与所述第四序列之间的第二连贯性关系,将所述第二序列输出为语篇树的第一叶子节点,
将所述第三序列和所述第四序列分别输出为语篇树的第二叶子节点和第三叶子节点,所述
第一连贯性关系输出为所述第一叶子节点,第二叶子节点和第三叶子节点的父节点,所述
第二连贯性关系输出为所述第二叶子节点和所述第三叶子节点的父节点。
信息,生成标记数据集,其中,所述初始标签信息用于表征对应的句子是否为段落分割点;
将所述标记数据集拆分为训练集,验证集,以及测试集;采用预设文本分段模型,基于拆分
后的所述标记数据集和所述语篇树更新所述初始标签信息,输出有效句序列,其中,所述有
效句序列中的每个句子关联一个有效分段标签;在所述有效句序列中选择指定句,并以所
述指定句为分割点,对所述文本文档进行分段,其中,所述指定句的有效分段标签为段落分
割点。
BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量,其中,所述融合特征向量
包括句子信息和语篇树关系信息的特征向量;采用条件随机场模型基于所述融合特征向量
对每个句子进行分段标签预测,并更新每个句子的所述初始标签信息,输出有效句序列。
权重,并利用所述位置权重更新每个句子的特征向量,得到树特征向量;将各个句子的树特
征向量输入到BiLSTM网络,其中,所述BiLSTM网络包括一个正向LSTM和一个反向LSTM;采用
正向LSTM根据输入的树特征向量输出得到正向隐状态序列,以及采用反向LSTM根据输入的
树特征向量输出得到反向隐状态序列,其中,所述正向隐状态序列包括每个句子的正向隐
状态向量,所述反向隐状态序列包括每个句子的反向隐状态向量;
所述文本数据集合中的每个长文本分别进行分词和分句,得到与每个长文本对应的词序列
和句序列;将所述词序列和所述句序列分别转换为词向量序列和句向量序列。
Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
以是至少一个位于远离前述处理器的存储装置。
(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific
Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,
简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
述的长文本的分段方法。
产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或
部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计
算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质
中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机
指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字
用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或
数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者
是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以
是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘
Solid State Disk(SSD))等。
一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或
者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互
之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连
接,可以是电性或其它的形式。
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机
设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或
部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read‑Only Memory)、随机存取存
储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的
介质。
视为本申请的保护范围。