一种基于图卷积神经网络的生成式会议摘要方法转让专利
申请号 : CN202010163281.8
文献号 : CN111460132B
文献日 : 2021-08-10
发明人 : 冯骁骋 , 秦兵 , 冯夏冲 , 刘挺
申请人 : 哈尔滨工业大学
摘要 :
权利要求 :
1.一种基于图卷积神经网络的生成式会议摘要方法,其特征在于:所述方法具体过程为:
步骤一:训练对话篇章结构解析器,并对会议数据进行标注,得到会议的对话篇章结构;
步骤二:对于会议数据集中每一条会议及根据步骤一得到的会议的对话篇章结构,构建会议篇章结构图,会议篇章结构图包括了会议中的所有句子,会议中的所有参与者,以及会议中句子之间的对话篇章结构;
将会议篇章结构图表示为GD=(VD,ED,RD),其中vi∈VD代表图节点,(vi,r,vj)∈ED代表图中边,r∈RD代表图中边关系;
步骤三:利用“问答”对话篇章结构构建伪数据和对应的伪数据的会议篇章结构图;
步骤四:利用步骤三构建好的伪数据和对应的伪数据的会议篇章结构图预训练基于图神经网络的生成式会议摘要模型,得到预训练好的图神经网络的生成式会议摘要模型和初始化参数;
将步骤一得到的会议数据的对话篇章结构和步骤二得到的会议篇章结构图输入预训练好的图神经网络的生成式会议摘要模型进行训练,得到训练好的图神经网络的生成式会议摘要模型和模型参数;
利用训练好的图神经网络的生成式会议摘要模型对待测试的会议进行测试,生成摘要。
2.根据权利要求1所述一种基于图卷积神经网络的生成式会议摘要方法,其特征在于:所述步骤一中训练对话篇章结构解析器,并对会议数据进行标注,得到会议的对话篇章结构;具体过程为:
步骤一一、利用现有STAC数据集训练现有对话篇章结构解析器Deep Sequential,得到训练好的对话篇章结构解析器Deep Sequential;
步骤一二、利用训练好的对话篇章结构解析器Deep Sequential对AMI会议数据进行对话篇章结构的标注,得到AMI会议的对话篇章结构。
3.根据权利要求2所述一种基于图卷积神经网络的生成式会议摘要方法,其特征在于:所述步骤一一中利用现有STAC数据集训练现有对话篇章结构解析器Deep Sequential,得到训练好的对话篇章结构解析器Deep Sequential;具体过程为:STAC数据集为英文游戏多人聊天数据集,STAC数据集标注了对话中基本语义单元之间的语义关系;
所述多人为3人以上。
4.根据权利要求3所述一种基于图卷积神经网络的生成式会议摘要方法,其特征在于:所述步骤一二中利用训练好的对话篇章结构解析器Deep Sequential对AMI会议数据进行对话篇章结构的标注,得到AMI会议的对话篇章结构;具体过程为:AMI会议数据为会议数据集,包含了四个参与者,四位参与者针对一款产品开发进行讨论;
将AMI会议数据集划分为训练集、开发集和测试集;
训练好的对话篇章结构解析器Deep Sequential模型首先判断AMI会议中的两句话之间是否有关系,如果句子A和B有关系,Deep Sequential模型继续判断是哪一种关系,关系属于评论、澄清问题、详述、致谢、延续、解释、条件、问答对、交替、问题详述、结果、背景、叙述、纠正、平行和对比16种关系中的一种;
对会议数据进行标注,得到AMI会议的对话篇章结构;
如果句子A和B没有关系,就不进行标注。
5.根据权利要求4所述一种基于图卷积神经网络的生成式会议摘要方法,其特征在于:所述步骤二中对于会议数据集中每一条会议及根据步骤一得到的会议的对话篇章结构,构建会议篇章结构图,会议篇章结构图包括了会议中的所有句子,会议中的所有参与者,以及会议中句子之间的对话篇章结构;
将会议篇章结构图表示为GD=(VD,ED,RD),其中vi∈VD代表图节点,(vi,r,vj)∈ED代表图中边,r∈RD代表图中边关系;
具体过程为:
步骤二一、对步骤一得到的AMI会议的对话篇章结构进行Levi图转换;具体过程为:对步骤一得到的AMI会议的对话篇章结构进行Levi图转换,将边转换为关系节点;在句子节点和关系节点之间添加正向与反向边,正向边保留了原有的边方向,反向边与正向边的方向相反;
步骤二二、增加全局节点G与全局连接边:增加全局节点G,全局节点G与图中所有节点全部增加一条连接边,称为全局连接边;
步骤二三、增加自连接边:
自连接边由每一个节点指向自身;
步骤二四、修改正向边为正向入边与正向出边,修改反向边为反向入边与反向出边;
步骤二五、经过步骤二一到二四,构建出会议篇章结构图;
会议篇章结构图包含6种类型的边关系:自连接边、全局连接边、正向入边、正向出边、反向入边、反向出边;
会议篇章结构图包含三种类型的节点:全局节点、句子节点和关系节点;
其中自连接边包括三种形式:全局节点指向全局节点,句子节点指向句子节点,关系节点指向关系节点;
全局连接边包括两种形式:全局节点指向句子节点,全局节点指向关系节点;
正向入边为句子节点指向关系节点,正向出边为关系节点指向句子节点、反向入边为句子节点指向关系节点,反向出边为关系节点指向句子节点。
6.根据权利要求5所述一种基于图卷积神经网络的生成式会议摘要方法,其特征在于:所述步骤三中利用“问答”对话篇章结构构建伪数据和对应的伪数据的会议篇章结构图;具体过程为:
步骤三一、根据步骤一得到的AMI会议的对话篇章结构,利用对话篇章结构关系中“问答对”判断一句话是否为“问题”,若是“问题”,将“问题”作为伪摘要,“问题”之后的一段“讨论”作为伪会议,根据“讨论”“问题”对构建伪数据;
若不是“问题”,结束;
步骤三二、得到伪数据以后,根据步骤二进行同样的处理,得到伪数据的会议篇章结构图。
7.根据权利要求6所述一种基于图卷积神经网络的生成式会议摘要方法,其特征在于:所述步骤四中利用步骤三构建好的伪数据和对应的伪数据的会议篇章结构图预训练基于图神经网络的生成式会议摘要模型,得到预训练好的图神经网络的生成式会议摘要模型和初始化参数;
将步骤一得到的会议数据的对话篇章结构和步骤二得到的会议篇章结构图输入预训练好的图神经网络的生成式会议摘要模型进行训练,得到训练好的图神经网络的生成式会议摘要模型和模型参数;
利用训练好的图神经网络的生成式会议摘要模型对待测试的会议进行测试,生成摘要;
具体过程为:
步骤四一、获取节点表示;具体过程为:对于全局节点和关系节点,从一个随机初始化的词嵌入矩阵中获得对应的全局节点和关系节点的初始表示
对于句子节点,一个会议包含了|U|个句子[u1,u2,...,u|U|],其中第i个句子被表示为ui=[ui,1,ui,2,...,ui,|U|],uij代表了第i个句子中的第j个词语;每一个句子ui都对应一个说话人pi,pi∈P,P是说话人集合;
利用步骤一二划分出的AMI会议训练集构建词表,词表包含了AMI会议训练集中所有的词语及其对应的ID索引,每一个词语都拥有唯一索引;
对于句子节点,使用双向长短时记忆网络获得每一个词语uij的表示hi,j:hi,j=BiLSTM(hi,j‑1,ei,j) (1)式(1)中,hi,j代表了BiLSTM的隐层状态,ei,j代表了句子中词语的词向量;
将BiLSTM前向和后向的表示相拼接,得到句子ui的初始表示其中, 代表前向表示, 代表后向表示;
至此,全局节点、关系节点、句子节点得到了初始表示步骤四二、对于每一个节点vi∈VD,将步骤四一得到的初始表示 送入到现有图卷积神经网络中更新节点表示:
式(2)中,Nr(vi)代表节点vi在关系r下的邻居节点;|Nr(vi)|代表节点vi在关系r下的邻居节点的数量; 代表第l层对于关系r可学习的参数;ReLU为激活函数; 代表节点vi在l+1层的表示; 代表节点vj在l层的表示;
利用门控机制对来自不同节点的信息进行控制:式(3)中, 代表节点vj在l层的表示, 代表第l层对于关系r可学习的参数,sigmoid为激活函数, 的范围为采用门控机制以后,式(2)的卷积操作变为式(4):步骤四三、利用单向长短时记忆网络解码器来生成摘要;具体过程为:利用注意力机制,根据解码器状态st计算词语级别上下文向量 和句子级别上下文向量
词语级别的上下文向量 计算方式为:式(5)中,Wa为可学习的参数, 是步骤四一获得的词语初始表示; 为对于第i句话t t
第j个词语,未归一化的权重; 为解码器t时刻状态;a 为经过归一化以后的权重;e为归一化之前的权重; 为词语级别的向量表示; 为归一化以后的,对于第i句话第j个词语的权重;
句子级别的上下文向量 计算方式为:t t
a′=softmax(e′)
式(6)中,Wb为可学习的参数, 是经过现有的图卷积神经网络更新后的最后一层的句子表示; 为对句子i未归一化的权重; 为对句子i归一化之后的权重;
将词语级别和句子级别的上下文向量拼接得到最终上下文向量根据上下文向量 和当前时刻解码器隐藏层状态st计算词表中生成每一个词语的概率Pvocab:
式(7)中,V,V′,b和b′为可学习的参数; 代表st和 的拼接;softmax为归一化函数;Pvocab(w)代表了生成词表中词语w的概率;
计算从词表中生成词语的概率pgen:式(8)中, ws,wx和bptr为可学习的参数;sigmoid为激活函数;pgen代表了从词表中生成的概率,1‑pgen代表了从原文中拷贝的概率; 为对 求转置; 为对ws求转置; 为对wx求转置;xt为t时刻解码器输入词语的现有的预训练好的词向量;
因此对于一个词语w,综合考虑从词表中生成的概率和从原文中拷贝的概率,最终概率如式(9):
式(9)中, 为经过归一化以后的对于第i句话第j个词语的权重;
使用极大似然估计训练基于图神经网络的生成式会议摘要模型,得到训练好的图神经网络的生成式会议摘要模型;
利用训练好的图神经网络的生成式会议摘要模型对待测试的会议进行测试,生成摘要。
8.根据权利要求7所述一种基于图卷积神经网络的生成式会议摘要方法,其特征在于:所述使用极大似然估计训练基于图神经网络的生成式会议摘要模型,得到训练好的图神经网络的生成式会议摘要模型;具体过程为:在解码器的每一步,根据式(9)预测的词语的概率和标准词语计算交叉熵损失;过程为:
对于一个会议U,给定标准摘要 训练目标是最小化式(10):式(10)中, 为标准摘要中的第一个词语; 为标准摘要中的最后一个词语; 为t时刻需要预测的标准摘要的词语;L为损失函数。
说明书 :
一种基于图卷积神经网络的生成式会议摘要方法
技术领域
背景技术
Chris D Paice,年份:1990年,文献引自Information Processing&Management)领域下的
生成式会议摘要(Abstractive Meeting Summarization),即给定多人会议的文字记录,生
成一段简短的、包含会议关键信息的文本描述,如图2(a),展示了一个会议片段及其对应的
标准摘要。
[2]
证了基本语法正确的同时,也存在连贯性差等问题 (题目:Extracting decisions from
multi‑party dialogue using directed graphical models and semantic similarity,
作者:Trung H Bui,Matthew Frampton,John Dowding,and Stanley Peters,年份:2009
年,文献引自:Proceedings ofthe SIGDIAL 2009Conference:The 10th Annual Meeting
of the Special Interest Group on Discourse andDialogue)。生成式方法由模型生成
摘要,可以生成不属于原文的词语和短语,更加流畅。近几年的研究大多集中于生成式会议
[3]
摘要 (题目:Keep meeting summaries on topic:Abstractive multi‑modal meeting
summarization,作者:Manling Li,Lingyu Zhang,Heng Ji,and Richard J.Radke,年份:
2019年,文献引自:Proceedings ofthe 57th Annual Meeting ofthe Association for
Computational Linguistics)。然而,现有技术大多基于序列到序列(sequence‑to‑
sequence)模型,将会议内容视为句子和词语的序列,利用序列编码器进行建模,尽管取得
了一定的效果,但是依旧存在一定的不足,生成的摘要往往无法准确的理解会议内容,如图
[4]
2(b),展示了基线模型Sentence‑Gated (题目:Abstractive dialogue summarization
with sentencegated modeling optimized by dialogue acts,作者:Chih‑Wen Goo and
Yun‑Nung Chen,年份:2018,文献引自:2018IEEE Spoken Language Technology Workshop
(SLT))生成的摘要,与标准摘要对比,该模型没有准确的理解原文中句子3与句子1构成的
“反驳”关系。仅仅使用句子和词语的序列结构建模会议文本,忽略了会议丰富的对话篇章
结构信息,对话篇章结构表示了两句话之间的语义关系,例如“问答”、“反驳”、“赞同”等。
发明内容
成式会议摘要方法。
者,以及会议中句子之间的对话篇章结构;
和初始化参数;
式会议摘要模型和模型参数;
要,可以更好的理解会议内容。除此以外,本发明还利用“问答”对话篇章结构构建伪数据,
对模型进行预训练,可以隐式的增加训练数据,允许模型在真实数据上“热启动”。解决了现
有生成式会议摘要仅采用序列方式建模会议,忽略了会议丰富的对话篇章结构信息的问
题。如图2(c),展示了在引入对话篇章结构以后,本发明的模型生产的摘要。
效性,在评价指标ROUGE上本发明方法比之前的方法取得了更好的结果。ROUGE是一种基于
召回率的相似性度量方法,是评估自动文摘以及机器翻译的一组指标,考察翻译的充分性
和忠实性,值越高越好。ROUGE‑1、ROUGE‑2、ROUGE‑L的计算分别涉及一元语法、二元语法和
最长公共子序列。
附图说明
具体实施方式
者,以及会议中句子之间的对话篇章结构;
和初始化参数;
练以后得到模型的初始化参数;
得该模型有一个较好地初始化参数;
式会议摘要模型和模型参数;
Mathieu Morey,Farah Benamara,and Stergos Afantenos,年份:2016)训练现有对话篇章
[6]
结构解析器Deep Sequential (题目:Adeep sequential model for discourse parsing
on multi‑party dialogues,作者:Zhouxing Shi and Minlie Huang,时间:2019年,文献
引自:Proceedings oftheAAAI Conference onArtificial Intelligence),得到训练好的
对话篇章结构解析器Deep Sequential;
章结构解析器Deep Sequential;具体过程为:
元(EDU)与基本语义单元(EDU)之间的篇章语义关系共分类16类,分别是:Comment(评论)、
Clarification_question(澄清问题)、Elaboration(详述)、Acknowledgement(致谢)、
Continuation(延续)、Explanation(解释)、Conditional(条件)、Question‑answer_pair
(问答对)、Alternation(交替)、Q‑Elab(问题详述)、Result(结果)、Background(背景)、
Narration(叙述)、Correction(纠正)、Parallel(平行)和Contrast(对比);
Guillemot,Thomas Hain,Jaroslav Kadlec,Vasilis Karaiskos,Wessel Kraaij,Melissa
Kronenthal,et al,年份:2005,文献引自:International workshop on machine
learning for multimodal interaction)上进行,该数据集为会议数据集,包含了四个参
与者,分别是:项目经理,营销专家,工业设计师,用户界面设计师。四位参与者针对一款产
品开发进行讨论。该数据集包含了137个会议,本发明按照前人的方法,将其划分为训练集
(97个会议)、开发集(20个会议)和测试集(20个会议)。
构的标注,得到AMI会议的对话篇章结构;具体过程为:
模型首先判断两句话是否有关系,输出有关系或者无关系。如果句子A和B有关系,
DeepSequential模型继续判断是哪一种关系,关系属于评论、澄清问题、详述、致谢、延续、
解释、条件、问答对、交替、问题详述、结果、背景、叙述、纠正、平行和对比16种关系中的一
种;通过上述步骤最终得到两个句子之间的关系;
结构图,会议篇章结构图包括了会议中的所有句子,会议中的所有参与者,以及会议中句子
之间的对话篇章结构;
换;具体过程为:
Levi图转换之后,篇章结构关系类型将会变为图中的一个节点,例如图3(a)中的“问答”边
在图3(b)中成为一个新的节点;为了更好地促进信息在整个图上的的传播,在句子节点和
关系节点之间添加正向与反向边,正向边保留了原有的边方向,例如图3(a)中句子2通过
“问答”关系指向句子1,经过转换以后,句子2通过“正向边”指向“问答”节点,“问答”节点通
过“正向边”指向句子1。反相边与正向边的方向相反;
局连接边;如图4(a)中所示:全局连接边;增加全局连接边来收集整个图的全局信息;
信息更好的传播。例如图3(b)中U2通过正向边连接“问答”节点,修改后变为U2通过正向入边
连接“问答”节点,“问答”节点通过正向出边连接U1节点。反向边同理,如图4(c)。
构以后,句子A为“问题”,在得到“问题”以后,将该“问题”之后的10句话作为针对这个“问
题”的一段“讨论”。本发明发现一个“问题”往往引起针对这一问题的一段“讨论”,如图5,界
面设计师问“什么是标准的颜色?”,之后引发了一段关于颜色的讨论。)若是“问题”,将“问
题”作为伪摘要,“问题”之后的一段“讨论”作为伪会议,根据“讨论”“问题”对构建伪数据;
讨论的总结,根据“问答对”关系得到;
的生成式会议摘要模型,得到预训练好的图神经网络的生成式会议摘要模型和初始化参
数;
式会议摘要模型和模型参数;
个说话人pi,pi∈P,P是说话人集合;
uij对应的现有的预训练好的词向量,对于一个词语,可以根据词表对应的索引在预训练好
的词嵌入矩阵中得到,wpi为说话人pi对应的独热向量,独热向量为一种向量表示形式,例
如:有4种说话人A、B、C、D,那么这四种角色的独热向量分别为,A:[1,0,0,0],B:[0,1,0,0],
C:[0,0,1,0],D:[0,0,0,1],||代表两个向量拼接;
节点vi在l+1层的表示; 代表节点vj在l层的表示;
点表示。
为对于第i句话第j个词语,未归一化的权重; 为解码器t时刻状态;a为经过归一化以后
t
的权重;e为归一化之前的权重; 为词语级别的向量表示; 为归一化以后的,对于第i
句话第j个词语的权重;
层的句子表示; 为对于句子j未归一化的权重;a′为对于句子j归一化之后的权重;
表了有80%的可能性从词表中生成词语,有20%的可能性从原文中拷贝词语:
为对wx求转置;xt为t时刻解码器输入词语的现有的预训练好的词向量;
段会议和对应的会议篇章结构图,我们使用训练好的基于图神经网络的生成式会议摘要模
型根据式(9)来生成最终摘要。
络的生成式会议摘要模型;具体过程为:
本发明所附的权利要求的保护范围。