一种网络论坛用户心理危机程度预测方法转让专利

申请号 : CN202110878733.5

文献号 : CN113379167B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘德喜鲍力平万常选

申请人 : 刘德喜

摘要 :

本发明涉及自然语言处理技术领域,且公开了一种网络论坛用户心理危机程度预测方法,该方法主要基于注意力机制的多图神经网络模型MGA,其特征在于,包括以下步骤,步骤一、图的构建,从CLPsych2019共享任务数据集中获取每个用户所发布的文本数据以及所对应的的标签信息,并获取每个文本的文本表示,步骤二、基于图的单词交互模块,以用户文本为单位,以文本中单词作为顶点,构建多个文本图的向量表示,使用双向长短期时间记忆网络(Bi‑LSTM)学习单词节点的嵌入。该网络论坛用户心理危机程度预测方法,可以通过在线论坛用户所发表的帖子对其心理危机状态进行识别和分析,及时有效地发现有心理健康问题的用户,有利于对其后续的治疗和诊断。

权利要求 :

1.一种网络论坛用户心理危机程度预测方法,该方法主要基于注意力机制的多图神经网络模型MGA,其特征在于,包括以下步骤:步骤一、图的构建,从CLPsych2019共享任务数据集中获取每个用户所发布的文本数据以及所对应的标签信息,并获取每个文本的文本表示;

步骤二、基于图的单词交互模块,以用户文本为单位,以文本中单词作为顶点,构建多个文本图的向量表示,使用双向长短期时间记忆网络(Bi‑LSTM)学习单词节点的嵌入,节点可以从其相邻邻居接收信息,然后与自己的表示合并以进行更新;

基于图的单词交互模块,使用双向长短期时间记忆网络(Bi‑LSTM)学习单词节点的嵌入公式如下:t t‑1

a=Ah Wa    (2)

t t t‑1

I=σ(Wia+Uih +bz)    (3)

t t t‑1

F=σ(Wfa+Ufh +bf)    (4)

t t t‑1

O=σ(Woa+Uoh +bo)    (5)

t t t

h=O ⊙tahn(C)    (8)

其中,A为邻接矩阵,σ是sigmoid函数,W、U和b是可训练的权重和偏置,I、F、O分别是输入门、遗忘门和输出门,式(2)是对前一时序处理的结果进行利用,通过邻接矩阵来筛选出t t那些跟节点有关联的节点特征信息作为输入来使用,其h为新的记忆,a为历史记忆的存储载入,式(3)‑(8)过程对应于的输入门、遗忘门、输出门、对记忆细胞的更新以及隐状态的输t出信息的加工过程,过程持续进行,得到最后LSTM网络的输出h,直到向量收敛;

步骤三、输出模块,单词节点经过充分更新后,使用注意力机制将它们汇总为文档的图形级表示形式,并根据该表示形式进行最终预测;

输出模块中,某一单词节点v在经双向长短期时间记忆网络(Bi‑LSTM)充分更新后向量达到收敛,得到最终的隐藏向量 通过运算得到该节点的输出值av,每个节点v对图的贡献不同,使用注意力机制为每个节点附上相应的权重,最后通过平均和最大池化的方法将它们汇总为文档的图形级输出表示ok,并根据该文本的表示形式进行最终预测,如式(9)(10)(11)(12)所示;

av=nv⊙mv    (11)

其中,nv是一种注意力机制,用于选出与整个图最相关的节点,mv是一种非线性特征变换机制,将nv与mv进行点乘运算,得到某个节点的权重输出值av,在式(12 )中,除平均加权词特征外,还为图表示ok应用了最大池功能。

2.根据权利要求1所述的一种网络论坛用户心理危机程度预测方法,其特征在于:所述步骤二中顶点的嵌入使用预训练模型GloVe词向量,并使用双向长短期时间记忆网络(Bi‑LSTM)学习单词节点的嵌入。

3.根据权利要求2所述的一种网络论坛用户心理危机程度预测方法,其特征在于:将经过预处理后的文本作为输入,以单词表示为顶点,以单词之间的共现为边,构造文本的图G=(v,e),其中v表示节点集合,E表示边集合,通过长度为3的滑动窗口描述词之间的共现关系;

|v|×d

顶点的嵌入使用预训练模型GloVe词向量,表示为h∈R ,其中d是嵌入维度,v表示节点的个数,由于为每个文档建立了单独的图,因此在单词交互阶段会在上下文中传播和合并单词的特征信息,图的邻接矩阵通过共现关系进行权值的定义,如式(1)所示;

4.根据权利要求1所述的一种网络论坛用户心理危机程度预测方法,其特征在于:将所述图级输出表示ok通过softmax来对标签进行预测,通过交叉熵函数使损失最小化,如式(13)(14)所示;

其中,W和b是权重和偏置, 和 分别表示第k个样本的真实值与预测值。

说明书 :

一种网络论坛用户心理危机程度预测方法

技术领域

[0001] 本发明涉及自然语言处理技术领域,具体为一种网络论坛用户心理危机程度预测方法。

背景技术

[0002] 在利用社交媒体数据进行心理危机识别的早期研究中,大多是基于传统的机器学习方法,建立心理危机识别模型的过程如图2所示,主要采用基于分类的方法,首先通过用户填写自评量表并采集其社交网络数据,或者通过心理学专家直接分析社交网络数据,构建心理危机识别的数据集,其次,对于社交媒体数据进行量化编码,即特征提取步骤,选用适当的机器学习方法训练分类模型,并验证模型的计算效果,最后实现大规模社交网络用户心理危机的自动识别和检测,这类方法在数据统计分析的基础上提取和选择有利于区分类别的特征,特征工程的效果直接影响分类结果。
[0003] 目前,在社交网络高速发展的时代,人们更倾向于在线上论坛上发表自己的感想或者表达自己的心情,然而现有的心理机程度预测方法无法及时有效的发现有心理健康问题的用户,导致用户的人格障碍、情绪困扰等心理问题无法及时诊断治疗,以至于造成严重的后果。

发明内容

[0004] (一)解决的技术问题
[0005] 针对现有技术的不足,本发明提供了一种网络论坛用户心理危机程度预测方法,可以通过在线论坛用户所发表的帖子对其心理危机状态进行识别和分析,及时有效地发现有心理健康问题的用户,有利于对其后续的治疗和诊断等优点,解决了现有的心里危机程度预测方法无法及时有效的发现有心理健康问题的用户,导致用户的人格障碍、情绪困扰等心理问题无法及时诊断治疗,以至于造成严重的后果问题。
[0006] (二)技术方案
[0007] 为实现上述的目的,本发明提供如下技术方案:一种网络论坛用户心理危机程度预测方法,该方法主要基于注意力机制的多图神经网络模型MGA,其特征在于,包括以下步骤:
[0008] 步骤一、图的构建,从CLPsych2019共享任务数据集中获取每个用户所发布的文本数据以及所对应的的标签信息,并获取每个文本的文本表示;
[0009] 步骤二、基于图的单词交互模块,以用户文本为单位,以文本中单词作为顶点,构建多个文本图的向量表示,使用双向长短期时间记忆网络(Bi‑LSTM)学习单词节点的嵌入,节点可以从其相邻邻居接收信息,然后与自己的表示合并以进行更新;
[0010] 步骤三、输出模块,单词节点经过充分更新后,使用注意力机制将它们汇总为文档的图形级表示形式,并根据该表示形式进行最终预测。
[0011] 优选的,所述步骤二中顶点的嵌入使用预训练模型GloVe词向量,并使用双向长短期时间记忆网络(Bi‑LSTM)学习单词节点的嵌入。
[0012] 优选的,将经过预处理后的文本作为输入,以单词表示为顶点,以单词之间的共现为边,构造文本的图G=(v,e),其中v表示节点集合,E表示边集合,通过长度为3的滑动窗口描述词之间的共现关系;
[0013] 顶点的嵌入使用预训练模型GloVe词向量,表示为h∈R|v|×d,其中d是嵌入维度,v表示节点的个数,由于为每个文档建立了单独的图,因此在单词交互阶段会在上下文中传播和合并单词的特征信息,图的邻接矩阵通过共现关系进行权值的定义,如式(1)所示;
[0014]
[0015] 优选的,所述步骤二中基于图的单词交互模块,使用双向长短期时间记忆网络(Bi‑LSTM)学习单词节点的嵌入公式如下:
[0016] at=Aht‑1Wo
[0017]                                        2)
[0018] It=σ(Wtat+Utht‑1+bz)
[0019]                                        3)
[0020] Ft=σ(WfOt+Ufht‑1+bf)
[0021]                                        4)
[0022] Ot=σ(Woat+Uoht‑1+ba)
[0023]                                         5)
[0024]
[0025]
[0026] ht=Ot⊙tahn(Ct)
[0027]                                      8)
[0028] 其中,A为邻接矩阵,σ是sigmoid函数,W、U和b是可训练的权重和偏置,I、F、O分别是输入门、遗忘门和输出门,式(2)是对前一时序处理的结果进行利用,通过邻接矩阵来筛t t选出那些跟节点有关联的节点特征信息作为输入来使用,其h为新的记忆,a为历史记忆的存储载入,式(3)‑(8)过程对应于的输入门、遗忘门、输出门、对记忆细胞的更新以及隐状态t
的输出信息的加工过程,过程持续进行,得到最后LSTM网络的输出h,直到向量收敛。
[0029] 优选的,在所述输出模块中,某一单词节点V在t时刻经上述方法充分更新后向量达到收敛,得到最终的隐藏向量 通过运算得到该节点的输出值av,每个节点V对图的贡献不同,使用注意力机制为每个节点附上相应的权重,最后通过平均和最大池化的方法将它们汇总为文档的图形级输出表示ok,并根据该文本的表示形式进行最终预测,如式(9)(10)(11)(12)所示。
[0030]
[0031]
[0032] av=nv⊙mv    (11)
[0033]
[0034] 其中,nv是一种注意力机制,用于选出与整个图最相关的节点,mv是一种非线性特征变换机制,将nv与mv进行点乘运算,得到某个节点的权重输出值av,在式(13)中,除平均加权词特征外,还为图表示ok应用了最大池功能。
[0035] 优选的,将所述图级输出表示ok通过softmax来对标签进行预测,通过交叉熵函数使损失最小化,如式(13)(14)所示;
[0036]
[0037]
[0038] 其中,W和b是权重和偏置, 和 分别表示第k个样本的真实值与预测值。
[0039] (三)有益效果
[0040] 与现有技术相比,本发明提供了一种网络论坛用户心理危机程度预测方法,具备以下有益效果:
[0041] 1、本发明在使用时,以用户文本为单位,将文本中单词作为顶点,构建多个文本图的向量表示,使用双向长短期时间记忆网络(Bi‑LSTM)学习单词节点的嵌入,节点可以从其相邻邻居接收信息,然后与自己的表示合并以进行更新,单词节点经过充分更新后,使用注意力机制将它们汇总为文档的图形级表示形式,并根据该表示形式进行最终预测,实验结果表明,该方法在CLPsych2019的官方评测指标All‑F1值达到45.1%,达到当时评测时排名的第4名水平,且该模型能够更好地识别d类(高危风险)帖子,体现了图神经网络中的共现关系对模型产生的影响,为用户心理危机识别研究开辟了一个新的途径,及时有效地发现有心理健康问题的用户,有利于对其后续的治疗和诊断。

附图说明

[0042] 图1为本发明提出的一种网络论坛用户心理危机程度预测方法框图;
[0043] 图2为传统方法建立心理危机识别模型的流程图。

具体实施方式

[0044] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0045] 实施例:
[0046] 参照附图1,一种网络论坛用户心理危机程度预测方法,该方法主要基于注意力机制的多图神经网络模型MGA,MGA模型主要包含3个部分:图的构建,基于图的单词交互模块以及输出模块;
[0047] (1)图的构建
[0048] 将经过预处理后的文本作为输入,以单词表示为顶点,以单词之间的共现为边,构造文本的图G=(v,e),其中v表示节点集合,E表示边集合,通过长度为3的滑动窗口描述词之间的共现关系;
[0049] 顶点的嵌入使用预训练模型GloVe词向量,表示为h∈R|v|×d,其中d是嵌入维度,v表示节点的个数,由于为每个文档建立了单独的图,因此在单词交互阶段会在上下文中传播和合并单词的特征信息,图的邻接矩阵通过共现关系进行权值的定义,如式(1)所示;
[0050]
[0051] (2)基于图的单词交互模块
[0052] 本文使用长短期记忆网络LSTM来学习单词的节点嵌入,节点可以从其相邻邻居接收信息a,然后与自己的表示合并以进行更新,交互的公式为:
[0053] at=Aht‑1Wa
[0054]                                         2)
[0055] lt=σ(Wtat+Utht‑1+bz)
[0056]                                         3)
[0057] Ft=σ(Wfat+Ufht‑1+bf)
[0058]                                         4)
[0059] Ot=σ(Waat+Uoht‑1+bo)
[0060]                                       5)
[0061]
[0062]
[0063] ht=Ot⊙tahn(Ct)
[0064]                                      8)
[0065] 其中,A为邻接矩阵,σ是sigmoid函数,W、U和b是可训练的权重和偏置。I、F、O分别是输入门、遗忘门和输出门,式(2)是对前一时序处理的结果进行利用,通过邻接矩阵来筛t t选出那些跟节点有关联的节点特征信息作为输入来使用,其h类似于新的记忆,a 类似于历史记忆的存储载入,式(3)‑(8)过程对应于的输入门、遗忘门、输出门、对记忆细胞的更新以t
及隐状态的输出等信息加工过程,为得到最后LSTM网络的输出h ,过程会持续进行,直到向量收敛。
[0066] (3)输出模块
[0067] 某一单词节点V在t时刻经上述方法充分更新后向量达到收敛,得到最终的隐藏向量 通过运算得到该节点的输出值av,此时采用类似于第三章的词语层局部信息提取模块的思想,考虑到每个节点对图的贡献不同,使用注意力机制为每个节点附上相应的权重,最后通过平均和最大池化的方法将它们汇总为文档的图形级输出表示ok,并根据该文本的表示形式进行最终预测,如式(9)(10)(11)(12)所示;
[0068]
[0069]
[0070] av=nv⊙mv  (11)
[0071]
[0072] 其中,nv是一种注意力机制,用于选出与整个图最相关的节点;mv是一种非线性特征变换机制,将nv与mv进行点乘运算,得到某个节点德权重输出值av,在式(13)中,除了平均加权词特征外,还为图表示ok应用了最大池功能,每个单词都在文本中起作用,关键字应该更明确地做出贡献,最后,通过将图级输出表示ok输入softmax层来预测标签,通过交叉熵函数使损失最小化,如式(13)(14)所示;
[0073]
[0074]
[0075] 其中,W和b是权重和偏置, 和 分别表示第k个样本的真实值与预测值。
[0076] 经测试,在线论坛用户心理危机风险识别模型MGA能够有效地区别自杀风险程度为d(有高危自杀风险)以及自杀风险程度为a(无自杀风险)的帖子,其F1值分别为0.655和0.676,这说明该模型能够很好的应用于心理危机识别任务中,该评测结果在CLPsych2019评测任务中表现优异,说明该发明具有较好的性能,测试结果如下表;
[0077]
[0078] 需要说明的是,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0079] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。