一种基于深度神经网络的法语命名实体识别方法转让专利

申请号 : CN201910039188.3

文献号 : CN109871535B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王文贤唐瑞陈兴蜀严红王海舟

申请人 : 四川大学

摘要 :

本发明公开了一种基于深度神经网络的法语命名实体识别方法,包括以下步骤:步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC‑fr;步骤2:获取法语新闻文本,训练法语词向量,得到词‑词向量集;步骤3:使用标注的法语命名实体识别语料,得到词‑字符向量集和词‑语法向量集;步骤4:将语料划分为测试集和训练集,形成对应的三维向量;步骤5:对神经网络模型进行训练;步骤6:对测试集进行命名实体识别;本发明充分考虑法语单词的语义特征,构建的神经网络对单词的形态结构特征敏感,可兼顾上下文信息,针对性强,识别准确率高。

权利要求 :

1.一种基于深度神经网络的法语命名实体识别方法,其特征在于,包括以下步骤:步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC-fr;

CGC-fr包括文本特征层、上下文特征层和CRF层;

文本特征层将输入的句子中的每个单词转换为一个特征向量ri,得到特征序列{r1,r2,…,rN};i=1,2,…N,N为句子中单词的数量;

针对每一个特征向量具体表示为:r=[rword,rchar,rsem],其中rword为表示单词语义特征的词嵌入,rchar为表示单词形态结构特征的全局字符特征,rsem为语法特征;

其中:

式中: 为词汇表中第n个词的词嵌入,Wword为词汇表所有词嵌入构成的矩阵, 为大小为V的onehot向量,n为1到V之间的一个整数,w为法语单词,V为词汇表的大小;

rchar提取过程如下:

给定一个法语单词w,表示为字符嵌入序列,将上述字符嵌入序列作为CNN的输入,定义F个卷积核,将每个卷积核以滑动窗口在字符嵌入序列上滑动,得到一系列字符嵌入的子序列;将字符嵌入的子序列通过池化得到全局字符特征rchar;

上下文特征层将特征序列通过双向门控循环网络BiGRU网络得到输出序列,经线性层得到句子的上下文特征;

CRF层将上下文特征通过BIO标注每个词在实体中的位置信息,通过条件随机场CRF得到单词的实体标签;

步骤2:获取法语新闻文本,训练法语词向量,得到词-词向量集;

步骤3:使用标注的法语命名实体识别语料,训练对应的字符向量与语法特征向量,分别得到词-字符向量集和词-语法向量集;

步骤4:将步骤3中识别得到的语料划分为测试集和训练集,根据步骤2得到的词-词向量集和步骤3得到的词-字符向量集、词-语法向量集将测试集和训练集中的语料形成对应的三维向量;

具体的,三维向量表示如下:

对语料进行文本预处理,用二维数组Array_Term存储整个语料;第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号;

词-词向量集:通过三维数组Array_Word2Vec存储法语命名识别语料的嵌入,第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号,第三个维度为词向量;

词-字符向量集:二维数组Array_Term中按字母分隔其中的每个词,用三维数组Array_Char存储整个语料的字符表示形式;按照字母出现的顺序,得到非重复的字母表,建立字符索引,形成三维数组Array_CharVec用于存储整个语料的字符向量;

词-语法向量集:通过Spacy对法语命名实体识别语料中每个词进行词性标注,形成二维数组Array_Pos,按照词性出现的先后顺序,得到非重复的词性表,形成词性索引;将每个索引替换成One-Hot形式,形成三维数组Array_PosVec用于存储整个语料的语法特征向量步骤5:根据步骤4得到的训练集对步骤1构建的神经网络模型进行训练;

步骤6:采用步骤5训练得到的神经网络模型对步骤4得到的测试集进行命名实体识别。

2.根据权利要求1所述的一种基于深度神经网络的法语命名实体识别方法,其特征在于,所述步骤1中上下文特征层得到的网络输出序列过程如下:根据特征序列{r1,r2,…,rN},t时刻的输入为xt,经过正向RGU网络得到 反向RGU网络得到 其计算过程如下:zt=sigm(Wzxt+Uzht-1)

r r

rt=sigm(Wxt+Uht-1)

z为RGU网络的更新门,r为RGU网络的重置门,zt为t时刻RGU网络的更新门,rt为t时刻RGU网络的重置门, 为RGU网络的候选隐含单元,W、U为参数,ht为t时刻隐含层输出,ht-1为上一时刻隐含层输出,h为隐含层输出;

t时刻经双向门控循环网络BiGRU网络输出at为 一段时间输出序列为{a1,a2,...,aN},t=1,2,…N。

3.根据权利要求1所述的一种基于深度神经网络的法语命名实体识别方法,其特征在于,所述步骤1中CRF层单词实体标签的获取过程如下:定义实际的标签序列为Y,输入特征序列为L且实际标签序列为Y的情况下的条件概率为P(Y|L):式中:ψi(yi-1,yi,L)为CRF的势函数,yi为实际标签序列Y中第i个标签,yi-1为实际标签序列Y中的第i-1个标签,y'为预测的标签,f(L)为特征函数,N为序列长度;

条件概率最大的标签类型即单词的实体标签。

4.根据权利要求1所述的一种基于深度神经网络的法语命名实体识别方法,其特征在于,所述步骤2中获取词-词向量集的过程如下:对文本进行预处理,去除标点符号;通过GENSIM进行词向量的训练即可得到词-词向量集合。

说明书 :

一种基于深度神经网络的法语命名实体识别方法

技术领域

[0001] 本发明涉及法语命名实体识别技术领域,具体涉及一种基于深度神经网络的法语命名实体识别方法。

背景技术

[0002] 命名实体识别(Named Entity Recognition,NER)是指在文本识别出特定类型事务名称或符号的过程;这些类型通常是预先定义的,常见命名实体类型有三大类:人名、机构名、地名,除此之外还有七小类;它是自然语言处理的一个基础任务,从文本中提取出可能更具有意义的人名、组织名、地名等,使得后续的自然语言处理任务能根据抽取得到的命名实体进一步处理获取需要的信息;在其之上还有命名实体链接、实体关系提取、时间抽取等多种任务依赖于它;有一些相对复杂的任务例如话题检测、文本摘要、机器翻译等将命名实体识别作为中间环节用于提升效果。
[0003] 随着全球化发展,各国之间信息交换日益频繁,外语的舆情文本信息逐渐增多,相比于中文,外语信息更能影响其他国家对中国的看法,而了解这些信息非常重要;法语在非英语的语种中影响力相对较大,其文本是多种舆情分析中的重要目标之一;在舆情文本分析中,命名实体识别是文本分析的基础任务,重要性不可忽视;在命名实体识别的领域,英文方面的研究有很多,而法语方面的较少;目前对法语文本的研究中,通常采用人工选择分辨命名实体和非命名实体的特征,然后由机器学习模型进行学习,识别出文本中存在的命名实体;这些特征包括词后缀、字符窗口、临近词、词前缀、单词长度、首字母是否大写等等;可以看出多为单词或文本的形态结构特征而非语义特征;除此之外,多语言通用的命名实体识别方法也可以应用到法语中,但是这种识别方法一般是以英语为研究主体,法语和其他语言套用英语的方法;但是其识别效果和英语相比有一定的差距,法语与英语相比不但词的种类复杂,词的用法位置以及由此导致整个句子的性数变化也不同,直接应用到法语命名实体识别上,识别的准确率相对较低。

发明内容

[0004] 本发明提供一种兼顾文本中的形态结构特征、语义特征和语法特征,识别准确率高的基于深度神经网络的法语命名实体识别方法。
[0005] 本发明采用的技术方案是:一种基于深度神经网络的法语命名实体识别方法,包括以下步骤:
[0006] 步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC-fr;
[0007] CGC-fr包括文本特征层、上下文特征层和CRF层;
[0008] 文本特征层将输入的句子中的每个单词转换为一个特征向量ri,得到特征序列{r1,r2,…,rN};i=1,2,…N,N为句子中单词的数量;
[0009] 上下文特征层将特征序列通过双向门控循环网络BiGRU网络得到输出序列,经线性层得到句子的上下文特征;
[0010] CRF层将上下文特征通过BIO标注每个词在实体中的位置信息,通过条件随机场CRF得到单词的实体标签;
[0011] 步骤2:获取法语新闻文本,训练法语词向量,得到词-词向量集;
[0012] 步骤3:使用标注的法语命名实体识别语料,训练对应的字符向量与语法特征向量,分别得到词-字符向量集和词-语法向量集;
[0013] 步骤4:将步骤3中识别得到的语料划分为测试集和训练集,根据步骤2得到的词-词向量集和步骤3得到的词-字符向量集、词-语法向量集将测试集和训练集中的语料形成对应的三维向量;
[0014] 步骤5:根据步骤4得到的训练集对步骤1构建的神经网络模型进行训练;
[0015] 步骤6:采用步骤5训练得到的神经网络模型对步骤4得到的测试集进行命名实体识别。
[0016] 进一步的,所述步骤1中的特征向量表示为:r=[rword,rchar,rsem],其中rword为表示单词语义特征的词嵌入,rchar为表示单词形态结构特征的全局字符特征,rsem为语法特征;
[0017] 其中:
[0018]
[0019] 式中: 为词汇表中第n个词的词嵌入, 为词汇表所有词嵌入构成的矩阵,为大小为V的onehot向量,n为1到V之间的一个整数,w为法语单词,V为词汇表的大小;
[0020] rchar提取过程如下:
[0021] 给定一个法语单词w,表示为字符嵌入序列,将上述字符嵌入序列作为CNN的输入,定义F个卷积核,将每个卷积核以滑动窗口在字符嵌入序列上滑动,得到一系列字符嵌入的子序列;将字符嵌入的子序列通过池化得到全局字符特征rchar。
[0022] 进一步的,所述步骤1中上下文特征层得到的网络输出序列过程如下:
[0023] 根据特征序列{r1,r2,…,rN},t时刻的输入为xt,经过正向RGU网络得到 反向RGU网络得到 其计算过程如下:
[0024] zt=sigm(Wzxt+Uzht-1)
[0025] rt=sigm(Wrxt+Urht-1)
[0026]
[0027]
[0028] z为RGU网络的更新门,r为RGU网络的重置门,zt为t时刻RGU网络的更新门,rt为t时刻RGU网络的重置门, 为RGU网络的候选隐含单元,W、b、U为参数,ht为t时刻隐含层输出,ht-1为上一时刻隐含层输出,h为隐含层输出;
[0029] t时刻经双向门控循环网络BiGRU网络输出at为 一段时间输出序列为{a1,a2,...,aN},t=1,2,…N。
[0030] 进一步的,所述步骤1中CRF层单词实体标签的获取过程如下:
[0031] 定义实际的标签序列为Y,输入特征序列为L且实际标签序列为Y的情况下的条件概率为P(Y|L):
[0032]
[0033] 式中:ψi(yi-1,yi,L)为CRF的势函数,yi为实际标签序列Y中第i个标签,yi-1为实际标签序列Y中的第i-1个标签,y'为预测的标签,f(L)为特征函数,N为序列长度;
[0034] 条件概率最大的标签类型即单词的实体标签。
[0035] 进一步的,所述步骤2中获取词-词向量集的过程如下:
[0036] 对文本进行预处理,去除标点符号;通过GENSIM进行词向量的训练即可得到词-词向量集合。
[0037] 进一步的,所述步骤4中的三维向量表示方法如下:
[0038] 对语料进行文本预处理,用二维数组Array_Term存储整个语料;第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号;
[0039] 词-词向量集:通过三维数组Array_Word2Vec存储法语命名识别语料的嵌入,第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号,第三个维度为词向量;
[0040] 词-字符向量集:二维数组Array_Term中按字母分隔其中的每个词,用三维数组Array_Char存储整个语料的字符表示形式;按照字母出现的顺序,得到非重复的字母表,建立字符索引,形成三维数组Array_CharVec用于存储整个语料的字符向量;
[0041] 词-语法向量集:通过Spacy对法语命名实体识别语料中每个词进行词性标注,形成二维数组Array_Pos,按照词性出现的先后顺序,得到非重复的词性表,形成词性索引;将每个索引替换成One-Hot形式,形成三维数组Array_PosVec用于存储整个语料的语法特征向量。
[0042] 本发明的有益效果是:
[0043] (1)本发明根据法语单词的语义特征,对局部特征的敏感性抽取单词的形态结构特征;
[0044] (2)本发明通过双向门控循环网络可兼顾上下文信息;
[0045] (3)本发明中CRF层对处理前后存在依赖的序列更强大,建立的模型可端对端的实现法语命名实体识别;
[0046] (4)本发明针对性强、识别准确率高。

附图说明

[0047] 图1为本发明流程结构示意图。
[0048] 图2本发明中建立的CGC-fr模型的结构示意图。
[0049] 图3为本发明中提取单词字符特征的过程示意图。

具体实施方式

[0050] 下面结合附图和具体实施例对本发明做进一步说明。
[0051] 如图1所示,一种基于深度神经网络的法语命名实体识别方法,包括以下步骤:
[0052] 步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC-fr;
[0053] CGC-fr包括文本特征层、上下文特征层和CRF层;
[0054] 1、文本特征层
[0055] 文本特征层作为模型的第一层和输入层密切相关,输入为一个句子,由N个单词wi组成,i=1,2,…N,形成{w1,w2,...,wN};文本特征层将其中每个法语单词转换成一个特征向量r,r=[rword,rchar,rsem];其中rword为表示单词语义特征的词嵌入,rchar为表示单词形态结构特征的全局字符特征,代表单词的形态结构特征,比如说词根词缀信息等,rsem为语法特征。
[0056] 语义特征:
[0057] 词嵌入rword的表示法和普通One-Hot表示法(One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效)只是相差一个词嵌入矩阵,但是也正是这个矩阵的存在导致词嵌入比One-Hot表示法蕴含更多的语义信息;该矩阵Wword表示词汇表中所有词嵌入;它的每列Wiword代表词汇表中的第i个词, 是一个大小为V的向量,除了w所在索引n为1,其余为0。
[0058] 其中:
[0059]
[0060] 式中: 为词汇表中第n个词的词嵌入, 为词汇表所有词嵌入构成的矩阵,为大小为V的onehot向量,n为1到V之间的一个整数,w为法语单词,V为词汇表的大小。
[0061] 将词嵌入表示为模型的参数,即可在训练法语命名实体识别模型时不断迭代得到,训练的输入输出是词的上下文;所以生成的词嵌入代表在该语料中的语义信息;模型中还可以直接加载外部已经训练好的词嵌入,已经训练好的词嵌入相较于训练时生成的词嵌入会使得模型的效果更好,提升模型的识别准确率。
[0062] 形态结构特征
[0063] 字符嵌入为:给定一个法语单词w。这个词的字符分割后可表示为字符嵌入序列依靠词的字符序列不仅难以表达出词的形态特征,还增加了模型的计算复杂度;本发明模型是基于CNN构建的,CNN采用了局部连接和权值共享技术,对局部的特征非常敏感,在提取字符特征方面富有成效;使用CNN来提取一个单词的字符嵌入序列所蕴含的形态结构特征,如图3所示,图中是以给定的法语单词Boujour为例展示的提取字符特征的过程。
[0064] 将包含M个字符的单词的字符嵌入序列作为CNN的输入,定义F个卷积核,每个卷积核以kchar大小的窗口在字符嵌入序列上以步长为1滑动(选择步长为1是为了不漏过每个可能的词根词缀信息),每次滑动得到一个字符嵌入的子序列:
[0065]
[0066] 再通过池化Max-pooling得到全局字符特征rchar,其中第j位元素的计算方法如下:
[0067]
[0068] 其中,Wp为所有卷积核的权重,其大小为固定长度,等于卷积核数量F;通过对卷积核提取的局部特征进行汇总得到该单词的全局字符特征。
[0069] 语法特征
[0070] 作为语法的一部分,法语单词的词性有助于从词性的角度来丰富文本的特征,使得后续的过程中能够具有丰富含义的特征更有效地提取命名实体;本发明中将每个单词的词性特征表示为One-Hot形式的向量rsem,代表法语单词的语法特征。
[0071] 最终,将词嵌入rword、字符特征rchar、语法特征rsem串联得到最终的词表示为r,一个句子中所有的词均通过特征向量表示,其组合形成特征序列{r1,r2,…,rN}。
[0072] 2、上下文特征层
[0073] 上下文特征层将特征序列通过双向门控循环网络BiGRU网络得到输出序列,经线性层得到句子的上下文特征;
[0074] 文本的上下文信息往往是双向的,当前词语不仅与之前的序列有关还与之后的序列有关;用单词序列表示的法语句子{w1,w2,...,wN}的特征{r1,r2,…,rN}代表句子本身时,通常希望能综合句子全局上下文信息来判断实体类别。
[0075] 目前的循环神经网络可以达成这个目标,最开始循环神经网络(Recurrent Neural Network,RNN)被期待能具有记忆功能,保持前文的信息,传递给后面的单元使用,然而它实际表现效果并不好,会遇到梯度消失问题;为了解决RNN梯度消失问题而提出的BiGRU解决了这个问题,同时在具有上下文联系的情况下,具有更少的参数,训练更快;BiGRU比GRU更强大,由正向GRU和逆向GRU组成,接受上文或者下文传来的信息,综合考虑当前和上下文信息得到输出,让输出效果准确率得到一定程度提升;它的循环神经网络结构的特质决定了它能捕获序列从左向右的上下文和从右向左的上下文,如图2所示。
[0076] 其中GRU网络:即Gated Recurrent Unit。GRU模型如下只有两个门,分别为更新门和重置门;更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。
[0077] 根据特征序列{r1,r2,…,rN},t时刻的输入为xt,经过正向RGU网络得到 反向RGU网络得到 其计算过程如下:
[0078] zt=sigm(Wzxt+Uzht-1)
[0079] rt=sigm(Wrxt+Urht-1)
[0080]
[0081]
[0082] z为RGU网络的更新门,r为RGU网络的重置门,zt为t时刻RGU网络的更新门,rt为t时刻RGU网络的重置门, 为RGU网络的候选隐含单元,W、b、U为参数,ht为t时刻隐含层输出,ht-1为上一时刻隐含层输出,h为隐含层输出;
[0083] t时刻经双向门控循环网络BiGRU网络输出at为 一段时间输出序列为{a1,a2,...,aN},t=1,2,…N。
[0084] 输出序列通过线性层压缩特征向量的维度,得到句子的上下文特征,即上下文特征的输出{l1,l2,...,lN}。
[0085] 3、CRF层
[0086] CRF层将上下文特征通过BIO标注每个词在实体中的位置信息,通过条件随机场CRF得到单词的实体标签。
[0087] 将法语命名实体识别看作是一个简单的序列标注问题,也就是序列中的每个词都有着对应的命名实体的标签;命名实体往往是一个词组,因此命名实体的标签不仅标识着类别还标识该词在命名实体中的位置信息;实用BIO标注(BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型;)来表示实体中每个词在实体中的位置信息。
[0088] 例如句子“Alleràla Tour Eiffel”(去巴菲尔铁塔)为例,其中“Tour Eiffel”为地名LOC实体,整个句子的实体BIO2标签序列为O,O,O,B-LOC,I-LOC,O代表非实体的标签,B-前缀代表实体的第一个词,I-前缀表示实体非头部的词;在标签序列中,I-LOC标签后肯定不可后接I-ORG,所以引入条件随机场CRF,来学习标签序列间的关系;CRF能有效捕获序列内部之间的联系,尤其是序列中前后临近元素词的关系(关于条件随机场CRF在“条件随机场CRF”-Treant的博客中有详细说明)。
[0089] 定义实际的标签序列为Y,输入特征序列为L且实际标签序列为Y的情况下的条件概率为P(Y|L):
[0090]
[0091] 式中:ψi(yi-1,yi,L)为CRF的势函数,yi为实际标签序列Y中第i个标签,yi-1为实际标签序列Y中的第i-1个标签,y'为预测的标签,f(L)为特征函数,N为序列长度;
[0092] 训练CRF时,用最大似然估计法使得条件概率最大化,从预测概率最大的标签类型即单词的实体标签。
[0093] 实际使用时,按照以下步骤进行:
[0094] 步骤2:获取法语新闻文本,训练法语词向量,得到词-词向量集;
[0095] 使用获取的5万篇法语新闻文文本,首先对文本进行预处理,去除其中的标点符号,把所有新闻文文本合并到一个文件,文件的每一行表示原新闻文本中的一句话;然后以该文件为输入,使用GENSIM进行词向量的训练,输出为词-词向量集;其中GENSIM为一个用于从文档中自动提取语义主题的Python库。
[0096] 步骤3:使用标注的法语命名实体识别语料,训练对应的字符向量与语法特征向量,分别得到词-字符向量集和词-语法向量集。
[0097] 步骤4:将步骤3中识别得到的语料划分为测试集和训练集,根据步骤2得到的词-词向量集和步骤3得到的词-字符向量集、词-语法向量集将测试集和训练集中的语料形成对应的三维向量;
[0098] 三维向量表示方法如下:
[0099] 使用标注的法语命名实体识别语料,首先对对语料进行文本预处理,去除其中的标点符号,用二维数组Array_Term存储整个语料;第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号;数组中存储的值是对应的词,第二个维度的大小由语料中最长句子的词的个数确定,较短的句子在数组中空缺的位置用填充字符UNK进行填充。
[0100] 词-词向量集:通过三维数组Array_Word2Vec存储法语命名识别语料的词嵌入表示,Array_Word2Vec前两个维度与Array_Term对应;第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号,第三个维度为词向量,存储的值与词-词向量对应。
[0101] 词-字符向量集:二维数组Array_Term中按字母分隔其中的每个词,用三维数组Array_Char存储整个语料的字符表示形式;按照字母出现的顺序,得到非重复的字母表,建立字符索引;该索引区分大小字母以及某些非标点的特殊字符情况;形成三维数组Array_CharVec用于存储整个语料的字符向量,每一个值是对应字母的索引值,空缺的位置用填充字符UNK进行填充。
[0102] 词-语法向量集:通过Spacy对法语命名实体识别语料中每个词进行词性标注,形成二维数组Array_Pos,用于记录整个语料的词性标注结果;按照词性出现的先后顺序,得到非重复的词性表,形成词性索引;将每个索引替换成One-Hot形式,形成三维数组Array_PosVec用于存储整个语料的语法特征向量。
[0103] 步骤5:根据步骤4得到的训练集对步骤1构建的神经网络模型进行训练;
[0104] 步骤6:采用步骤5训练得到的神经网络模型对步骤4得到的测试集进行命名实体识别。
[0105] 可将本发明方法编为程序代码,通过计算机刻度存储介质存储该代码,将程序代码传输给处理器,通过处理器执行本发明方法。
[0106] 本发明利用卷积神经网络CNN(Convolutional Neural Network,CNN)对局部特征的敏感性抽取单词的形态结构特征;通过双向门控循环网络BiGRU对上下文信息敏感,CRF对处理前后存在的依赖的序列更强力,结合它们的优势端对端地实现法语命名实体识别。并且使用词嵌入表示文本中单词的语义特征,字符嵌入用于提取单词的形态结构特征,并提取出法语语法特征,使得本发明方法能够兼顾文本中的形态结构特征、语义特征和语法特征,充分利用法语本身的特征抽取命名实体;通过本发明方法标注了法语的数据集,其中包含1005篇文章,29016个实体,增加了法语命名实体识别的数据集;该数据集后续可以开展更多的研究。