面向社交网络数据的语义搜索方法转让专利

申请号 : CN202211612153.2

文献号 : CN115599892B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 马行空董梓轩刘波李少勇邱厚杰陈鑫益洪学恕李国伟李华钢

申请人 : 中国人民解放军国防科技大学

摘要 :

本申请涉及面向社交网络数据的语义搜索方法,包括:获取输入的原查询语句;在预训练扩展后的社交网络数据语料库中,利用知识图谱对原查询语句进行动态查询语义扩展;根据查询语句的上下文存在情况,在社交网络数据语料库中基于知识图谱对动态查询语义扩展的结果进行歧义消除,得到消歧后的语料库扩展语句;将消歧后的语料库扩展语句和原查询语句输入RoBERTa预训练模型进行相似度对比,输出相似度最大的语料库扩展语句对应的语料库原语句作为原查询语句的语义搜索结果;RoBERTa预训练模型基于社交网络数据语料库预训练得到。能够大幅提高社交网络数据的语义搜索准确率。

权利要求 :

1.一种面向社交网络数据的语义搜索方法,其特征在于,包括步骤:在系统预处理阶段,对社交网络数据语料库中的数据利用知识图谱进行补全并进行语义扩展,得到预训练扩展后的社交网络数据语料库并将所述社交网络数据语料库中的原数据与扩展后的数据对应存储;

获取输入的原查询语句;

利用知识图谱对所述原查询语句进行动态查询语义扩展;

根据所述原查询语句的上下文存在情况,基于所述知识图谱对所述动态查询语义扩展的结果进行歧义消除,得到消歧后的所述原查询语句的扩展语句;

将消歧后的所述原查询语句的扩展语句和所述社交网络数据语料库中的扩展语句输入RoBERTa预训练模型进行相似度对比,输出相似度最大的所述社交网络数据语料库中的扩展语句对应的语料库原语句作为所述原查询语句的语义搜索结果;所述RoBERTa预训练模型基于所述社交网络数据语料库预训练得到;

其中,根据所述原查询语句的上下文存在情况,基于所述知识图谱对所述动态查询语义扩展的结果进行歧义消除,得到消歧后的所述原查询语句的扩展语句的步骤,包括:确定所述原查询语句没有上下文;

获取所述动态查询语义扩展的结果中所有实体的歧义权重排序结果;

选取所述歧义权重排序结果中歧义权重最大的实体作为扩展语句中使用的扩展实体,得到消歧后的所述原查询语句的扩展语句;或者,确定所述原查询语句有上下文;

将所述动态查询语义扩展的结果中歧义实体与歧义实体相应的所有实体描述属性拼接,得到歧义实体对应的各拼接语句;

将所述原查询语句与所有的所述拼接语句输入所述RoBERTa预训练模型,分别对比所述原查询语句的向量与各所述拼接语句的向量的相似度,按相似度从高到低的顺序对各所述拼接语句进行排序;

将相似度排序最前的所述拼接语句作为使用的扩展实体,得到消歧后的所述原查询语句的扩展语句。

2.根据权利要求1所述的面向社交网络数据的语义搜索方法,其特征在于,利用知识图谱对所述原查询语句进行动态查询语义扩展的步骤,包括:识别所述原查询语句中的实体,通过知识图谱查询所述实体的对象属性和数据属性;

将所述实体的对象属性和数据属性插入所述原查询语句的语义断句之后,得到所述动态查询语义扩展的结果。

3.根据权利要求1所述的面向社交网络数据的语义搜索方法,其特征在于,所述RoBERTa预训练模型的训练获取过程,包括:将所述社交网络数据语料库输入RoBERTa模型,采用负采样的方式进行预训练;

对计算损失函数时,根据设置的梯度累积和模型损失函数计算损失规范;所述模型损失函数为基于Margin loss函数与模型复杂度的损失函数;

根据所述损失规范反向传播计算梯度,根据计算的梯度更新RoBERTa模型的网络参数;

当预训练轮数达到设定轮数时,存储RoBERTa模型的网络参数并保持RoBERTa模型输出的各语义文本的向量,完成训练并得到所述RoBERTa预训练模型。

4.根据权利要求3所述的面向社交网络数据的语义搜索方法,其特征在于,所述RoBERTa预训练模型的相似度函数为:,

其中, 表示模型的第i个输入文本, 表示第i个输入文本对应的标签,标签为输入文本的主题标注,n表示输入文本的数量。

5.根据权利要求4所述的面向社交网络数据的语义搜索方法,其特征在于,所述Margin loss函数为:,

其中,

,

其中, 表示对于负样本对的设定边距, 表示正样本得分,表示负样本得分,x表示输入文本。

说明书 :

面向社交网络数据的语义搜索方法

技术领域

[0001] 本发明属于语义搜索技术领域,涉及一种面向社交网络数据的语义搜索方法。

背景技术

[0002] 随着社交媒体的日益发展壮大,个体和群体的认知越来越受到社交平台、新闻网站等在线网络媒体的影响。快速准确感知网络群体的热点话题、情感态度、立场倾向和社会心态等,对及时掌握特定地区的社会认知态势与发现社会突发事件具有重要现实意义。当前,利用在线网络媒体中的新闻报道和用户发帖评论等内容数据,通过自然语言处理、机器学习和深度学习等技术建立聚类或分类等学习模型,进而分析特定地区的社会认知态势已成为主流。
[0003] 为了构建学习模型,如何针对不同的社会认知态势感知任务场景,快速形成高质量的待标注数据集成为当前重要挑战,主要原因在于:不同任务场景下的训练数据集具有较大的差异性。例如对于热点话题发现任务,其面向的目标地区不同,相应的主题、语种、表达风格和用语习惯等也不相同。再例如对于情感或立场分析任务,其面向的目标对象不同且情感立场方面不同,所需的数据集也各不相同。然而,传统的关键词搜索已经不能胜任更加广域的事件发现任务,需要更为精确的语义分析学习模型进行匹配。在实现本发明的过程中,发明人发现传统的搜索方法仍存在着社交网络数据搜索准确率不高的技术问题。

发明内容

[0004] 针对上述传统方法中存在的问题,本发明提出了一种面向社交网络数据的语义搜索方法和一种面向社交网络数据的语义搜索装置,能够大幅提高社交网络数据的语义搜索准确率。
[0005] 为了实现上述目的,本发明实施例采用以下技术方案:
[0006] 一方面,提供一种面向社交网络数据的语义搜索方法,包括步骤:
[0007] 获取输入的原查询语句;
[0008] 在预训练扩展后的社交网络数据语料库中,利用知识图谱对原查询语句进行动态查询语义扩展;
[0009] 根据查询语句的上下文存在情况,在社交网络数据语料库中基于知识图谱对动态查询语义扩展的结果进行歧义消除,得到消歧后的语料库扩展语句;
[0010] 将消歧后的语料库扩展语句和原查询语句输入RoBERTa预训练模型进行相似度对比,输出相似度最大的语料库扩展语句对应的语料库原语句作为原查询语句的语义搜索结果;RoBERTa预训练模型基于社交网络数据语料库预训练得到。
[0011] 另一方面,还提供一种面向社交网络数据的语义搜索装置,包括:
[0012] 查询获取模块,用于获取输入的原查询语句;
[0013] 语义扩展模块,用于在预训练扩展后的社交网络数据语料库中,利用知识图谱对原查询语句进行动态查询语义扩展;
[0014] 歧义消除模块,用于根据查询语句的上下文存在情况,在社交网络数据语料库中基于知识图谱对动态查询语义扩展的结果进行歧义消除,得到消歧后的语料库扩展语句;
[0015] 搜索输出模块,用于将消歧后的语料库扩展语句和原查询语句输入RoBERTa预训练模型进行相似度对比,输出相似度最大的语料库扩展语句对应的语料库原语句作为原查询语句的语义搜索结果;RoBERTa预训练模型基于社交网络数据语料库预训练得到。
[0016] 上述技术方案中的一个技术方案具有如下优点和有益效果:
[0017] 上述面向社交网络数据的语义搜索方法,通过运用知识图谱显式扩展查询语句的语义,同时使用知识图谱扩展语料库中语义,使双向显式语义相似度更高,同时设计语义消歧处理,使用RoBERTa预训练模型进行文本表示的微调,隐式拓展查询语句与语料库中社交网络数据的语义,将语义相关的社交网络数据与查询语句间相似度尽可能提升到最大,同时尽可能降低无关社交网络数据的相似度,解决由于语言的歧义性和隐式相关性带来的社交网络数据搜索准确率极低的问题,达到了大幅提高社交网络数据的语义搜索准确率的效果。

附图说明

[0018] 为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019] 图1为一个实施例中面向社交网络数据的语义搜索方法的流程示意图;
[0020] 图2为一个实施例中语义拓展流程示意图;
[0021] 图3为一个实施例中无上下文的实体扩展示意图;
[0022] 图4为一个实施例中有上下文的实体扩展示意图;
[0023] 图5为一个实施例中面向社交网络数据的语义搜索装置的模块结构示意图。

具体实施方式

[0024] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0025] 除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
[0026] 需要说明的是,在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。
[0027] 本领域技术人员可以理解,本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0028] 早期各大搜索平台主要依赖“关键字搜索”技术,返回给用户包含关键字的数据列表,用户需要手动过滤掉大量无用信息才能找到真正想要的结果。相较于传统的关键词查询,基于知识图谱的语义搜索学习模型能够相对准确地捕捉用户搜索意图,进而基于知识图谱中的知识解决传统搜索中遇到的关键字语义多样性及语义消歧的难题,通过实体链接实现知识与文档的混合检索。
[0029] 虽然目前针对社交用户构建知识图谱进行用户特征的分析已经取得了一系列令人瞩目的研究成果,但仍难以满足针对社交网络数据的复杂查询需求。其面临难点和挑战包括:
[0030] (1)挖掘查询语句语义,用户输入语句多种多样且认知受限,输入与真实需求存在语义鸿沟,无法准确知晓搜索需求对应的关键词,而传统搜索引擎也无法通过用户有限输入理解其真实意图,从而造成搜索不准的情况,如搜索“**冲突”的结果无法显示仅包含“##巷战”此类不显式相关的社交言论,如何挖掘有限长度的查询语句语义,使其尽可能多的匹配关联社交网络数据,避免遗漏隐式语义关联的数据,是研究的挑战之一。
[0031] (2)文本实体歧义消除,语言中的歧义实体较多,如何避免大量无关的歧义内容被检索混杂,而使用户无法获取到其中真正的有效的语料,也是本文研究的重点之一。
[0032] (3)文本表示方法,如何对非结构化数据进行准确的结构化表示,进一步挖掘其中蕴含的隐含语义,有利于进行相似度比对排序,生成最终搜索结果,同样是本文研究重点。
[0033] 因此,如何弥补查询语句与真实需求之间的语义鸿沟,消除文本实体的歧义性,提高文本结构化表示精度,是社交网络数据语义关联搜索领域面临的重要现实问题。
[0034] 下面将结合本发明实施例图中的附图,对本发明实施方式进行详细说明。
[0035] 请参阅图1,在一个实施例中,本申请实施例提供了一种面向社交网络数据的语义搜索方法,包括如下处理步骤S12至S18:
[0036] S12,获取输入的原查询语句;
[0037] S14,在预训练扩展后的社交网络数据语料库中,利用知识图谱对原查询语句进行动态查询语义扩展;
[0038] S16,根据查询语句的上下文存在情况,在社交网络数据语料库中基于知识图谱对动态查询语义扩展的结果进行歧义消除,得到消歧后的语料库扩展语句;
[0039] S18,将消歧后的语料库扩展语句和原查询语句输入RoBERTa预训练模型进行相似度对比,输出相似度最大的语料库扩展语句对应的语料库原语句作为原查询语句的语义搜索结果;RoBERTa预训练模型基于社交网络数据语料库预训练得到。
[0040] 上述面向社交网络数据的语义搜索方法,通过运用知识图谱显式扩展查询语句的语义,同时使用知识图谱扩展语料库中语义,使双向显式语义相似度更高,同时设计语义消歧处理,使用RoBERTa预训练模型进行文本表示的微调,隐式拓展查询语句与语料库中社交网络数据的语义,将语义相关的社交网络数据与查询语句间相似度尽可能提升到最大,同时尽可能降低无关社交网络数据的相似度,解决由于语言的歧义性和隐式相关性带来的社交网络数据搜索准确率极低的问题,达到了大幅提高社交网络数据的语义搜索准确率的效果。
[0041] 在一个实施例中,进一步的,关于上述的步骤S14,利用预训练补全知识图谱与扩展社交网络预料数据后,具体可以包括如下处理:
[0042] 识别原查询语句中的实体,通过知识图谱查询实体的对象属性和数据属性;
[0043] 将实体的对象属性和数据属性插入原查询语句的语义断句之后,得到动态查询语义扩展的结果。
[0044] 具体的,利用知识图谱语义扩展是知识图谱生成的逆向过程,利用前期知识图谱构建基础可以进行语料库中语句语义与查询语句等语义的扩展,通过识别语句中实体,利用知识图谱查询该实体所具有的对象属性与数据属性信息,再将这些属性信息插入原语句,即可完成相应的语义扩展,具体语义扩展的过程如下图2所示。
[0045] 例如语句“#武汉至十堰高铁于2021年开通,两地行程由原来的5小时缩短为2小时”,经过实体识别可识别出【武汉】和【十堰】等两个实体,并利用知识图谱进行属性查询,得到“武汉是湖北省省会……”、“十堰是湖北省一个地级市,著名地点为武当山……”等属性语句,将查询得到的属性语句插入原句语义断句之后,可以构成“#武汉至十堰高铁于2021年开通,武汉是湖北省省会……,十堰是湖北省一个地级市,著名地点为武当山……,两地行程由原来的5小时缩短为2小时”动态查询语义扩展的结果,也称消歧之前的扩展语句,以增加其中语义信息。当用户搜索“湖北省高铁建设”(即查询语句)时,可同样将该查询语句经过拓展,得到“湖北省高铁建设,湖北省的地级市有武汉市,十堰市等……”,实现将两个显式不相关的地名通过语义扩展使其相似度显著提高,减少该话题搜索匹配到其它省份城市高铁建设的误匹配情况出现。
[0046] 在一个实施例中,进一步的,关于上述的步骤S12之前,还可以包括如下处理步骤:
[0047] 在系统预处理阶段,对社交网络数据语料库中的数据利用知识图谱进行补全并进行语义扩展,得到预训练扩展后的社交网络数据语料库并将社交网络数据语料库中的原数据与扩展后的数据对应存储。
[0048] 可以理解,利用知识图谱对语料库数据进行语义扩展时,扩展方式同查询语句的扩展方式。为了提高搜索效率,语料库数据可以在系统中预处理阶段进行拓展并保留拓展后副本。
[0049] 而对于查询语句的处理,可以在用户输入时实时进行扩展,并将扩展后的语句输入后续模型以进行进一步处理。扩展语句扩展还存在权重分配不均的问题,即输入“WH市”拓展为“WH市是HB省的省会……”时,输入模型中【WH】与【HB】的权重相同,也会导致搜索结果的偏差,搜到与WH不相关的HB其它地域信息,故输入模型时需将输入本体作为单独语句,与扩展语句一同输入,增加其原句权重,该方式可以减小后续文本表示的误匹配率。
[0050] 在一个实施例中,关于上述的步骤S16,具体可以包括如下处理步骤:
[0051] 确定原查询语句没有上下文;
[0052] 获取动态查询语义扩展的结果中所有实体的歧义权重排序结果;
[0053] 选取歧义权重排序结果中歧义权重最大的实体作为扩展语句中使用的扩展实体,得到消歧后的语料库扩展语句。
[0054] 可以理解,歧义消除为利用知识图谱扩展过程中的最大难点,语言的歧义性是导致搜索错误的关键,也是知识图谱扩展的最大障碍,例如只输入“苹果”,在没有上下文的情况下并不能判断其是蔷薇科苹果属果实,还是科技公司苹果。但在有上下文的情况则可以进行判断。因此,可以分为两方面讨论,其一是:知识图谱部分在无法通过上下文判断时,在知识图谱的实体间增加歧义权重变量,即为该实体在歧义关系集合里的使用频率,构建的基础为本领域现有的ownthink开源知识图谱中的实体的歧义权重属性,该属性已总结前期各歧义实体的权重关系,总体上符合认知观念,在搜索过程中根据用户输入更改其中各个实体的歧义关系权重,优化后续匹配准确度,在无法判断时通过歧义权重排序,权重最大的实体用来进行拓展,具体过程如图3所示,有效实现输入为仅实体情况下的语义扩展,输入仅为实体拓展后得到的结果为:“苹果,苹果是蔷薇科苹果亚科苹果属植物,平安果、智慧果……所属界为……亚纲为……”。
[0055] 在一个实施例中,关于上述的步骤S16,具体还可以包括如下处理步骤:
[0056] 确定原查询语句有上下文;
[0057] 将动态查询语义扩展的结果中歧义实体与歧义实体相应的所有实体描述属性拼接,得到歧义实体对应的各拼接语句;
[0058] 将查询语句与所有的拼接语句输入RoBERTa预训练模型,分别对比查询语句的向量与各拼接语句的向量的相似度,按相似度从高到低的顺序对各拼接语句进行排序;
[0059] 将相似度排序最前的拼接语句作为使用的扩展实体,得到消歧后的语料库扩展语句。
[0060] 可以理解,其二是:在用户输入为具有上下文关联的查询语句时,知识图谱部分使用实体描述属性desc(基础知识图谱中每个实体均有该属性),该属性在知识图谱中用作实体的描述语句;将歧义实体的所有desc与其实体本身拼接,构成若干语句并使用RoBERTa模型输出tensor(向量)与原输入语句经过模型的tensor对比,这也就是计算模型相似度,通过相似度排序,排名靠前的歧义实体作为该输入语句的实体拓展,具体过程如图4所示,输入语句为“苹果的手机不错”,为有上下午的实体输入,其实体为“苹果”,经歧义查询和实体拼接处理后,输出为“苹果的手机不错,苹果公司是M国一家高科技公司”,有效实现输入具有上下文情况下的语义扩展。
[0061] 经过上述过程,可避免歧义实体造成的拓展错误,导致语句语义与实际语义更加偏离而造成的匹配准确度降低的情况出现,根据输入类型判断消歧方式并返回确定意义实体,为知识图谱扩展算法消除可能存在的歧义实体关系。
[0062] 在一个实施例中,RoBERTa预训练模型的训练获取过程,包括:
[0063] 将社交网络数据语料库输入RoBERTa模型,采用负采样的方式进行预训练;
[0064] 对计算损失函数时,根据设置的梯度累计和模型损失函数计算损失规范;模型损失函数为基于Margin loss函数与模型复杂度的损失函数;
[0065] 根据损失规范反向传播计算梯度,根据计算的梯度更新RoBERTa模型的网络参数;
[0066] 当预训练轮数达到设定轮数时,存储RoBERTa模型的网络参数并保持RoBERTa模型输出的各语义文本的向量,完成训练并得到RoBERTa预训练模型。
[0067] 可以理解,将前期处理好的数据输入RoBERTa模型以进行微调,使其更适应社交网络数据的语义模式,将预训练模型的效果发挥到最大。Margin Loss函数被用于本文的语料库文本预测任务中,目的是为了预测输入样本与标签的相对距离,该任务也被称作度量学习。本文中定义的Margin loss函数,首先需要定义度量文本经过RoBERTa模型输出的向量cls tensor相似度的函数,在本文中采用点乘相似度的方式。
[0068] 进一步的,RoBERTa预训练模型的相似度函数为:
[0069]
[0070] 其中, 表示模型的第i个输入文本, 表示第i个输入文本对应的标签,标签为该输入文本的主题标注,n表示输入文本的数量。在文本匹配方面,模型训练中采用负采样的方式生成正负样本,设置会用到正样本对和负样本对的训练集,正样本对包含标签和标签对应的文本数据,标签和文本数据相似。而负样本对则由标签和负样本组成,在度量中负样本和标签不相似。
[0071] 本文负样本对的生成为随机在语料库中再取一条文本数据与标签形成负样本对。对于正样本对,目标是学习正样本对的表达,使正样本对的文本及文本对应的标签之间的距离D越小越好。而对于负样本对,则要求负样本与标签之间的距离D超过一个设定边距,定义表征距离 正样本得分, 负样本得分分别如下:
[0072]
[0073]
[0074] 其中,x_cls为文本数据经RoBERTa模型输出cls向量,y_cls为文本对应标签经RoBERTa模型输出cls向量,x_neg_cls为负样本对应cls向量。
[0075] 进一步的,定义Margin loss函数为:
[0076]
[0077] 当文本和标签相似度高时,正样本得分 应该较高,而负样本得分需要降低,需要扩大 与 的差值,使模型更为精
确,而margin是当正负样本对产生的得分 足够远时,不会再将模型训练的精力浪费在扩大该距离上,logsigmoid函数作用即为平滑得分差值超出margin部分的loss波动,其函数如下:
[0078]
[0079] 其中, 表示对于负样本对的设定边距, 表示正样本得分,表示负样本得分,x表示输入文本。
[0080] 而正则化部分loss2为模型复杂度的平方,用来进行正则惩罚项,防止模型过拟合,则最终损失函数loss=Marginloss+loss2,以此损失函数将语料库数据输入模型训练微调。
[0081] 在训练模型的神经网络时,超参数 的大小会对最终的模型效果产生很大的影响。一定条件下,超参数 设置的越大,模型就会越稳定;梯度累积即为在一个批batch里梯度不清空,不断累加,累加一定次数后,根据累加的梯度更新模型的网络参数,然后清空梯度,进行下一次循环,从而变相增加超参数 ,增加模型稳定性,解决显存不足的问题。在本实验中,设置较大梯度累计 ,在计算loss
时计算损失规范:
[0082]
[0083] 再根据损失规范loss反向传播,计算梯度,根据梯度更新模型的网络参数,从而完成了一轮的训练。当模型训练轮数达到设定轮数(可以根据实际需要设定)时存储模型的网络参数,并保存使用模型输出各语义文本的向量tensor,作为文本相似度匹配依据。
[0084] 应该理解的是,虽然图1至图4程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图1至图4的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0085] 请参阅图5,在一个实施例中,提供一种面向社交网络数据的语义搜索装置100,包括查询获取模块11、语义扩展模块12、歧义消除模块13和搜索输出模块14。其中,查询获取模块11用于获取输入的原查询语句。语义扩展模块12用于在预训练扩展后的社交网络数据语料库中,利用知识图谱对原查询语句进行动态查询语义扩展。歧义消除模块13用于根据查询语句的上下文存在情况,在社交网络数据语料库中基于知识图谱对动态查询语义扩展的结果进行歧义消除,得到消歧后的语料库扩展语句。搜索输出模块14用于将消歧后的语料库扩展语句和原查询语句输入RoBERTa预训练模型进行相似度对比,输出相似度最大的语料库扩展语句对应的语料库原语句作为原查询语句的语义搜索结果;RoBERTa预训练模型基于社交网络数据语料库预训练得到。
[0086] 上述面向社交网络数据的语义搜索装置100,通过各模块的协作,运用知识图谱显式扩展查询语句的语义,同时使用知识图谱扩展语料库中语义,使双向显式语义相似度更高,同时设计语义消歧处理,使用RoBERTa预训练模型进行文本表示的微调,隐式拓展查询语句与语料库中社交网络数据的语义,将语义相关的社交网络数据与查询语句间相似度尽可能提升到最大,同时尽可能降低无关社交网络数据的相似度,解决由于语言的歧义性和隐式相关性带来的社交网络数据搜索准确率极低的问题,达到了大幅提高社交网络数据的语义搜索准确率的效果。
[0087] 在一个实施例中,上述的语义扩展模块12可以包括:属性查询子模块用于识别原查询语句中的实体,通过知识图谱查询实体的对象属性和数据属性;属性插入子模块用于将实体的对象属性和数据属性插入原查询语句的语义断句之后,动态查询语义扩展的结果。
[0088] 关于面向社交网络数据的语义搜索装置100的具体限定,可以参见上文中面向社交网络数据的语义搜索方法的相应限定,在此不再赘述。上述面向社交网络数据的语义搜索装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述设备可以是但不限于本领域已有的各型数据处理设备。
[0089] 在一个实施例中,还提供一种数据处理设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如下处理步骤:获取输入的原查询语句;在预训练扩展后的社交网络数据语料库中,利用知识图谱对原查询语句进行动态查询语义扩展;根据查询语句的上下文存在情况,在社交网络数据语料库中基于知识图谱对动态查询语义扩展的结果进行歧义消除,得到消歧后的语料库扩展语句;将消歧后的语料库扩展语句和原查询语句输入RoBERTa预训练模型进行相似度对比,输出相似度最大的语料库扩展语句对应的语料库原语句作为原查询语句的语义搜索结果;RoBERTa预训练模型基于社交网络数据语料库预训练得到。
[0090] 可以理解,上述数据处理设备除上述述及的存储器和处理器外,还包括其他本说明书未列出的软硬件组成部分,具体可以根据不同应用场景下的具体数据处理设备的型号确定,本说明书不再一一列出详述。
[0091] 在一个实施例中,处理器执行计算机程序时还可以实现上述面向社交网络数据的语义搜索方法各实施例中增加的步骤或者子步骤。
[0092] 在一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如下处理步骤:获取输入的原查询语句;在预训练扩展后的社交网络数据语料库中,利用知识图谱对原查询语句进行动态查询语义扩展;根据查询语句的上下文存在情况,在社交网络数据语料库中基于知识图谱对动态查询语义扩展的结果进行歧义消除,得到消歧后的语料库扩展语句;将消歧后的语料库扩展语句和原查询语句输入RoBERTa预训练模型进行相似度对比,输出相似度最大的语料库扩展语句对应的语料库原语句作为原查询语句的语义搜索结果;RoBERTa预训练模型基于社交网络数据语料库预训练得到。
[0093] 在一个实施例中,计算机程序被处理器执行时,还可以实现上述面向社交网络数据的语义搜索方法各实施例中增加的步骤或者子步骤。
[0094] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
[0095] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0096] 以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。