基于语义相似模型的标签生成方法、系统、装置和介质转让专利

申请号 : CN202210356249.0

文献号 : CN114443850B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 周泽伟杨红飞程东

申请人 : 杭州费尔斯通科技有限公司

摘要 :

本申请涉及一种基于语义相似模型的标签生成方法、系统、装置和介质,其中,该方法包括:将待标注文本进行分词得到若干文本词汇,并计算其词向量;对文本词汇进行层次聚类,得到预设个数的词簇集合;根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签,通过本申请,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。

权利要求 :

1.一种基于语义相似模型的标签生成方法,其特征在于,所述方法包括:将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;

初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;

根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;

通过算法公式 |:1~L从所述词向量中计算出

各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的中心点向量,Vl为所述词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数;Min表示取最小值;

通过算法公式 计算出所

述核心语义关键词与预设标签列表中标签分类词的相似距离,其中,Vk为所述待标注文本中第k个核心语义关键词的词向量,V_LABEL_j为预设标签列表中第j个标签分类词的词向量,Wi为词向量第i维的数值,N为词向量的维度,K为所述核心语义关键词的个数;

依次判断所述相似距离是否小于预设阈值,若是,则将所述相似距离对应的标签分类词与所述待标注文本关联,根据所述标签分类词生成所述待标注文本的标签。

2.根据权利要求1所述的方法,其特征在于,根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量包括:通过算法公式 计算出所述词簇集合的中心点向量

V_CENTER,其中,Vi为所述词簇集合中第i个文本词汇的词向量,Wj为词向量第j维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数。

3.根据权利要求1所述的方法,其特征在于,将待标注文本进行分词,得到若干文本词汇包括:通过预设分词工具对待标注文本进行分词,得到若干文本词汇,其中,所述预设分词工具包括THULAC分词工具和jieba分词工具。

4.根据权利要求1所述的方法,其特征在于,计算所述文本词汇的词向量包括:通过预设词嵌入算法计算所述文本词汇的词向量,其中,所述词嵌入算法包括Word2Vec算法和BERT算法。

5.一种基于语义相似模型的标签生成系统,其特征在于,所述系统包括分词嵌入模块、层次聚类模块、关键词模块和标签生成模块;

所述分词嵌入模块用于将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;

所述层次聚类模块用于初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;

所述关键词模块用于根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;通过算法公式 |:1~L从所述词向量中计算出各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的中心点向量,Vl为所述词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数;Min表示取最小值;

所述标签生成模块用于通过算法公式

计算出所述核心语义关键词与预设标签列表中标签分类词的相似距离,其中,Vk为所述待标注文本中第k个核心语义关键词的词向量,V_LABEL_j为预设标签列表中第j个标签分类词的词向量,Wi为词向量第i维的数值,N为词向量的维度,K为所述核心语义关键词的个数;

依次判断所述相似距离是否小于预设阈值,若是,则将所述相似距离对应的标签分类词与所述待标注文本关联,根据所述标签分类词生成所述待标注文本的标签。

6.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至4中任一项所述的基于语义相似模型的标签生成方法。

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的基于语义相似模型的标签生成方法。

说明书 :

基于语义相似模型的标签生成方法、系统、装置和介质

技术领域

[0001] 本申请涉及自然语言处理领域,特别是涉及一种基于语义相似模型的标签生成方法、系统、装置和介质。

背景技术

[0002] 文本标签生成技术主要是应用于文本分类或者为文本打上相应的标签,该技术的实现一般基于关键词规则匹配与机器学习模型。
[0003] 目前,一般关键词规则匹配使用范围窄,可扩展性差;同时,一般机器学习模型的标签生成准确率与模型预测时间需要平衡,以及需要考虑到使用范围的扩展性。本发明的目的是解决上述两个问题,本发明平衡了标签生成的准确率与模型预测时间,具有使用范围广,可扩展性强的特点。
[0004] 目前针对相关技术中文本标签生成不灵活、可扩展性差的问题,尚未提出有效的解决方案。

发明内容

[0005] 本申请实施例提供了一种基于语义相似模型的标签生成方法、系统、装置和介质,以至少解决相关技术中文本标签生成不灵活、可扩展性差的问题。
[0006] 第一方面,本申请实施例提供了一种基于语义相似模型的标签生成方法,所述方法包括:
[0007] 将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;
[0008] 初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;
[0009] 根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;
[0010] 根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词;
[0011] 分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成所述待标注文本的标签。
[0012] 在其中一些实施例中,根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词包括:
[0013] 通过算法公式 从所述词向量中计算出各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的中心点向量,Vl为所述词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数;Min表示取最小值。
[0014] 在其中一些实施例中,根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量包括:
[0015] 通过算法公式 计算出所述词簇集合的中心点向量V_CENTER,其中,Vi为所述词簇集合中第i个文本词汇的词向量,Wj为词向量第j维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数。
[0016] 在其中一些实施例中,分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离包括:
[0017] 通过算法公式 计算出所述核心语义关键词与预设标签列表中标签分类词的相似距离,其中,Vk为所述待标注文本中第k个核心语义关键词的词向量,V_LABEL_j为预设标签列表中第j个标签分类词的词向量,Wi为词向量第i维的数值,N为词向量的维度,K为所述核心语义关键词的个数。
[0018] 在其中一些实施例中,生成所述待标注文本的标签包括:
[0019] 依次判断所述相似距离是否小于预设阈值,若是,则将所述相似距离对应的标签分类词与所述待标注文本关联,根据所述标签分类词生成所述待标注文本的标签。
[0020] 在其中一些实施例中,将待标注文本进行分词,得到若干文本词汇包括:
[0021] 通过预设分词工具对待标注文本进行分词,得到若干文本词汇,其中,所述预设分词工具包括THULAC分词工具和jieba分词工具。
[0022] 在其中一些实施例中,计算所述文本词汇的词向量包括:
[0023] 通过预设词嵌入算法计算所述文本词汇的词向量,其中,所述词嵌入算法包括Word2Vec算法和BERT算法。
[0024] 第二方面,本申请实施例提供了一种基于语义相似模型的标签生成系统,所述系统包括分词嵌入模块、层次聚类模块、关键词模块和标签生成模块;
[0025] 所述分词嵌入模块用于将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;
[0026] 所述层次聚类模块用于初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;
[0027] 所述关键词模块用于根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词;
[0028] 所述标签生成模块用于分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成所述待标注文本的标签。
[0029] 第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于语义相似模型的标签生成方法。
[0030] 第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第二方面所述的基于语义相似模型的标签生成方法。
[0031] 相比于相关技术,本申请实施例提供的一种基于语义相似模型的标签生成方法、系统、装置和介质,通过将待标注文本进行分词,得到若干文本词汇,计算文本词汇的词向量;初始化设置文本词汇为若干初始集合,根据文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将初始集合和词簇集合进行聚类合并,直至得到预设个数的词簇集合;根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。

附图说明

[0032] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0033] 图1是根据本申请实施例的基于语义相似模型的标签生成方法的步骤流程图;
[0034] 图2是根据本申请实施例的基于语义相似模型的标签生成系统的结构框图;
[0035] 图3是根据本申请实施例的电子设备的内部结构示意图。
[0036] 附图说明:21、分词嵌入模块;22、层次聚类模块;23、关键词模块;24、标签生成模块。

具体实施方式

[0037] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0038] 显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0039] 在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
[0040] 除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
[0041] 本申请实施例提供了一种基于语义相似模型的标签生成方法,图1是根据本申请实施例的基于语义相似模型的标签生成方法的步骤流程图,如图1所示,该方法包括以下步骤:
[0042] 步骤S102,将待标注文本进行分词,得到若干文本词汇,计算文本词汇的词向量;
[0043] 具体地,通过预设分词工具对待标注文本进行分词,得到若干文本词汇,通过预设词嵌入算法计算文本词汇的词向量,其中,预设分词工具包括但不限于THULAC分词工具和jieba分词工具;词嵌入算法包括但不限于Word2Vec算法和BERT算法。
[0044] 优选地,假设输入待标注文本“原神一起去新天地冒险吧立即下载原神”,采用分词工具(如THULAC、jieba分词、哈工大的LTP等)得到若干文本词汇“原神|一起|去|新天地|冒险|吧|立即|下载|原神”,再通过词嵌入算法(如Bert、word2vec等)得到各个文本词汇的词向量如下:
[0045] 原神:[0.42469802 0.08802186 0.2853215 ‑0.48638964 ‑0.6230728 ‑0.7047746 0.4945337 1.2566687 ‑0.17913796 ‑0.42369118 0.4977282 ‑0.33415303 
1.2347499 1.1930337 0.51374805 0.91994804 ‑0.70886075 ‑0.4691273 ‑1.1471336 ‑
0.5088495 ‑0.31905976 ‑1.4938208 ‑0.09018043 ‑0.10618938 0.11279639 
0.22211814 0.45901206 ‑0.38901812 ‑0.42876673 ‑2.3228853 0.37945002 
0.58088416];
[0046] 一起:[‑1.6414598 0.95705235 0.6393121 1.0176244 0.2746066 0.9978276‑4.226699 2.334568 1.5408924 ‑3.2934742 0.52857864 ‑0.64769465‑7.593346 
1.2912569 ‑0.28171125 ‑3.8727374 ‑0.90557116 1.7110124 0.39683253 ‑6.41093 
0.2341823 ‑4.8999124 ‑0.47043678 ‑0.16697234 ‑1.4693865 ‑2.3039536 ‑
0.42026693 4.329778 0.88015056 ‑2.0734687 2.6402948 ‑0.4511141];
[0047] 去:[‑1.9031266 ‑2.8371859 0.27924415 ‑1.8986939 1.1484644 2.595208‑4.679209 1.324284 2.0293486 ‑3.4399495 ‑1.4304163 1.3717887 ‑8.982302 
0.21778306 ‑3.1690974 ‑2.4770646 1.503651 2.7916336 0.6282288 ‑3.7816656 ‑
1.3105294 0.42651665 ‑2.405412 ‑1.1926383 0.5475887 ‑3.5449975 ‑1.2047628 
1.9605174 0.13223659 ‑2.9669445 2.6410055 ‑0.33723852];
[0048] 新天地:[‑0.11872965 0.08149788 ‑1.4408684 ‑0.49612924 1.4673253 ‑3.2387486 2.5427182 0.708592 ‑2.1570175 0.5203028 ‑3.6954303 2.7719023 
0.93770796 ‑1.1167578 ‑0.04272039 ‑1.397443 0.50132596 3.9892418 0.5339715 ‑
1.6080734 4.18693 ‑0.19431356 ‑1.0330347 1.5391058 2.3048 ‑0.71662915 
1.8508694 0.04112947 ‑4.822595 ‑3.6738183 1.103161 2.2785928];
[0049] 冒险:[‑2.0396042 ‑2.619467 1.511167 ‑3.985392 0.18290085 ‑2.2843277 ‑2.566535 4.820677 ‑0.60243106 ‑2.2032661 0.54757905 0.34254843 0.23628 
3.420111 1.4944948 ‑3.7414339 ‑2.6000648 0.11651406 ‑2.2757022 ‑4.1689396 ‑
1.8402563 ‑5.1943555 2.5105536 1.4131982 ‑1.3853991 0.5027256 ‑2.6252513 ‑
0.82116073 ‑1.8567455 ‑6.994954 ‑0.41701564‑1.4369024];
[0050] 吧:[‑0.7010415 2.3374808 ‑0.75740755 ‑4.304561 3.7331634 0.9798‑2.2633524 3.70071 ‑0.7744246 ‑4.2464714 1.3874322 1.9157615 ‑6.2738094 
0.91235054 ‑3.7836652 ‑0.8385296 ‑0.43506786 2.7735174‑2.1208959 ‑5.402918 
1.6570529 ‑3.0840173 ‑0.7582686 3.6905906‑2.8092256 ‑0.90222824 ‑3.0004568 
6.304934 0.9695382 ‑6.7215877 4.216572 1.1971864];
[0051] 立即:[‑3.2336922 1.9255701 ‑1.4932973 0.13945788 2.8103013 7.9426985 ‑1.6662611 ‑0.06120035 1.6888058 ‑4.272214 ‑0.16207987 2.6777744 ‑6.1523423 1.437423 ‑1.3304111 ‑3.8970494 2.3074832 0.2220719 0.32177252 1.1643796 ‑
1.2075183 ‑1.03807 ‑2.330601‑1.912265 0.5221586 ‑1.0981721 1.5967995 
0.8107143 0.38152733 ‑1.220039 2.5726552 ‑2.0123644];
[0052] 下载:[‑0.85923624 ‑0.371434 4.2333846 ‑0.395695332.7654943 ‑3.7123337 ‑1.0066513 ‑1.6060812 4.1668854‑2.696111 0.16108409 9.821048 0.4621276 2.3589056 ‑0.10650773 ‑0.9778401 0.42995185 0.6406851‑9.512161 1.0247332 ‑
3.1859524 ‑5.0010366 ‑4.739097 0.31711522 ‑3.0012915 1.5234387 ‑0.7456441 ‑
2.8500197 ‑1.4898897 ‑6.9807925 ‑3.1814556 1.6959637]。
[0053] 步骤S104,初始化设置文本词汇为若干初始集合,根据文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将初始集合和词簇集合进行聚类合并,直至得到预设个数的词簇集合;
[0054] 优选地,利用层次聚类方法思想,初始化设置N维空间的每个文本词汇为M个初始集合(如上述步骤S102优选中待标注文本的文本词汇是32维的、有9个,即N=32、M=9);然后搜寻距离最近的2个初始集合合并成1个集合;接着继续搜寻距离最近的2个集合合并成1个集合;如此反复执行上述合并步骤,直到最后形成的词簇集合的个数满足预设个数K。
[0055] 以上述步骤S102的优选为例,设定K=2,经过步骤S104的层次聚类,得到两个词簇集合,分别为:
[0056] 词簇集合1:[原神冒险立即下载];
[0057] 词簇集合2:[一起去新天地吧]。
[0058] 步骤S106,根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;
[0059] 具体地,通过算法公式 计算出词簇集合的中心点向量V_CENTER,其中,Vi为词簇集合中第i个文本词汇的词向量,Wj为词向量第j维的数值,N为词向量的维度,L为词簇集合中的文本词汇个数。
[0060] 步骤S108,根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;
[0061] 具体地,通过算法公式 从词向量中计算出各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的中心点向量,Vl为词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词向量的维度,L为词簇集合中的文本词汇个数;Min表示取最小值。
[0062] 优选地,以上述步骤S104的优选为例,经过步骤S106的计算得出两个词簇的中心点向量,再通过步骤S108计算得出:
[0063] 词簇集合1的核心语义关键词:原神;
[0064] 词簇集合2的核心语义关键词:新天地。
[0065] 步骤S110,分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签。
[0066] 具体地,通过算法公式 计算出核心语义关键词与预设标签列表中标签分类词的相似距离,其中,V为待标注文本中第k个核心语义关键词的词向量,V_LABEL_j为预设标签列表中第j个标签分类词的词向量,Wi为词向量第i维的数值,N为词向量的维度,K为核心语义关键词的个数;再生成待标注文本的标签。
[0067] 优选地,以上述步骤S108的优选为例,假设预设标签列表中的标签分类词为游戏和教育,采用词嵌入算法计算出两者的词向量:
[0068] 游戏:[‑2.7808518 0.41961846‑0.54264456 0.02211485‑0.04979197 ‑1.6513786‑3.9122758 0.67012274 1.2189704 ‑1.2941105 3.95616 5.886044 
1.7551677 3.7951279 2.6051126 ‑5.7468834 ‑2.6039023 0.43394396 ‑7.2831016 ‑
1.9458483 ‑1.4982023 ‑8.956041 3.0637383 ‑0.577928 ‑2.349997 1.7055703 ‑
3.1995888 1.6963526 ‑4.9452863 ‑7.1323557 1.1273681 ‑0.5466683];
[0069] 教育:[‑0.02953097 ‑2.1173713 ‑0.7003877 4.9582105 ‑1.8854314 ‑1.7531995‑3.2873142 ‑0.5889249 ‑1.7152025 1.2804587 ‑5.692385 7.520673‑
1.4028773 ‑1.817927 ‑1.173675 ‑3.4589016 2.4559987 ‑0.7553403 0.2188847 ‑
5.4087954 ‑2.4403467 0.22940844 2.2926576 0.90357417 1.6975635 2.2723484 
0.36912856 0.4831917 ‑1.6271886 ‑0.87233615 0.5711816 ‑2.8528566];
[0070] 再通过步骤S110计算出核心语义关键词(原神、新天地)与标签分类词(游戏)的相似距离为19.93;计算出核心语义关键词(原神、新天地)与标签分类词(教育)的相似距离为7469112。
[0071] 最后,依次判断相似距离是否小于预设阈值,若是,则将相似距离对应的标签分类词与待标注文本关联,根据标签分类词生成待标注文本的标签,如相似距离19.93小于预设阈值,则为待标注文本“原神一起去新天地冒险吧立即下载原神”生成标签:“游戏”。
[0072] 通过本申请实施例中的步骤S102至步骤S110,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。
[0073] 需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0074] 本申请实施例提供了一种基于语义相似模型的标签生成系统,图2是根据本申请实施例的基于语义相似模型的标签生成系统的结构框图,如图2所示,系统包括分词嵌入模块21、层次聚类模块22、关键词模块23和标签生成模块24;
[0075] 分词嵌入模块21用于将待标注文本进行分词,得到若干文本词汇,计算文本词汇的词向量;
[0076] 层次聚类模块22用于初始化设置文本词汇为若干初始集合,根据文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将初始集合和词簇集合进行聚类合并,直至得到预设个数的词簇集合;
[0077] 关键词模块23用于根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;
[0078] 标签生成模块24用于分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签。
[0079] 通过本申请实施例中的分词嵌入模块21、层次聚类模块22、关键词模块23和标签生成模块24,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。
[0080] 需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
[0081] 本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0082] 可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0083] 需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0084] 另外,结合上述实施例中的基于语义相似模型的标签生成方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于语义相似模型的标签生成方法。
[0085] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语义相似模型的标签生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0086] 在一个实施例中,图3是根据本申请实施例的电子设备的内部结构示意图,如图3所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图3所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种基于语义相似模型的标签生成方法,数据库用于存储数据。
[0087] 本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0088] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0089] 本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0090] 以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。