文本侵权检测方法、装置和电子设备转让专利
申请号 : CN202111222905.X
文献号 : CN113673216B
文献日 : 2022-02-01
发明人 : 黄凯明 , 李泽昌 , 徐军 , 张伟 , 张晓博 , 杨磊
申请人 : 支付宝(杭州)信息技术有限公司
摘要 :
权利要求 :
1.一种文本侵权检测方法,所述方法包括:从待检测的目标文本中提取关键句子,并将所述关键句子输入句子相似检测模型;所述句子相似检测模型包括作为特征提取层的语言模型对,以及分类层;所述分类层用于确定所述语言模型对中的语言模型输出的句子向量是否相似;所述语言模型对中的语言模型之间共享模型参数;所述句子相似检测模型基于被标注了相似标签的句子对样本训练得到;
获取所述语言模型对中的任一语言模型输出的与所述关键句子对应的关键句子向量;
计算所述关键句子向量和原创句子向量之间的向量相似度,并基于所述向量相似度,确定与所述关键句子相似的候选句子;其中,所述原创句子向量包括对预设的原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量;
基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文本相似度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所述目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候选文本的侵权细节,发布至区块链进行存证。
2.根据权利要求1所述的方法,所述从待检测的目标文本中提取关键句子,包括:对待检测的目标文本进行分句处理,得到与所述目标文本对应的目标句子;
对所述目标句子分进行打分处理,得到与所述目标句子对应的句子评分;
从所述目标句子中提取出所述句子评分最高的预设的第一数量的目标句子,作为关键句子;或者,从所述目标句子中提取出所述句子评分大于预设的第一阈值的目标句子,作为关键句子。
3.根据权利要求2所述的方法,所述对所述目标句子分进行打分处理,包括:基于TextRank算法对所述目标句子进行打分处理;和/或,基于所述目标句子在所述目标文本中的位置,对所述目标句子进行打分处理;其中,对所述目标句子的评分的数值大小,与所述目标句子和所述目标文本的头部或尾部之间的距离成反比。
4.根据权利要求1所述的方法,所述语言模型中的编码器的数量小于标准数量。
5.根据权利要求1所述的方法,所述句子相似检测模型还包括池化层;所述池化层用于对所述语言模型输出的句子向量进行池化处理,并将池化后的句子向量输入所述分类层。
6.根据权利要求5所述的方法,所述句子相似检测模型还包括多层感知器;所述多层感知器用于对池化后的句子向量进行降维处理,并将降维后的句子向量输入所述分类层。
7.根据权利要求1所述的方法,所述方法还包括:从预设的原创文本中提取原创句子;
将所述原创句子输入所述句子相似检测模型,并获取所述语言模型对中的任一语言模型输出的与所述原创句子对应的句子向量,作为所述原创句子向量。
8.根据权利要求1所述的方法,所述向量相似度以向量之间的余弦相似度,或者向量之间的欧几里得距离表征。
9.根据权利要求1所述的方法,所述基于所述向量相似度,确定与所述关键句子相似的候选句子,包括:
确定和所述关键句子向量之间的所述向量相似度最高的预设的第二数量的原创句子向量,并将与确定出的原创句子向量对应的原创句子确定为与所述关键句子相似的候选句子;或者,
确定和所述关键句子向量之间的所述向量相似度大于预设的第二阈值的原创句子向量,并将与确定出的原创句子向量对应的原创句子确定为与所述关键句子相似的候选句子。
10.根据权利要求1所述的方法,所述基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文本相似度,包括:
将所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度映射为相似度评分;
计算与属于同一候选文本的候选句子对应的所述相似度评分之和,并将计算得到的和值确定为所述目标文本和所述候选文本之间的文本相似度。
11.根据权利要求10所述的方法,所述将所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度映射为相似度评分,包括:基于与所述关键句子向量对应的关键句子的长度,对所述关键句子进行打分处理,得到第一子评分;
基于所述候选句子在其所属的候选文本中的位置,对所述候选句子进行打分处理,得到第二子评分;
将所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,映射为第三子评分;
计算所述第一子评分、所述第二子评分和所述第三子评分的乘积,并将计算得到的乘积确定为相似度评分。
12.根据权利要求1所述的方法,所述基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,包括:确定和所述目标文本之间的所述文本相似度最高的预设的第三数量的候选文本,并确定所述目标文本为确定出的候选文本的侵权文本;或者,确定和所述目标文本之间的所述文本相似度大于预设的第三阈值的候选文本,并确定所述目标文本为确定出的候选文本的侵权文本。
13.根据权利要求1所述的方法,所述侵权细节还包括以下示出的一种或多种:所述关键句子;所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度;所述候选文本;所述目标文本与所述候选文本之间的文本相似度。
14.一种文本侵权检测装置,所述装置包括:提取模块,从待检测的目标文本中提取关键句子,并将所述关键句子输入句子相似检测模型;所述句子相似检测模型包括作为特征提取层的语言模型对,以及分类层;所述分类层用于确定所述语言模型对中的语言模型输出的句子向量是否相似;所述语言模型对中的语言模型之间共享模型参数;所述句子相似检测模型基于被标注了相似标签的句子对样本训练得到;以及,获取所述语言模型对中的任一语言模型输出的与所述关键句子对应的关键句子向量;
第一计算模块,计算所述关键句子向量和原创句子向量之间的向量相似度,并基于所述向量相似度,确定与所述关键句子相似的候选句子;其中,所述原创句子向量包括对预设的原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量;
第二计算模块,基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文本相似度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所述目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候选文本的侵权细节,发布至区块链进行存证。
15.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1至13中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1至13中任一项所述的方法。
说明书 :
文本侵权检测方法、装置和电子设备
技术领域
背景技术
信息内容通常以文本的形式在互联网上进行传播。但与此同时,针对原创文本的抄袭现象,
以及由此带来的文本侵权问题也层出不穷。在这种情况下,为了保障原创作者的权益,如何
进行文本侵权检测,并提高文本侵权检测的准确度,也就成为了亟待解决的问题。
发明内容
中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量;
所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所述目标文本
为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候选文本的侵
权细节,发布至区块链进行存证。
预设的原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量;
似度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所
述目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候
选文本的侵权细节,发布至区块链进行存证。
向量相似度,再基于计算得到的向量相似度,进一步计算该目标文本和各原创文本之间的
文本相似度,最后基于计算得到的文本相似度,确定该目标文本是否为各原创文本的侵权
文本,因此,实现了基于句子粒度的文本侵权检测,并且,通过句子向量之间的向量相似度
实现文本侵权检测,可以有效地解决语序调整、句式改动和同义词替换等文本侵权方式难
以被检测出来的问题。
附图说明
具体实施方式
中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相
反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相
一致的装置和方法的例子。
多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进
行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行
描述。
或MD5值等),再比较待检测的文本和原创文本的哈希值是否相同,如果是,则认为待检测的
文本构成原创文本的侵权文本。因此,这种检测机制只能检测出与原创文本的内容完全相
同的侵权文本。
(例如:SimHash值或MinHash值等),再比较待检测的文本和原创文本的哈希值是否相同或
仅有少部分不同,如果是,则认为待检测的文本构成原创文本的侵权文本。由于在文本内容
发生少部分改动的情况下,该文本的局部敏感哈希值不会发生变化或仅有少部分发生变
化,因此,这种检测机制可以检测出对原创文本进行少部分改动得到的侵权文本,但无法检
测出其他方式的侵权文本。
的文本构成原创文本的侵权文本。因此,采用语序调整、句式改动和同义词替换等文本侵权
方式,可以绕开这种检测方式,使得实质上已经构成侵权的文本无法被检测出来。
子对应的句子向量之间的向量相似度,确定该目标文本是否构成该原创文本的侵权文本的
技术方案。
与该关键句子对应的关键句子向量。
为原创句子向量)。
与上述若干关键句子相似的若干原创句子,这若干原创句子可以作为可能被侵权的候选句
子。
计算得到的该文本相似度,确定该目标文本是否为该候选文本的侵权文本。如果确定该目
标文本为该候选文本的侵权文本,则可以将属于该候选文本的候选句子,作为该目标文本
针对该候选文本的侵权细节,发布至区块链进行存证。
向量相似度,再基于计算得到的向量相似度,进一步计算该目标文本和各原创文本之间的
文本相似度,最后基于计算得到的文本相似度,确定该目标文本是否为各原创文本的侵权
文本,因此,实现了基于句子粒度的文本侵权检测,并且,通过句子向量之间的向量相似度
实现文本侵权检测,可以有效地解决语序调整、句式改动和同义词替换等文本侵权方式难
以被检测出来的问题。
子向量之间的向量相似度,确定该待检测的文本是否构成该原创文本的侵权文本。
以获取到该原创文本库中存储的原创文本。
片段;本说明书对此不作限制。
应的关键句子向量。
原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量。
为原创句子向量)。其中,这些原创文本可以包括从上述原创文本库中获取到的原创文本,
还可以包括由技术人员预先设置的文本;本说明书对此不作限制。
与上述若干关键句子相似的若干原创句子,这若干原创句子可以作为可能被侵权的候选句
子。
度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所述
目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候选
文本的侵权细节,发布至区块链进行存证。
计算得到的该文本相似度,确定该目标文本是否为该候选文本的侵权文本。如果确定该目
标文本为该候选文本的侵权文本,则可以将属于该候选文本的候选句子,作为该目标文本
针对该候选文本的侵权细节,发布至区块链进行存证。
之间的文本相似度、确定目标文本是否为候选文本的侵权文本的方面,对如图1所示的文本
侵权检测方法进行详细说明。
检测模型,计算与文本中的句子对应的句子向量。
数,也即,这两个语言模型的模型结构相同,并且模型参数也相同;以及,分类层。其中,该语
言模型对中两个语言模型都可以用于对输入的句子进行特征提取,得到与该句子对应的特
征向量(称为句子向量);该分类层可以用于确定该语言模型对中的两个语言模型分别输出
的句子向量是否相似。
述语言模型对中的一个语言模型,并将该句子对样本中的另一个句子输入该语言模型对中
的另一个语言模型,由该语言模型对中的两个语言模型输出与该句子对样本中的两个句子
对应的两个句子向量,并由上述分类层确定这两个句子向量是否相似,从而可以根据该分
类层的输出与为该句子对样本标注的相似标签之间的偏差,对该句子相似检测模型的模型
参数进行调整,直至该句子相似检测模型训练完成。
两个语言模型中的一部分编码器,以缩减这两个语言模型中的编码器的数量,也即,对于用
于计算与文本中的句子对应的句子向量的句子相似检测模型而言,该句子相似检测模型所
包含的语言模型中的编码器的数量小于标准数量(即保留了所有编码器的语言模型中的编
码器的数量)。
检测模型的计算速率。
池化层可以用于对上述语言模型对中的两个语言模型分别输出的句子向量进行池化处理,
并将池化后的两个句子向量输入上述分类层,由该分类层确定池化后的这两个句子向量是
否相似。
(Multilayer Perceptron,MLP)。其中,该多层感知器可以用于对该池化层输出的上述池化
后的两个句子向量进行降维处理,并将降维后的这两个句子向量输入上述分类层,由该分
类层确定降维后的这两个句子向量是否相似。
针对该原创文本中的较为关键的、被抄袭的可能性较大的部分,将对这部分进行分句处理
得到的句子提取出来,作为上述若干原创句子,其中,该原创文本中的较为关键的、被抄袭
的可能性较大的部分,可以由技术人员根据实际情况预先设置。
化整理,提高后续处理的效率。
中的任一语言模型输出的与该原创句子对应的原创句子向量。
征提取;或者,可以将该原创句子同时输入该语言模型对中的两个语言模型,由这两个语言
模型分别对该原创句子进行特征提取,由于这两个语言模型之间共享模型参数,因此,这两
个语言模型分别输出的与该原创句子对应的原创句子向量相同。
创句子向量11,将原创句子12输入该句子相似检测模型,以获取该语言模型输出的与原创
句子12对应的原创句子向量12。
句子21对应的原创句子向量21,将原创句子22输入该句子相似检测模型,以获取该语言模
型输出的与原创句子22对应的原创句子向量22,将原创句子23输入该句子相似检测模型,
以获取该语言模型输出的与原创句子23对应的原创句子向量23。
创句子向量31,将原创句子32输入该句子相似检测模型,以获取该语言模型输出的与原创
句子32对应的原创句子向量32。
子向量。
似度计算量,可以对各目标句子进行打分处理,得到与该目标句子对应的句子评分,在得到
与这若干目标句子分别对应的句子评分后,可以从这若干目标句子中提取出句子评分最高
的N个句子,作为上述若干关键句子;或者,可以从这若干目标句子中提取出句子评分大于
预设的阈值(称为第一阈值)的句子,作为上述若干关键句子,其中,N的数值可以由技术人
员根据实际需求预先设置,该第一阈值也可以由技术人员根据实际需求预先设置。
范化整理,提高后续处理的效率。
符的数量。
标句子在上述目标文本中的位置,对该目标句子进行打分处理,其中,对该目标句子的评分
的数值大小,与该目标句子和该目标文本的头部或尾部之间的距离成反比,即距离该目标
文本的头部或尾部越近,则评分越高,距离该目标文本的头部或尾部越远,则评分越低。
以将基于TextRank算法计算出的与该目标句子对应的关键度评分,作为与该目标句子对应
的句子评分。
个距离中的较短的距离,计算与该目标句子对应的句子评分。其中,该句子评分与该距离成
反比。例如,假设该目标文本总共包含100个字符,该目标句子本身包含10个字符,该目标句
子之前的字符的数量为20,该目标句子之后的字符的数量为70(10+20+70=100),则该目标
句子和该目标文本的头部之间的距离可以视为20/100=0.2,该目标句子和该目标文本的尾
部之间的距离可以视为70/100=0.7(0.7>0.2),在这种情况下,可以基于该目标句子和该
目标文本的头部之间的距离,计算与该句子对应的句子评分。
中的任一语言模型输出的与该关键句子对应的关键句子向量。
的任一语言模型输出的与关键句子1对应的关键句子向量1,将关键句子2输入该句子相似
检测模型进行计算,以获取该语言模型对中的任一语言模型输出的与关键句子2对应的关
键句子向量2。
似度,作为与该句子对对应的向量相似度。
创句子向量23、原创句子向量31、原创句子向量32之间的向量相似度,如表1所示:
句子对111 (关键句子向量1,原创句子向量11) 向量相似度111
句子对112 (关键句子向量1,原创句子向量12) 向量相似度112
句子对211 (关键句子向量2,原创句子向量11) 向量相似度211
句子对212 (关键句子向量2,原创句子向量12) 向量相似度212
句子对121 (关键句子向量1,原创句子向量21) 向量相似度121
句子对122 (关键句子向量1,原创句子向量22) 向量相似度122
句子对123 (关键句子向量1,原创句子向量23) 向量相似度123
句子对221 (关键句子向量2,原创句子向量21) 向量相似度221
句子对222 (关键句子向量2,原创句子向量22) 向量相似度222
句子对223 (关键句子向量2,原创句子向量23) 向量相似度223
句子对131 (关键句子向量1,原创句子向量31) 向量相似度131
句子对132 (关键句子向量1,原创句子向量32) 向量相似度132
句子对231 (关键句子向量2,原创句子向量31) 向量相似度231
句子对232 (关键句子向量2,原创句子向量32) 向量相似度232
句子相似的若干候选句子;或者,可以确定和上述若干关键句子之间的向量相似度大于预
设的阈值(称为第二阈值)的原创句子向量,并将与确定出的原创句子向量对应的原创句子
确定为与这若干关键句子相似的若干候选句子。其中,N的数值可以由技术人员根据实际需
求预先设置,该第二阈值也可以由技术人员根据实际需求预先设置。
似度212、向量相似度122、向量相似度222,则可以将与原创句子向量11对应的原创句子11、
与原创句子向量12对应的原创句子12、与原创句子向量22对应的原创句子22(向量相似度
122和向量相似度222均对应于原创句子向量22),确定为候选句子(下面称为候选句子11、
候选句子12、候选句子22)。
算上述目标文本和各候选文本之间的文本相似度。
分。进一步地,对于属于同一候选文本的候选句子而言,可以计算与分别包含这若干候选句
子的句子对对应的相似度评分之和,并将计算得到的和值确定为上述目标文本和该候选文
本之间的文本相似度。
122,将向量相似度222映射为相似度评分222;由于候选句子11和候选句子12属于原创文本
1(下面称为候选文本1),候选句子22属于原创文本2(下面称为候选文本2),因此,可以将相
似度评分111和相似度评分122之和确定为该目标文本和候选文本1之间的文本相似度1,将
相似度评分122和相似度评分222之和确定为该目标文本和候选文本2之间的文本相似度2。
度评分时,具体可以:基于与该关键句子向量对应的关键句子的长度,对该目标句子进行打
分处理,得到第一子评分;基于与该原创句子向量对应的原创句子在其所属的原创文本中
的位置,对该原创句子进行打分处理,得到第二子评分;将该关键句子向量和该原创句子向
量之间的向量相似度,映射为第三子评分。在这种情况下,可以计算该第一子评分、该第二
子评分和该第三子评分的乘积,并将计算得到的乘积确定为与该句子对对应的相似度评
分。
文本中的位置在1/3之内或在2/3之外,例如:在该句子所属的文本中,该句子之前的所有字
符在该文本中的占比小于或等于1/3,或者,该句子之后的所有字符在该文本中的占比小于
或等于1/3;sentence_location表示与该句子对应的第二子评分。
度;butterworth_filter表示与该向量相似度对应的第三子评分。
标文本之间的文本相似度大于预设的阈值(称为第三阈值)的候选文本,并确定该目标文本
为确定出的候选文本的侵权文本。其中,N的数值可以由技术人员根据实际需求预先设置,
该第三阈值也可以由技术人员根据实际需求预先设置。
选文本1的侵权文本。
据无法被随意篡改,因此可以保证文本侵权检测的真实性和可靠性,从而可以起到原创作
品保护的作用。例如,在确定了该目标文本是某一候选文本的侵权文本的情况下,可以属于
该候选文本的候选句子,作为该目标文本针对该候选文本的侵权细节,发布至区块链进行
存证。
侵权细节,发布至区块链进行存证。
述候选文本;上述目标文本和该候选文本之间的文本相似度。
向量相似度,再基于计算得到的向量相似度,进一步计算该目标文本和各原创文本之间的
文本相似度,最后基于计算得到的文本相似度,确定该目标文本是否为各原创文本的侵权
文本,因此,实现了基于句子粒度的文本侵权检测,并且,通过句子向量之间的向量相似度
实现文本侵权检测,可以有效地解决语序调整、句式改动和同义词替换等文本侵权方式难
以被检测出来的问题。
意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指
令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书文本侵权检测装置
所在电子设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存
储器之外,实施例中装置所在的电子设备通常根据该文本侵权检测的实际功能,还可以包
括其他硬件,对此不再赘述。
包括:
对预设的原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向
量;
本相似度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以
在所述目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所
述候选文本的侵权细节,发布至区块链进行存证。
说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以
不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的
需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不
付出创造性劳动的情况下,即可以理解并实施。
以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放
器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的
任意几种设备的组合。
示例。
计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动
态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除
可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、
数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的
存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的
信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),
如调制的数据信号和载波。
括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要
素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要
素的过程、方法、商品或者设备中还存在另外的相同要素。
执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺
序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可
以的或者可能是有利的。
中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表
示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出
项目的任何或所有可能组合。
分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第
二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如
果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。