文本侵权检测方法、装置和电子设备转让专利

申请号 : CN202111222905.X

文献号 : CN113673216B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄凯明李泽昌徐军张伟张晓博杨磊

申请人 : 支付宝(杭州)信息技术有限公司

摘要 :

一种文本侵权检测方法、装置和电子设备,该方法包括:从目标文本中提取关键句子,并对关键句子进行向量化处理,得到与关键句子对应的关键句子向量;计算关键句子向量和原创句子向量之间的向量相似度,并基于向量相似度,确定与关键句子相似的候选句子;原创句子向量包括对原创文本中的原创句子进行向量化处理,得到的与原创句子对应的句子向量;基于关键句子向量和与候选句子对应的原创句子向量之间的向量相似度,计算目标文本和候选句子所属的候选文本之间的文本相似度,并基于文本相似度,确定目标文本是否为候选文本的侵权文本,以在目标文本为候选文本的侵权文本时,将候选句子作为目标文本针对候选文本的侵权细节,发布至区块链进行存证。

权利要求 :

1.一种文本侵权检测方法,所述方法包括:从待检测的目标文本中提取关键句子,并将所述关键句子输入句子相似检测模型;所述句子相似检测模型包括作为特征提取层的语言模型对,以及分类层;所述分类层用于确定所述语言模型对中的语言模型输出的句子向量是否相似;所述语言模型对中的语言模型之间共享模型参数;所述句子相似检测模型基于被标注了相似标签的句子对样本训练得到;

获取所述语言模型对中的任一语言模型输出的与所述关键句子对应的关键句子向量;

计算所述关键句子向量和原创句子向量之间的向量相似度,并基于所述向量相似度,确定与所述关键句子相似的候选句子;其中,所述原创句子向量包括对预设的原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量;

基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文本相似度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所述目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候选文本的侵权细节,发布至区块链进行存证。

2.根据权利要求1所述的方法,所述从待检测的目标文本中提取关键句子,包括:对待检测的目标文本进行分句处理,得到与所述目标文本对应的目标句子;

对所述目标句子分进行打分处理,得到与所述目标句子对应的句子评分;

从所述目标句子中提取出所述句子评分最高的预设的第一数量的目标句子,作为关键句子;或者,从所述目标句子中提取出所述句子评分大于预设的第一阈值的目标句子,作为关键句子。

3.根据权利要求2所述的方法,所述对所述目标句子分进行打分处理,包括:基于TextRank算法对所述目标句子进行打分处理;和/或,基于所述目标句子在所述目标文本中的位置,对所述目标句子进行打分处理;其中,对所述目标句子的评分的数值大小,与所述目标句子和所述目标文本的头部或尾部之间的距离成反比。

4.根据权利要求1所述的方法,所述语言模型中的编码器的数量小于标准数量。

5.根据权利要求1所述的方法,所述句子相似检测模型还包括池化层;所述池化层用于对所述语言模型输出的句子向量进行池化处理,并将池化后的句子向量输入所述分类层。

6.根据权利要求5所述的方法,所述句子相似检测模型还包括多层感知器;所述多层感知器用于对池化后的句子向量进行降维处理,并将降维后的句子向量输入所述分类层。

7.根据权利要求1所述的方法,所述方法还包括:从预设的原创文本中提取原创句子;

将所述原创句子输入所述句子相似检测模型,并获取所述语言模型对中的任一语言模型输出的与所述原创句子对应的句子向量,作为所述原创句子向量。

8.根据权利要求1所述的方法,所述向量相似度以向量之间的余弦相似度,或者向量之间的欧几里得距离表征。

9.根据权利要求1所述的方法,所述基于所述向量相似度,确定与所述关键句子相似的候选句子,包括:

确定和所述关键句子向量之间的所述向量相似度最高的预设的第二数量的原创句子向量,并将与确定出的原创句子向量对应的原创句子确定为与所述关键句子相似的候选句子;或者,

确定和所述关键句子向量之间的所述向量相似度大于预设的第二阈值的原创句子向量,并将与确定出的原创句子向量对应的原创句子确定为与所述关键句子相似的候选句子。

10.根据权利要求1所述的方法,所述基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文本相似度,包括:

将所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度映射为相似度评分;

计算与属于同一候选文本的候选句子对应的所述相似度评分之和,并将计算得到的和值确定为所述目标文本和所述候选文本之间的文本相似度。

11.根据权利要求10所述的方法,所述将所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度映射为相似度评分,包括:基于与所述关键句子向量对应的关键句子的长度,对所述关键句子进行打分处理,得到第一子评分;

基于所述候选句子在其所属的候选文本中的位置,对所述候选句子进行打分处理,得到第二子评分;

将所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,映射为第三子评分;

计算所述第一子评分、所述第二子评分和所述第三子评分的乘积,并将计算得到的乘积确定为相似度评分。

12.根据权利要求1所述的方法,所述基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,包括:确定和所述目标文本之间的所述文本相似度最高的预设的第三数量的候选文本,并确定所述目标文本为确定出的候选文本的侵权文本;或者,确定和所述目标文本之间的所述文本相似度大于预设的第三阈值的候选文本,并确定所述目标文本为确定出的候选文本的侵权文本。

13.根据权利要求1所述的方法,所述侵权细节还包括以下示出的一种或多种:所述关键句子;所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度;所述候选文本;所述目标文本与所述候选文本之间的文本相似度。

14.一种文本侵权检测装置,所述装置包括:提取模块,从待检测的目标文本中提取关键句子,并将所述关键句子输入句子相似检测模型;所述句子相似检测模型包括作为特征提取层的语言模型对,以及分类层;所述分类层用于确定所述语言模型对中的语言模型输出的句子向量是否相似;所述语言模型对中的语言模型之间共享模型参数;所述句子相似检测模型基于被标注了相似标签的句子对样本训练得到;以及,获取所述语言模型对中的任一语言模型输出的与所述关键句子对应的关键句子向量;

第一计算模块,计算所述关键句子向量和原创句子向量之间的向量相似度,并基于所述向量相似度,确定与所述关键句子相似的候选句子;其中,所述原创句子向量包括对预设的原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量;

第二计算模块,基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文本相似度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所述目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候选文本的侵权细节,发布至区块链进行存证。

15.一种电子设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器通过运行所述可执行指令以实现如权利要求1至13中任一项所述的方法。

16.一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1至13中任一项所述的方法。

说明书 :

文本侵权检测方法、装置和电子设备

技术领域

[0001] 本说明书一个或多个实施例涉及计算机应用技术领域,尤其涉及一种文本侵权检测方法、装置和电子设备。

背景技术

[0002] 随着互联网的普及,信息传播的速度逐渐加快,网络新闻、网络小说、自媒体等的原创作者不断创作出更多、更新的信息内容,例如:新闻稿、小说、科普文章等,这些原创的
信息内容通常以文本的形式在互联网上进行传播。但与此同时,针对原创文本的抄袭现象,
以及由此带来的文本侵权问题也层出不穷。在这种情况下,为了保障原创作者的权益,如何
进行文本侵权检测,并提高文本侵权检测的准确度,也就成为了亟待解决的问题。

发明内容

[0003] 本说明书提出一种文本侵权检测方法,所述方法包括:
[0004] 从待检测的目标文本中提取关键句子,并对所述关键句子进行向量化处理,得到与所述关键句子对应的关键句子向量;
[0005] 计算所述关键句子向量和原创句子向量之间的向量相似度,并基于所述向量相似度,确定与所述关键句子相似的候选句子;其中,所述原创句子向量包括对预设的原创文本
中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量;
[0006] 基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文本相似度,并基于
所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所述目标文本
为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候选文本的侵
权细节,发布至区块链进行存证。
[0007] 本说明书还提出一种文本侵权检测装置,所述装置包括:
[0008] 提取模块,从待检测的目标文本中提取关键句子,并对所述关键句子进行向量化处理,得到与所述关键句子对应的关键句子向量;
[0009] 第一计算模块,计算所述关键句子向量和原创句子向量之间的向量相似度,并基于所述向量相似度,确定与所述关键句子相似的候选句子;其中,所述原创句子向量包括对
预设的原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量;
[0010] 第二计算模块,基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文本相
似度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所
述目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候
选文本的侵权细节,发布至区块链进行存证。
[0011] 本说明书还提出一种电子设备,包括:
[0012] 处理器;
[0013] 用于存储处理器可执行指令的存储器;
[0014] 其中,所述处理器通过运行所述可执行指令以实现上述方法的步骤。
[0015] 本说明书还提出一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述方法的步骤。
[0016] 在上述技术方案中,由于可以先计算与待执行文本侵权检测的目标文本中的各关键句子对应的关键句子向量,和与各原创文本中的各原创句子对应的原创句子向量之间的
向量相似度,再基于计算得到的向量相似度,进一步计算该目标文本和各原创文本之间的
文本相似度,最后基于计算得到的文本相似度,确定该目标文本是否为各原创文本的侵权
文本,因此,实现了基于句子粒度的文本侵权检测,并且,通过句子向量之间的向量相似度
实现文本侵权检测,可以有效地解决语序调整、句式改动和同义词替换等文本侵权方式难
以被检测出来的问题。

附图说明

[0017] 图1是本说明书一示例性实施例示出的一种文本侵权检测方法的流程图;
[0018] 图2是本说明书一示例性实施例示出的一种句子相似检测模型的示意图;
[0019] 图3是本说明书一示例性实施例示出的一种电子设备的结构示意图;
[0020] 图4是本说明书一示例性实施例示出的一种文本侵权检测装置的框图。

具体实施方式

[0021] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例
中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相
反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相
一致的装置和方法的例子。
[0022] 需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更
多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进
行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行
描述。
[0023] 在实际应用中,文本侵权的方式多种多样,包括全文抄袭、段落截取、语序调整、句式改动和同义词替换等方式。
[0024] 在相关技术中,在进行文本侵权检测时,通常会采用哈希匹配或字符匹配的检测机制。
[0025] 具体地,在采用哈希匹配的检测机制进行文本侵权检测时,可以先对待检测的文本和原创文本分别进行哈希计算,得到待检测的文本和原创文本的哈希值(例如:SHA256值
或MD5值等),再比较待检测的文本和原创文本的哈希值是否相同,如果是,则认为待检测的
文本构成原创文本的侵权文本。因此,这种检测机制只能检测出与原创文本的内容完全相
同的侵权文本。
[0026] 在采用局部敏感哈希匹配的检测机制进行文本侵权检测时,可以先对待检测的文本和原创文本进行局部敏感哈希计算,得到待检测的文本和原创文本的局部敏感哈希值
(例如:SimHash值或MinHash值等),再比较待检测的文本和原创文本的哈希值是否相同或
仅有少部分不同,如果是,则认为待检测的文本构成原创文本的侵权文本。由于在文本内容
发生少部分改动的情况下,该文本的局部敏感哈希值不会发生变化或仅有少部分发生变
化,因此,这种检测机制可以检测出对原创文本进行少部分改动得到的侵权文本,但无法检
测出其他方式的侵权文本。
[0027] 在采用字符匹配的检测机制进行文本侵权检测时,可以将待检测的文本中的字符与原创文本中的字符进行比对,并在两者中连续相同的字符达到一定数量时,确定待检测
的文本构成原创文本的侵权文本。因此,采用语序调整、句式改动和同义词替换等文本侵权
方式,可以绕开这种检测方式,使得实质上已经构成侵权的文本无法被检测出来。
[0028] 为了解决上述问题,提高文本侵权检测的准确度,本说明书提出了一种基于与待执行文本侵权检测的文本(称为目标文本)中的句子对应的句子向量,和与原创文本中的句
子对应的句子向量之间的向量相似度,确定该目标文本是否构成该原创文本的侵权文本的
技术方案。
[0029] 在具体实现时,针对待执行文本侵权检测的文本(称为目标文本),可以从该目标文本中提取出若干句子(称为关键句子),并对提取出的各关键句子进行向量化处理,得到
与该关键句子对应的关键句子向量。
[0030] 与上述目标文本类似地,可以预先从预设的原创文本中提取若干句子(称为原创句子),并对提取出的各原创句子进行向量化处理,得到与该原创句子对应的句子向量(称
为原创句子向量)。
[0031] 而在执行文本侵权检测时,在得到上述关键句子向量的情况下,可以计算各关键句子向量和各原创句子向量之间的向量相似度,并基于计算得到的所有向量相似度,确定
与上述若干关键句子相似的若干原创句子,这若干原创句子可以作为可能被侵权的候选句
子。
[0032] 在确定了上述候选句子的情况下,可以进一步将这若干候选句子所属的若干原创文本,作为可能被侵权的候选文本。
[0033] 针对上述候选文本,可以基于各关键句子向量和与各候选句子对应的原创句子向量之间的向量相似度,进一步计算上述目标文本和各候选文本之间的文本相似度,并基于
计算得到的该文本相似度,确定该目标文本是否为该候选文本的侵权文本。如果确定该目
标文本为该候选文本的侵权文本,则可以将属于该候选文本的候选句子,作为该目标文本
针对该候选文本的侵权细节,发布至区块链进行存证。
[0034] 在上述技术方案中,由于可以先计算与待执行文本侵权检测的目标文本中的各关键句子对应的关键句子向量,和与各原创文本中的各原创句子对应的原创句子向量之间的
向量相似度,再基于计算得到的向量相似度,进一步计算该目标文本和各原创文本之间的
文本相似度,最后基于计算得到的文本相似度,确定该目标文本是否为各原创文本的侵权
文本,因此,实现了基于句子粒度的文本侵权检测,并且,通过句子向量之间的向量相似度
实现文本侵权检测,可以有效地解决语序调整、句式改动和同义词替换等文本侵权方式难
以被检测出来的问题。
[0035] 在本说明书中,在通过句子相似检测模型,计算与文本中的句子对应的句子向量后,可以通过与待检测的文本中的句子对应的句子向量,和与原创文本中的句子对应的句
子向量之间的向量相似度,确定该待检测的文本是否构成该原创文本的侵权文本。
[0036] 参考图1,图1是本说明书一示例性实施例示出的一种文本侵权检测方法的流程图。
[0037] 上述文本侵权检测方法可以应用于提供文本侵权检测业务的服务器、服务器集群或计算机等设备,该设备可以与用于存储原创文本的数据库(称为原创文本库)对接,即可
以获取到该原创文本库中存储的原创文本。
[0038] 在实际应用中,待执行侵权检测的文本和原创文本都可以是任意一种类型的文本,例如:可以是新闻稿、小说、科普文章等以篇为单位的文章,也可以是以段为单位的文字
片段;本说明书对此不作限制。
[0039] 进一步地,上述文本侵权检测方法可以包括以下步骤:
[0040] 步骤102,从待检测的目标文本中提取关键句子,并对所述关键句子进行向量化处理,得到与所述关键句子对应的关键句子向量。
[0041] 针对待执行文本侵权检测的文本(称为目标文本),可以从该目标文本中提取出若干句子(称为关键句子),并对提取出的各关键句子进行向量化处理,得到与该关键句子对
应的关键句子向量。
[0042] 步骤104,计算所述关键句子向量和原创句子向量之间的向量相似度,并基于所述向量相似度,确定与所述关键句子相似的候选句子;其中,所述原创句子向量包括对预设的
原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量。
[0043] 与上述目标文本类似地,可以预先从预设的原创文本中提取若干句子(称为原创句子),并对提取出的各原创句子进行向量化处理,得到与该原创句子对应的句子向量(称
为原创句子向量)。其中,这些原创文本可以包括从上述原创文本库中获取到的原创文本,
还可以包括由技术人员预先设置的文本;本说明书对此不作限制。
[0044] 而在执行文本侵权检测时,在得到上述关键句子向量的情况下,可以计算各关键句子向量和各原创句子向量之间的向量相似度,并基于计算得到的所有向量相似度,确定
与上述若干关键句子相似的若干原创句子,这若干原创句子可以作为可能被侵权的候选句
子。
[0045] 步骤106,基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文本相似
度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所述
目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候选
文本的侵权细节,发布至区块链进行存证。
[0046] 在确定了上述候选句子的情况下,可以进一步将这若干候选句子所属的若干原创文本,作为可能被侵权的候选文本。
[0047] 针对上述候选文本,可以基于各关键句子向量和与各候选句子对应的原创句子向量之间的向量相似度,进一步计算上述目标文本和各候选文本之间的文本相似度,并基于
计算得到的该文本相似度,确定该目标文本是否为该候选文本的侵权文本。如果确定该目
标文本为该候选文本的侵权文本,则可以将属于该候选文本的候选句子,作为该目标文本
针对该候选文本的侵权细节,发布至区块链进行存证。
[0048]  下面从构建句子相似检测模型、获取原创句子向量、获取关键句子向量、计算关键句子向量和原创句子向量之间的向量相似度、确定候选句子、计算目标文本和候选文本
之间的文本相似度、确定目标文本是否为候选文本的侵权文本的方面,对如图1所示的文本
侵权检测方法进行详细说明。
[0049] (1)构建句子相似检测模型
[0050] 在示出的一种实施方式中,为了得到可以体现句子之间的相似程度的句子向量,提高对句子的向量化处理的精确度,可以预先构建句子相似检测模型,并基于该句子相似
检测模型,计算与文本中的句子对应的句子向量。
[0051] 参考图2,图2是本说明书一示例性实施例示出的一种句子相似检测模型的示意图。
[0052] 上述句子相似检测模型的模型架构,可以包括:作为特征提取层的语言模型(Language Mode)对,该语言模型对包含两个语言模型,这两个语言模型之间共享模型参
数,也即,这两个语言模型的模型结构相同,并且模型参数也相同;以及,分类层。其中,该语
言模型对中两个语言模型都可以用于对输入的句子进行特征提取,得到与该句子对应的特
征向量(称为句子向量);该分类层可以用于确定该语言模型对中的两个语言模型分别输出
的句子向量是否相似。
[0053] 需要说明的是,上述语言模型具体可以是BERT模型、XLNet模型或GPT(Generative Pre‑Training)模型等语言模型,也可以是其他的语言模型;本说明书对此不作限制。
[0054] 上述句子相似检测模型可以基于若干被标注了相似标签的句子对(包含两个句子)样本训练得到。
[0055] 具体地,可以先获取若干句子对样本,并为各句子对样本标注指示该句子对中的两个句子是否相似的标签(即相似标签),后续,可以将各句子对样本中的一个句子输入上
述语言模型对中的一个语言模型,并将该句子对样本中的另一个句子输入该语言模型对中
的另一个语言模型,由该语言模型对中的两个语言模型输出与该句子对样本中的两个句子
对应的两个句子向量,并由上述分类层确定这两个句子向量是否相似,从而可以根据该分
类层的输出与为该句子对样本标注的相似标签之间的偏差,对该句子相似检测模型的模型
参数进行调整,直至该句子相似检测模型训练完成。
[0056] 为了提高上述句子相似检测模型的计算速率,在示出的一种实施方式中,在上述句子相似检测模型训练完成后,可以针对上述语言模型对中的两个语言模型,分别去除这
两个语言模型中的一部分编码器,以缩减这两个语言模型中的编码器的数量,也即,对于用
于计算与文本中的句子对应的句子向量的句子相似检测模型而言,该句子相似检测模型所
包含的语言模型中的编码器的数量小于标准数量(即保留了所有编码器的语言模型中的编
码器的数量)。
[0057] 在实际应用中,从上述两个语言模型中分别去除的一部分编码器可以保持一致,以保证去除一部分编码器后的两个语言模型的功能仍完全相同。
[0058] 在上述情况下,由于上述语言模型中的编码器较少,使得该语言模型的计算量减少,因此,可以提高该语言模型的计算速率,从而可以提高包含该语言模型的上述句子相似
检测模型的计算速率。
[0059] 为了缩减上述句子相似检测模型输出的句子向量的特征维度,从而减少向量相似度的计算量,在示出的一种实施方式中,该句子相似检测模型还可以包括池化层。其中,该
池化层可以用于对上述语言模型对中的两个语言模型分别输出的句子向量进行池化处理,
并将池化后的两个句子向量输入上述分类层,由该分类层确定池化后的这两个句子向量是
否相似。
[0060] 为了进一步缩减上述句子相似检测模型输出的句子向量的特征维度,在示出的一种实施方式中,除了上述池化层之外,上述句子相似检测模型还可以包括多层感知器
(Multilayer Perceptron,MLP)。其中,该多层感知器可以用于对该池化层输出的上述池化
后的两个句子向量进行降维处理,并将降维后的这两个句子向量输入上述分类层,由该分
类层确定降维后的这两个句子向量是否相似。
[0061]  (2)获取原创句子向量
[0062] 在示出的一种实施方式中,对于各原创文本而言,为了获取与该原创文本中的若干原创句子分别对应的原创句子向量,可以先从该原创文本中提取若干原创句子。
[0063] 具体地,可以先对上述原创文本进行分句处理,得到与该原创文本对应的若干句子,后续,可以将分句处理得到的所有句子都提取出来,作为上述若干原创句子;或者,可以
针对该原创文本中的较为关键的、被抄袭的可能性较大的部分,将对这部分进行分句处理
得到的句子提取出来,作为上述若干原创句子,其中,该原创文本中的较为关键的、被抄袭
的可能性较大的部分,可以由技术人员根据实际情况预先设置。
[0064] 在实际应用中,在对各原创文本进行分句处理之前,可以先对该原创文本进行预处理,例如:语种识别、分词、去停用词、正则化等处理,以对该原创文本中的字符进行规范
化整理,提高后续处理的效率。
[0065] 在提取出上述若干原创句子后,可以将提取出的各原创句子输入上述句子相似检测模型,由该句子相似检测模型针对该原创句子进行计算,从而可以获取上述语言模型对
中的任一语言模型输出的与该原创句子对应的原创句子向量。
[0066] 对于各原创句子而言,在将该原创句子输入上述句子相似检测模型时,具体可以将该原创句子输入上述语言模型对中的任一语言模型,由该语言模型对该原创句子进行特
征提取;或者,可以将该原创句子同时输入该语言模型对中的两个语言模型,由这两个语言
模型分别对该原创句子进行特征提取,由于这两个语言模型之间共享模型参数,因此,这两
个语言模型分别输出的与该原创句子对应的原创句子向量相同。
[0067] 举例来说,假设有3个原创文本,分别为原创文本1、原创文本2、原创文本3。
[0068] 从原创文本1中提取出2个原创句子,分别为原创句子11、原创句子12,则可以将原创句子11输入上述句子相似检测模型,以获取上述语言模型输出的与原创句子11对应的原
创句子向量11,将原创句子12输入该句子相似检测模型,以获取该语言模型输出的与原创
句子12对应的原创句子向量12。
[0069] 从原创文本2中提取出3个原创句子,分别为原创句子21、原创句子22、原创句子23,则可以将原创句子21输入上述句子相似检测模型,以获取上述语言模型输出的与原创
句子21对应的原创句子向量21,将原创句子22输入该句子相似检测模型,以获取该语言模
型输出的与原创句子22对应的原创句子向量22,将原创句子23输入该句子相似检测模型,
以获取该语言模型输出的与原创句子23对应的原创句子向量23。
[0070] 从原创文本3中提取出2个原创句子,分别为原创句子31、原创句子32,则可以将原创句子31输入上述句子相似检测模型,以获取上述语言模型输出的与原创句子31对应的原
创句子向量31,将原创句子32输入该句子相似检测模型,以获取该语言模型输出的与原创
句子32对应的原创句子向量32。
[0071] 在实际应用中,可以预先获取上述原创句子向量,从而可以在进行文本侵权检测时,直接利用已经获取到的原创句子向量,而无需再由上述句子相似检测模型计算原创句
子向量。
[0072]  (2)获取关键句子向量
[0073] 与上述获取原创句子向量的过程类似地,为了获取与上述目标文本中的若干关键句子分别对应的关键句子向量,可以先从该目标文本中提取若干关键句子。
[0074] 具体地,可以先对上述目标文本进行分句处理,得到与该目标文本对应的若干句子(称为目标句子),后续,为了减少从该目标文本中提取出的关键句子的数量,从而减少相
似度计算量,可以对各目标句子进行打分处理,得到与该目标句子对应的句子评分,在得到
与这若干目标句子分别对应的句子评分后,可以从这若干目标句子中提取出句子评分最高
的N个句子,作为上述若干关键句子;或者,可以从这若干目标句子中提取出句子评分大于
预设的阈值(称为第一阈值)的句子,作为上述若干关键句子,其中,N的数值可以由技术人
员根据实际需求预先设置,该第一阈值也可以由技术人员根据实际需求预先设置。
[0075] 在实际应用中,在对上述目标文本进行分句处理之前,可以先对该目标文本进行预处理,例如:语种识别、分词、去停用词、正则化等处理,以对该目标文本中的字符进行规
范化整理,提高后续处理的效率。
[0076] 为了减少从上述目标文本中提取关键句子的计算量,可以从该目标文本中提取长度超过特定数值的句子,作为上述若干关键句子。其中,句子的长度可以是该句子包含的字
符的数量。
[0077] 进一步地,在示出的一种实施方式中,对于各目标句子而言,在对该目标句子进行打分处理时,具体可以基于TextRank算法对该目标句子进行打分处理;或者,可以基于该目
标句子在上述目标文本中的位置,对该目标句子进行打分处理,其中,对该目标句子的评分
的数值大小,与该目标句子和该目标文本的头部或尾部之间的距离成反比,即距离该目标
文本的头部或尾部越近,则评分越高,距离该目标文本的头部或尾部越远,则评分越低。
[0078] 具体地,在基于TextRank算法对上述目标句子进行打分处理时,由于TextRank算法是一种针对文本的基于图的排序算法,可以用于从文本中提取关键词、关键句,因此,可
以将基于TextRank算法计算出的与该目标句子对应的关键度评分,作为与该目标句子对应
的句子评分。
[0079] 或者,在基于上述目标句子在上述目标文本中的位置,对该目标句子进行打分处理时,可以先确定该目标句子和该目标文本的头部和尾部之间的距离,再基于确定出的两
个距离中的较短的距离,计算与该目标句子对应的句子评分。其中,该句子评分与该距离成
反比。例如,假设该目标文本总共包含100个字符,该目标句子本身包含10个字符,该目标句
子之前的字符的数量为20,该目标句子之后的字符的数量为70(10+20+70=100),则该目标
句子和该目标文本的头部之间的距离可以视为20/100=0.2,该目标句子和该目标文本的尾
部之间的距离可以视为70/100=0.7(0.7>0.2),在这种情况下,可以基于该目标句子和该
目标文本的头部之间的距离,计算与该句子对应的句子评分。
[0080] 在提取出上述若干关键句子后,可以将提取出的各关键句子输入上述句子相似检测模型,由该句子相似检测模型针对该关键句子进行计算,从而可以获取上述语言模型对
中的任一语言模型输出的与该关键句子对应的关键句子向量。
[0081] 举例来说,假设从上述目标文本中提取出2个关键句子,分别为关键句子1、关键句子2,则可以将关键句子1输入上述句子相似检测模型进行计算,以获取上述语言模型对中
的任一语言模型输出的与关键句子1对应的关键句子向量1,将关键句子2输入该句子相似
检测模型进行计算,以获取该语言模型对中的任一语言模型输出的与关键句子2对应的关
键句子向量2。
[0082]  (3)计算关键句子向量和原创句子向量之间的向量相似度
[0083] 在获取了上述若干关键句子向量,并预先获取了上述若干原创句子向量的情况下,可以计算各关键句子向量和各原创句子向量之间的向量相似度。
[0084] 具体地,对于各关键句子向量和各原创句子向量而言,可以将该关键句子向量和该原创句子向量视为一个句子对,并计算该关键句子向量和该原创句子向量之间的向量相
似度,作为与该句子对对应的向量相似度。
[0085] 在示出的一种实施方式中,上述向量相似度可以以向量之间的余弦相似度,或者向量之间的欧几里得距离表征。
[0086] 继续以上述3个原创文本和上述目标文本为例,可以分别计算关键句子向量1、关键句子向量2,和原创句子向量11、原创句子向量12、原创句子向量21、原创句子向量22、原
创句子向量23、原创句子向量31、原创句子向量32之间的向量相似度,如表1所示:
[0087]句子对 句子向量 向量相似度
句子对111 (关键句子向量1,原创句子向量11) 向量相似度111
句子对112 (关键句子向量1,原创句子向量12) 向量相似度112
句子对211 (关键句子向量2,原创句子向量11) 向量相似度211
句子对212 (关键句子向量2,原创句子向量12) 向量相似度212
句子对121 (关键句子向量1,原创句子向量21) 向量相似度121
句子对122 (关键句子向量1,原创句子向量22) 向量相似度122
句子对123 (关键句子向量1,原创句子向量23) 向量相似度123
句子对221 (关键句子向量2,原创句子向量21) 向量相似度221
句子对222 (关键句子向量2,原创句子向量22) 向量相似度222
句子对223 (关键句子向量2,原创句子向量23) 向量相似度223
句子对131 (关键句子向量1,原创句子向量31) 向量相似度131
句子对132 (关键句子向量1,原创句子向量32) 向量相似度132
句子对231 (关键句子向量2,原创句子向量31) 向量相似度231
句子对232 (关键句子向量2,原创句子向量32) 向量相似度232
[0088] 表1
[0089]  (4)确定候选句子
[0090] 在计算得到各关键句子向量和各原创句子向量之间的向量相似度的情况下,可以基于计算得到的所有向量相似度,确定与上述若干关键句子相似的若干候选句子。
[0091] 在示出的一种实施方式中,可以确定和上述若干关键句子之间的向量相似度最高的N个原创句子向量,并将与确定出的原创句子向量对应的原创句子确定为与这若干关键
句子相似的若干候选句子;或者,可以确定和上述若干关键句子之间的向量相似度大于预
设的阈值(称为第二阈值)的原创句子向量,并将与确定出的原创句子向量对应的原创句子
确定为与这若干关键句子相似的若干候选句子。其中,N的数值可以由技术人员根据实际需
求预先设置,该第二阈值也可以由技术人员根据实际需求预先设置。
[0092] 继续以上述3个原创文本和上述目标文本为例,假设预先设置的上述N的数值为4;计算得到的14个向量相似度中,数值最大的4个向量相似度分别为向量相似度111、向量相
似度212、向量相似度122、向量相似度222,则可以将与原创句子向量11对应的原创句子11、
与原创句子向量12对应的原创句子12、与原创句子向量22对应的原创句子22(向量相似度
122和向量相似度222均对应于原创句子向量22),确定为候选句子(下面称为候选句子11、
候选句子12、候选句子22)。
[0093]  (5)计算目标文本和候选文本之间的文本相似度
[0094] 在确定了上述候选句子的情况下,针对这若干候选句子所属的若干候选文本,可以基于各关键句子向量和与各候选句子对应的原创句子向量之间的向量相似度,进一步计
算上述目标文本和各候选文本之间的文本相似度。
[0095] 在示出的一种实施方式中,对于各句子对而言,可以将该句子对中的关键句子向量和该句子对中的原创句子向量之间的向量相似度,映射为与该句子对对应的相似度评
分。进一步地,对于属于同一候选文本的候选句子而言,可以计算与分别包含这若干候选句
子的句子对对应的相似度评分之和,并将计算得到的和值确定为上述目标文本和该候选文
本之间的文本相似度。
[0096] 继续以上述3个原创文本和上述目标文本为例,可以将向量相似度111映射为相似度评分111,将向量相似度122映射为相似度评分122,将向量相似度122映射为相似度评分
122,将向量相似度222映射为相似度评分222;由于候选句子11和候选句子12属于原创文本
1(下面称为候选文本1),候选句子22属于原创文本2(下面称为候选文本2),因此,可以将相
似度评分111和相似度评分122之和确定为该目标文本和候选文本1之间的文本相似度1,将
相似度评分122和相似度评分222之和确定为该目标文本和候选文本2之间的文本相似度2。
[0097] 进一步地,在示出的一种实施方式中,对于各句子对而言,在将该句子对中的关键句子向量和该句子对中的原创句子向量之间的向量相似度,映射为与该句子对对应的相似
度评分时,具体可以:基于与该关键句子向量对应的关键句子的长度,对该目标句子进行打
分处理,得到第一子评分;基于与该原创句子向量对应的原创句子在其所属的原创文本中
的位置,对该原创句子进行打分处理,得到第二子评分;将该关键句子向量和该原创句子向
量之间的向量相似度,映射为第三子评分。在这种情况下,可以计算该第一子评分、该第二
子评分和该第三子评分的乘积,并将计算得到的乘积确定为与该句子对对应的相似度评
分。
[0098] 在实际应用中,第一方面,可以采用以下公式,实现基于句子的长度,对该句子进行打分处理:
[0099]
[0100] 其中,x表示句子;x<50表示该句子的长度小于50个字符;x≥50表示该句子的长度大于或等于50个字符;sentence_length表示与该句子对应的第一子评分。
[0101] 第二方面,可以采用以下公式,实现基于句子在其所属的文本中的位置,对该句子进行打分处理:
[0102]
[0103] 其中,x表示句子;L/3子之后的所有字符在该文本中的占比也大于1/3;x≤L/3或x≥2L/3表示该句子在其所属的
文本中的位置在1/3之内或在2/3之外,例如:在该句子所属的文本中,该句子之前的所有字
符在该文本中的占比小于或等于1/3,或者,该句子之后的所有字符在该文本中的占比小于
或等于1/3;sentence_location表示与该句子对应的第二子评分。
[0104] 第二方面,可以采用以下公式,实现将向量相似度,映射为第三子评分:
[0105]
[0106] 其中,i表示第i个关键句子;j表示第j个原创句子,similarity(i,j)表示与第i个关键句子对应的关键句子向量,和与第j个原创句子对应的原创句子向量之间的向量相似
度;butterworth_filter表示与该向量相似度对应的第三子评分。
[0107] 在上述情况下,与第i个关键句子和第j个原创句子组成的句子对对应的相似度评分= 。
[0108]  (6)确定目标文本是否为候选文本的侵权文本
[0109] 在计算得到上述目标文本和各候选文本之间的文本相似度后,可以基于计算得到的该文本相似度,确定该目标文本是否为该候选文本的侵权文本。
[0110] 在示出的一种实施方式中,可以确定和上述目标文本之间的文本相似度最高的N个候选文本,并确定该目标文本为确定出的候选文本的侵权文本;或者,可以确定和上述目
标文本之间的文本相似度大于预设的阈值(称为第三阈值)的候选文本,并确定该目标文本
为确定出的候选文本的侵权文本。其中,N的数值可以由技术人员根据实际需求预先设置,
该第三阈值也可以由技术人员根据实际需求预先设置。
[0111] 继续以上述3个原创文本和上述目标文本为例,假设预先设置的上述N的数值为1;计算得到的2个文本相似度中,文本相似度1大于文本相似度2,则可以确定该目标文本为候
选文本1的侵权文本。
[0112] 在实际应用中,还可以将文本侵权检测的整个过程中,对上述目标文本和上述原创文本执行的操作,以及产生的数据,都发布至区块链进行存证。由于在区块链上存证的数
据无法被随意篡改,因此可以保证文本侵权检测的真实性和可靠性,从而可以起到原创作
品保护的作用。例如,在确定了该目标文本是某一候选文本的侵权文本的情况下,可以属于
该候选文本的候选句子,作为该目标文本针对该候选文本的侵权细节,发布至区块链进行
存证。
[0113] 继续以上述3个原创文本和上述目标文本为例,在确定了该目标文本为候选文本1的侵权文本的情况下,可以将候选句子11和候选句子22,作为该目标文本针对候选文本1的
侵权细节,发布至区块链进行存证。
[0114] 在示出的一种实施方式中,上述侵权细节还包括以下示出的一种或多种:上述关键句子;上述关键句子向量和与上述候选句子对应的原创句子向量之间的向量相似度;上
述候选文本;上述目标文本和该候选文本之间的文本相似度。
[0115] 在上述技术方案中,由于可以先计算与待执行文本侵权检测的目标文本中的各关键句子对应的关键句子向量,和与各原创文本中的各原创句子对应的原创句子向量之间的
向量相似度,再基于计算得到的向量相似度,进一步计算该目标文本和各原创文本之间的
文本相似度,最后基于计算得到的文本相似度,确定该目标文本是否为各原创文本的侵权
文本,因此,实现了基于句子粒度的文本侵权检测,并且,通过句子向量之间的向量相似度
实现文本侵权检测,可以有效地解决语序调整、句式改动和同义词替换等文本侵权方式难
以被检测出来的问题。
[0116] 与前述文本侵权检测方法的实施例相对应,本说明书还提供了文本侵权检测装置的实施例。
[0117] 本说明书文本侵权检测装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑
意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指
令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书文本侵权检测装置
所在电子设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存
储器之外,实施例中装置所在的电子设备通常根据该文本侵权检测的实际功能,还可以包
括其他硬件,对此不再赘述。
[0118] 请参考图4,图4是本说明书一示例性实施例示出的一种文本侵权检测装置的框图。该文本侵权检测装置40可以应用于如图3所示的电子设备;该文本侵权检测装置40可以
包括:
[0119] 提取模块401,从待检测的目标文本中提取关键句子,并对所述关键句子进行向量化处理,得到与所述关键句子对应的关键句子向量;
[0120] 第一计算模块402,计算所述关键句子向量和原创句子向量之间的向量相似度,并基于所述向量相似度,确定与所述关键句子相似的候选句子;其中,所述原创句子向量包括
对预设的原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向
量;
[0121] 第二计算模块403,基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文
本相似度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以
在所述目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所
述候选文本的侵权细节,发布至区块链进行存证。
[0122] 上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0123] 对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件
说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以
不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的
需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不
付出创造性劳动的情况下,即可以理解并实施。
[0124] 上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可
以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放
器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的
任意几种设备的组合。
[0125] 在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0126] 内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的
示例。
[0127] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。
计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动
态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除
可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、
数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的
存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的
信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),
如调制的数据信号和载波。
[0128] 还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包
括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要
素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要
素的过程、方法、商品或者设备中还存在另外的相同要素。
[0129] 上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来
执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺
序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可
以的或者可能是有利的。
[0130] 在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书
中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表
示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出
项目的任何或所有可能组合。
[0131] 应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区
分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第
二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如
果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
[0132] 以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何
修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。