文件内容的评价方法、装置、电子设备及程序产品转让专利

申请号 : CN202210102742.X

文献号 : CN114492409B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 侯柳平王磊

申请人 : 百度在线网络技术(北京)有限公司

摘要 :

本公开提供的文件内容的评价方法、装置、电子设备及程序产品,涉及自然语言处理技术,包括:接收用于对待处理文件进行评价的请求,并根据请求获取待处理文件,以及用于评价待处理文件的预设的第一文件;根据第一文件,确定待处理文件的完整性分值,以及待处理文件的合法性分值;根据待处理文件的完整性分值和合法性分值,确定待处理文件的评价结果,评价结果用于表征待处理文件是否合规。本公开提供的文件内容的评价方法、装置、电子设备及程序产品中,可以从完整性和合法性两个方面,利用预设的第一文件评价待处理文件,从而得到待处理文件准确的评价结果。同时,这种自动化评价待处理文件的方式,还能够提高文件的评价效率。

权利要求 :

1.一种文件内容的评价方法,包括:

接收用于对待处理文件进行评价的请求,并根据所述请求获取待处理文件,以及用于评价所述待处理文件的预设的第一文件;

根据所述第一文件,确定所述待处理文件的完整性分值,以及所述待处理文件的合法性分值;

根据所述待处理文件的完整性分值和所述合法性分值,确定所述待处理文件的评价结果,所述评价结果用于表征所述待处理文件是否合规;

所述根据所述第一文件,确定所述待处理文件的完整性分值,包括:根据所述第一文件中包括的章节信息,确定所述待处理文件中各语句所涉及的关联章节;

比对所述待处理文件中涉及的全部关联章节,与所述第一文件中包括的章节信息;

若所述全部关联章节中缺失任一所述章节信息,则在预设的完整性总分值基础上扣除与缺失的章节信息对应的分值,得到所述待处理文件的完整性分值;

所述根据所述第一文件,确定所述待处理文件的合法性分值,包括:基于预设的信息抽取方法在所述第一文件的条文中,抽取第一要素信息;其中,一条第一要素信息与所述第一文件中的一个条文对应;

基于所述预设的信息抽取方法在所述待处理文件的语句中,抽取与各所述语句对应的各第二要素信息;

根据所述第一要素信息、所述第二要素信息,确定所述待处理文件的合法性分值。

2.根据权利要求1所述的方法,其中,所述根据所述第一文件中包括的章节信息,确定所述待处理文件中各语句所涉及的关联章节之前,所述方法还包括:获取所述第一文件中包括的章节信息。

3.根据权利要求2所述的方法,其中,基于预设的信息抽取方法在待处理的文本内容中抽取要素信息,包括:对待处理的文本内容中识别实体,并确定实体之间的关系;所述待处理的文本内容包括所述第一文件中的条文、所述待处理文件中的语句;

根据所述实体之间的关系,在所述实体中确定出所述要素信息;其中,所述要素信息包括行为主体、涉及的个人信息,以及以下任一种信息:权利、义务、法律责任。

4.根据权利要求3所述的方法,其中,所述根据所述实体之间的关系,在所述实体中确定出所述要素信息,包括:根据所述实体之间的关系确定所述待处理的文本内容中的谓语;

根据所述谓语在所述实体中确定出主语实体,并将所述主语实体确定为所述行为主体。

5.根据权利要求3所述的方法,其中,所述根据所述实体之间的关系,在所述实体中确定出所述要素信息,包括:根据所述实体之间的关系确定所述待处理的文本内容中的谓语;

根据所述谓语在所述实体中确定出谓语作用的对象实体,并将所述谓语作用的对象实体确定为以下任一种信息:个人信息、权利、义务、法律责任。

6.根据权利要求5所述的方法,其中,所述将所述谓语作用的对象实体确定为以下任一种信息:个人信息、权利、义务、法律责任,包括:将所述对象实体输入预设的信息分类模型,得到与所述对象实体对应的信息;

或者,根据预设的关键词与信息之间的对应关系,以及所述对象实体中包括的词汇,确定所述对象实体对应的信息。

7.根据权利要求1所述的方法,其中,所述要素信息包括行为主体、涉及的个人信息,以及以下任一种信息:权利、义务、法律责任;

所述根据所述第一要素信息、所述第二要素信息,确定所述待处理文件的合法性分值,包括:根据各所述第一要素信息、所述第二要素信息,确定行为主体相同且涉及的个人信息相同的要素信息组;所述要素信息组中包括至少一个第一要素信息,以及至少一个第二要素信息;

比对所述要素信息组中包括的第二要素信息与任一个第一要素信息,根据所述比对结果确定所述待处理文件的合法性分值。

8.根据权利要求1‑7任一项所述的方法,其中,所述第一文件的数量为多个;

所述根据所述待处理文件的完整性分值和所述合法性分值,确定所述待处理文件的评价结果,包括:针对每个第一文件确定出的所述待处理文件的完整性分值,以及所述待处理文件的合法性分值,确定所述待处理文件与所述预设第一文件对应的文件评价分值;

若所述待处理文件与每个所述第一文件对应的文件评价分值总和,大于或等于预设阈值,则确定所述待处理文件的评价结果为合法;否则,确定所述待处理文件的评价结果为不合法。

9.一种文件内容的评价装置,包括:

接收单元,用于接收用于对待处理文件进行评价的请求;

获取单元,用于根据所述请求获取待处理文件,以及用于评价所述待处理文件的预设的第一文件;

分值确定单元,用于根据所述第一文件,确定所述待处理文件的完整性分值,以及所述待处理文件的合法性分值;

评价单元,用于根据所述待处理文件的完整性分值和所述合法性分值,确定所述待处理文件的评价结果,所述评价结果用于表征所述待处理文件是否合规;

所述分值确定单元,包括完整性分值确定模块和合法性分值确定模块,所述完整性分值确定模块,具体用于:

根据所述第一文件中包括的章节信息,确定所述待处理文件中各语句所涉及的关联章节;

比对所述待处理文件中涉及的全部关联章节,与所述第一文件中包括的章节信息;

若所述全部关联章节中缺失任一所述章节信息,则在预设的完整性总分值基础上扣除与缺失的章节信息对应的分值,得到所述待处理文件的完整性分值;

所述合法性分值确定模块,具体用于:

基于预设的信息抽取方法在所述第一文件的条文中,抽取第一要素信息;其中,一条第一要素信息与所述第一文件中的一个条文对应;

基于所述预设的信息抽取方法在所述待处理文件的语句中,抽取与各所述语句对应的各第二要素信息;

根据所述第一要素信息、所述第二要素信息,确定所述待处理文件的合法性分值。

10.根据权利要求9所述的装置,其中,所述完整性分值确定模块还用于:获取所述第一文件中包括的章节信息。

11.根据权利要求9所述的装置,其中,合法性分值确定模块具体用于:对待处理的文本内容中识别实体,并确定实体之间的关系;所述待处理的文本内容包括所述第一文件中的条文、所述待处理文件中的语句;

根据所述实体之间的关系,在所述实体中确定出所述要素信息;其中,所述要素信息包括行为主体、涉及的个人信息,以及以下任一种信息:权利、义务、法律责任。

12.根据权利要求11所述的装置,其中,所述合法性分值确定模块具体用于:根据所述实体之间的关系确定所述待处理的文本内容中的谓语;

根据所述谓语在所述实体中确定出主语实体,并将所述主语实体确定为所述行为主体。

13.根据权利要求11所述的装置,其中,所述合法性分值确定模块具体用于:根据所述实体之间的关系确定所述待处理的文本内容中的谓语;

根据所述谓语在所述实体中确定出谓语作用的对象实体,并将所述谓语作用的对象实体确定为以下任一种信息:个人信息、权利、义务、法律责任。

14.根据权利要求13所述的装置,其中,所述合法性分值确定模块具体用于:将所述对象实体输入预设的信息分类模型,得到与所述对象实体对应的信息;

或者,根据预设的关键词与信息之间的对应关系,以及所述对象实体中包括的词汇,确定所述对象实体对应的信息。

15.根据权利要求9所述的装置,其中,所述要素信息包括行为主体、涉及的个人信息,以及以下任一种信息:权利、义务、法律责任;

所述合法性分值确定模块,具体用于:

根据各所述第一要素信息、所述第二要素信息,确定行为主体相同且涉及的个人信息相同的要素信息组;所述要素信息组中包括至少一个第一要素信息,以及至少一个第二要素信息;

比对所述要素信息组中包括的第二要素信息与任一个第一要素信息,根据所述比对结果确定所述待处理文件的合法性分值。

16.根据权利要求9‑15任一项所述的装置,其中,所述第一文件的数量为多个;

所述评价单元,包括:

文件分值确定模块,用于针对每个第一文件确定出的所述待处理文件的完整性分值,以及所述待处理文件的合法性分值,确定所述待处理文件与所述预设第一文件对应的文件评价分值;

评价模块,用于若所述待处理文件与每个所述第一文件对应的文件评价分值总和,大于或等于预设阈值,则确定所述待处理文件的评价结果为合法;否则,确定所述待处理文件的评价结果为不合法。

17.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑8中任一项所述的方法。

说明书 :

文件内容的评价方法、装置、电子设备及程序产品

技术领域

[0001] 本公开涉及计算机技术中的NLP技术,尤其涉及一种文件内容的评价方法、装置、电子设备及程序产品。

背景技术

[0002] 目前,在很多应用程序中设置有文件,当用户同意该文件中的相关条款时,可以使用应用程序所提供的功能。例如,该文件可以是涉及隐私政策等的文件。
[0003] 通常,这些文件是通过工作人员编写的。同时,这些文件应当符合国家制定的相关法律法规。
[0004] 工作人员将文件编写好以后,需要根据经验校验文件是否合规,但这种方式效率较低,且准确性差。

发明内容

[0005] 本公开提供了一种文件内容的评价方法、装置、电子设备及程序产品,以快速且准确的确定文件内容是否合规。
[0006] 根据本公开的第一方面,提供了一种文件内容的评价方法,包括:
[0007] 接收用于对待处理文件进行评价的请求,并根据所述请求获取待处理文件,以及用于评价所述待处理文件的预设的第一文件;
[0008] 根据所述第一文件,确定所述待处理文件的完整性分值,以及所述待处理文件的合法性分值;
[0009] 根据所述待处理文件的完整性分值和所述合法性分值,确定所述待处理文件的评价结果,所述评价结果用于表征所述待处理文件是否合规。
[0010] 根据本公开的第二方面,提供了一种文件内容的评价装置,包括:
[0011] 接收单元,用于接收用于对待处理文件进行评价的请求;
[0012] 获取单元,用于根据所述请求获取待处理文件,以及用于评价所述待处理文件的预设的第一文件;
[0013] 分值确定单元,用于根据所述第一文件,确定所述待处理文件的完整性分值,以及所述待处理文件的合法性分值;
[0014] 评价单元,用于根据所述待处理文件的完整性分值和所述合法性分值,确定所述待处理文件的评价结果,所述评价结果用于表征所述待处理文件是否合规。
[0015] 根据本公开的第三方面,提供了一种电子设备,包括:
[0016] 至少一个处理器;以及
[0017] 与所述至少一个处理器通信连接的存储器;其中,
[0018] 所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的方法。
[0019] 根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如第一方面所述的方法。
[0020] 根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
[0021] 本公开提供的文件内容的评价方法、装置、电子设备及程序产品,包括:接收用于对待处理文件进行评价的请求,并根据请求获取待处理文件,以及用于评价待处理文件的预设的第一文件;根据第一文件,确定待处理文件的完整性分值,以及待处理文件的合法性分值;根据待处理文件的完整性分值和合法性分值,确定待处理文件的评价结果,评价结果用于表征待处理文件是否合规。本公开提供的文件内容的评价方法、装置、电子设备及程序产品中,可以从完整性和合法性两个方面,利用预设的第一文件评价待处理文件,从而得到待处理文件准确的评价结果。同时,这种自动化评价待处理文件的方式,还能够提高文件的评价效率。
[0022] 应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

[0023] 附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0024] 图1为一种应用程序的界面示意图;
[0025] 图2为本公开一示例性实施例示出的文件内容的评价方法的流程示意图;
[0026] 图3为本公开另一示例性实施例示出的文件内容的评价方法的流程示意图;
[0027] 图4为本公开一示例性实施例示出的文件内容的评价装置的结构示意图;
[0028] 图5为本公开另一示例性实施例示出的文件内容的评价装置的结构示意图;
[0029] 图6是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

[0030] 以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0031] 图1为一种应用程序的界面示意图。
[0032] 如图1所示,在应用程序中通常会设置一些文件,用户在注册账户或使用应用程序中的一些功能时,需要同意文件中的条款。
[0033] 如图1所示,用户需要浏览文件11,并点击同意按键12,才能够继续操作应用程序。
[0034] 这些文件中包括多个条款,且各条款是人为编写的。对于编写条款的人员来说,需要凭借经验确定各条款是否符合国家制定的相关法律法规。对于使用应用程序的用户来说,不可能熟知相关法律法规,因此,也不能判断出文件中的条款是否合理。此外,对于监管部门,若通过人为核对应用程序中发布的文件是否合规,效率太低。
[0035] 因此,如何准确且快速的确定应用程序中设置的文件是否合规,是本领域技术人员亟需解决的技术问题。
[0036] 为了解决这一技术问题,本公开提供的方案中可以基于用户发出的评价请求,根据预先设置的第一文件确定待处理文件的分值,该第一文件例如可以是用于评价待处理文件的相关法律法规文件,进而可以基于该分值确定待处理文件是否合规。通过这种方式,能够快速且准确的确定出待处理文件是否合规。
[0037] 图2为本公开一示例性实施例示出的文件内容的评价方法的流程示意图。
[0038] 步骤201,接收用于对待处理文件进行评价的请求,并根据请求获取待处理文件,以及用于评价待处理文件的预设的第一文件。
[0039] 本公开提供的方法可以由具备计算能力的电子设备来执行,可以是用户终端,也可以是服务器。
[0040] 用户可以操作用户终端,向其发送用于对待处理文件进行评价的请求,也可以操作用户终端,通过用户终端向服务器发送用于对待处理文件进行评价的请求。
[0041] 进一步的,用户在操作时,可以选择需要待处理文件,比如,可以选择应用程序中设置的需要用户同意的文件,并点击评价按键,进而发出用于对待处理文件进行评价的请求。
[0042] 实际应用时,电子设备可以根据请求获取待处理文件,比如,请求中可以包括用户选择的待处理文件的信息,电子设备可以根据这一信息获取待处理文件。
[0043] 其中,电子设备可以获取用于评价待处理文件的预设的第一文件。该第一文件可以是法律法规等文件,电子设备可以根据需要评价的待处理文件,获取对应的第一文件。比如,针对隐私信息的待处理文件,电子设备可以获取与隐私信息对应的第一文件。再比如,针对支付相关的待处理文件,电子设备也可以获取与支付对应的第一文件。
[0044] 具体的,第一文件的数量可以包括多个,电子设备可以将第一文件作为标准文件,评价待处理文件中的内容是否合规。
[0045] 步骤202,根据第一文件,确定待处理文件的完整性分值,以及待处理文件的合法性分值。
[0046] 进一步的,可以利用预设的第一文件,从两个方面对待处理文件进行评价。第一个方面是完整性方面,可以通过第一文件,确定待处理文件中的内容是否完整。另一个方面是合法性,可以通过第一文件,确定待处理文件中包括的内容是否合法。
[0047] 实际应用时,法律法规的内容中从多个方面对文件中涉及的内容进行约束,可以比对第一文件中的内容与待处理文件中的内容,从而确定待处理文件中的内容是否完整。
[0048] 其中,还可以比对第一文件中的内容与待处理文件中的内容,确定待处理文件中已有的内容是否与第一文件中的内容相悖,从而确定其是否合法。
[0049] 具体的,电子设备可以通过自然语言处理技术(NLP,Natural  Language Processing)比对待处理文件与第一文件,进而确定待处理文件中的内容是否完整,以及是否合法。
[0050] 进一步的,若待处理文件中缺失内容,则可以在待处理文件的完整性总分基础上扣除相应分数,得到该待处理文件的完整性分值。若待处理文件中存在违法内容,则也可以在待处理文件的合法性总分基础上扣除相应分数,得到该待处理文件的合法性分值。
[0051] 从两个方面评价待处理文件,能够更加全面的得到待处理文件的评价结果,进而更准确的评估待处理文件。
[0052] 步骤203,根据待处理文件的完整性分值和合法性分值,确定待处理文件的评价结果,评价结果用于表征待处理文件是否合规。
[0053] 其中,电子设备还可以根据待处理文件的完整性分值和合法性分值,确定待处理文件的评价结果。比如,可以将完整性分值与合法性分值相加,得到待处理文件的评价结果。
[0054] 具体的,若存在多个用于评价待处理文件的第一文件,则电子设备可以利用每个第一文件评价待处理文件,得到相应的完整性分值和合法性分值,进而得到利用该第一文件评价待处理文件的评价结果。通过这种方式,电子设备能够得到每个第一文件对待处理文件的评价结果。
[0055] 例如,存在5个第一文件分别为A、B、C、D、E,则可以得到利用A评价待处理文件的评价结果,利用B评价待处理文件的评价结果,利用C评价待处理文件的评价结果,利用D评价待处理文件的评价结果,利用E评价待处理文件的评价结果。
[0056] 进一步的,评价结果能够表征出待处理文件是否合规,例如,若评价结果的分值低于预设的阈值,则电子设备可以确定该待处理文件不符合相应的第一文件,是不合规的。若评价结果的分值大于阈值,则电子设备可以确定待处理文件符合相应的第一文件,是合规的。
[0057] 实际应用时,若待处理文件符合每个第一文件的要求,则最终可以确定待处理文件是合规的。电子设备还可以输出评价结果,比如可以是通过,再比如可以是合规,还可以直接输出确定的分值等。
[0058] 本公开提供的文件内容的评价方法,包括:接收用于对待处理文件进行评价的请求,并根据请求获取待处理文件,以及用于评价待处理文件的预设的第一文件;根据第一文件,确定待处理文件的完整性分值,以及待处理文件的合法性分值;根据待处理文件的完整性分值和合法性分值,确定待处理文件的评价结果,评价结果用于表征待处理文件是否合规。本公开提供的方案中,可以从完整性和合法性两个方面,利用预设的第一文件评价待处理文件,从而得到待处理文件准确的评价结果。同时,这种自动化评价待处理文件的方式,还能够提高文件的评价效率。
[0059] 图3为本公开另一示例性实施例示出的文件内容的评价方法的流程示意图。
[0060] 如图3所示,本公开提供的文件内容的评价方法,包括:
[0061] 步骤301,接收用于对待处理文件进行评价的请求,并根据请求获取待处理文件,以及用于评价待处理文件的预设的第一文件。
[0062] 步骤301与步骤201的实现方式类似,不再赘述。
[0063] 步骤302,获取第一文件中包括的章节信息。
[0064] 其中,电子设备可以获取每个第一文件中包括的章节信息,比如,第一文件中可以包括各章节的标题信息,则电子设备可以获取各章节的标题信息,作为第一文件的章节信息。再比如,若第一文件没有章节信息,则电子设备可以通过语义分析技术,分析各章节的主要内容,进而得到多个章节的信息。
[0065] 步骤303,根据第一文件中包括的章节信息,确定待处理文件的完整性分值。
[0066] 具体的,电子设备可以确定待处理文件中的内容,是否包括第一文件中的各章节信息,若待处理文件中的内容,包括各个第一文件中的各章节信息,则可以确定待处理文件是完整的,完整性分值可以是预设的总完整性分值。
[0067] 若待处理文件中的内容,缺少各个第一文件中的任一个章节信息,则可以确定待处理文件是不完整的,可以在预设的总完整性分值基础上扣除缺少章节对应的分值,得到该待处理文件的完整性分值。
[0068] 例如,存在第一文件包括章节1、章节2、章节3。若待处理文件的内容中包括章节1的内容和章节2的内容,但不包括章节3的内容,则可以在预设的总完整性分值基础上,扣除与章节3对应的分值,得到待处理文件的完整性分值。
[0069] 通过这种方式,能够确定出待处理文件中的内容是否与第一文件中的内容对应,从而从整体性的角度评价待处理文件,且无需人工审核待处理文件中的内容是否完整,能够快速且准确的评价待处理文件。
[0070] 其中,电子设备具体可以根据第一文件中包括的章节信息,确定待处理文件中各语句所涉及的关联章节。比如,可以对待处理文件中的每个语句进行语义分析,确定该语句与第一文件中的哪个章节关联,比如,若待处理文件中的第一个语句与第一文件的章节1关联,则可以确定该语句的关联章节是章节1。
[0071] 通过这种方式,可以确定出待处理文件中每一句话所涉及的关联章节。
[0072] 具体的,电子设备还可以比对待处理文件中涉及的全部关联章节,与第一文件中包括的章节信息。若全部关联章节中缺失任一章节信息,则在预设的完整性总分值基础上扣除与缺失的章节信息对应的分值,得到待处理文件的完整性分值。
[0073] 进一步的,若全部关联章节中包括全部的第一文件中的章节信息,则可以确定待处理文件包括第一文件中的全部章节信息,进而能够确定出待处理文件的内容是完整的。
[0074] 若全部关联章节中缺失第一文件中的任一章节信息,则说明待处理文件缺失第一文件中的该章节信息,因此,待处理文件的内容不完整,可以在预设的完整性总分值基础上扣除与缺失的章节信息对应的分值,得到待处理文件的完整性分值。
[0075] 例如,第一文件中包括10个章节信息,待处理文件中包括其中的8个章节信息,则可以在预设的完整性总分值基础上扣除与缺失的2个章节信息对应的分值,得到该待处理文件的完整性分值。
[0076] 通过先确定待处理文件中的关联章节,再确定待处理文件的内容缺失的章节信息,进而能够准确的确定出待处理文件缺少的内容,以得到待处理文件的完整性分值。
[0077] 步骤304,基于预设的信息抽取方法在第一文件的条文中,抽取第一要素信息;其中,一条第一要素信息与第一文件中的一个条文对应。
[0078] 步骤305,基于预设的信息抽取方法在待处理文件的语句中,抽取与各语句对应的各第二要素信息。
[0079] 其中,在确定待处理文件的完整性时,电子设备还可以确定待处理文件的合法性分值。
[0080] 具体的,可以在电子设备中预先设置信息抽取方法,用于在文件中抽取要素信息。电子设备可以基于该方法在第一文件中抽取第一要素信息,并在待处理文件中抽取第二要素信息。
[0081] 进一步的,可以通过预设的信息抽取方法在第一文件中的每个条文中抽取出一个第一要素信息。比如,针对第一文件的第一句话,可以抽取第一要素信息1,针对第一文件的第二句话,可以抽取出第一要素信息2。
[0082] 实际应用时,可以通过预设的信息抽取方法在待处理文件中的每句话中抽取出一个第二要素信息。比如,针对待处理文件的第一句话,可以抽取第二要素信息1,针对待处理文件的第二句话,可以抽取出第二要素信息2。
[0083] 具体的,抽取要素的信息的具体方式可以为:
[0084] 对待处理的文本内容中识别实体,并确定实体之间的关系;待处理的文本内容包括法律条文、待处理文件中的语句。
[0085] 进一步的,电子设备可以基于现有技术中的自然语言处理技术对待处理的文本内容进行处理,识别出该文本内容中的实体。待处理文本内容可以是第一文件中的条文,还可以是待处理文件中的语句。
[0086] 实体识别的标准算法是一个逐词的序列标记任务,其中指定的标记同时捕获边界和类型。序列分类器(如MEMM/CRF或bi‑LSTM)被训练为在文本中使用标记来标记,这些标记表示文本内容中特定类型的命名实体的存在。
[0087] 电子设备还可以基于自然语言处理技术确定各个实体之间的关系,具体可以使用自然语言处理技术中的依存句法分析和语义角色标注来抽取实体之间的关系。
[0088] 一种应用场景中,待处理文件可以是应用程序中设置的涉及用户隐私的文件。此时,电子设备根据实体之间的关系,在实体中确定出要素信息;其中,要素信息包括行为主体、涉及的个人信息,以及以下任一种信息:权利、义务、法律责任。
[0089] 例如,一个文本内容为“有关部门应当对举报人的相关信息予以保密”,从这句话中,能够识别出实体:“有关部门”、“举报人”、“相关信息”。然后通过依存句法分析和语义角色标注,电子设备可以确定出,核心谓词是“保密”,行为主体是“有关部门”,而“举报人”是“相关信息”的定语,应该合并视为一个实体;“应当”是一种描述义务的表述方式。综合以上信息,本句可以转化为如下五元组:
[0090] 行为主体:“有关部门”
[0091] 涉及的个人信息:“举报人的相关信息”
[0092] 权利:无
[0093] 义务:对举报人的相关信息予以保密
[0094] 法律责任:无
[0095] 通过这种方式,电子设备可以基于自然语言处理技术从第一文件和待处理文件中分别提取出要素信息,从而得到第一文件和待处理文件中每句话的要素,该要素能够体现出第一文件和待处理文件中每句话涉及的核心内容,因此,可以通过比对第一文件和待处理文件的要素准确、快速的确定待处理文件的合法性分值。
[0096] 在一种可选的实施方式中,根据实体之间的关系确定要素信息时,可以根据实体之间的关系确定待处理的文本内容中的谓语;根据谓语在实体中确定出主语实体,并将主语实体确定为行为主体。
[0097] 其中,在涉及用户隐私的文件的应用场景中,通常语句会存在谓语,例如“保密”,再例如“收集”等,基于其他实体与该谓语之间的实体关系,可以确定出谓语的执行主体,进而确定出要素信息中的行为主体。
[0098] 通过这种方式能够快速且准确的在实体中确定出行为主体,进而得到一部分要素信息。
[0099] 具体的,在确定要素信息时,还可以包括根据所述实体之间的关系确定所述待处理的文本内容中的谓语;
[0100] 根据所述谓语在所述实体中确定出谓语作用的对象实体,并将所述位于作用的对象实体确定为以下任一种信息:
[0101] 个人信息、权利、义务、法律责任。
[0102] 进一步的,在确定出文本内容中的谓语以后,电子设备还可以根据其他实体与该谓语之间的关系,确定出该谓语所作用的对象实体,例如,谓语是“采集”时,采集所作用的实体即为对象实体。
[0103] 实际应用时,对象实体可以是个人信息、权利、义务、法律责任中的任一种。比如,谓语“收集”的对象实体是“XXX信息”,则XXX信息可以是个人信息,再例如,谓语“承担”的对象实体是“XXX责任”,则XXX责任可以是法律责任。
[0104] 通过这种方式,电子设备能够基于自然语言处理技术在文本内容中识别出个人信息、权利、义务、法律责任等要素信息,由于确定待处理文件中的内容是否合规,需要关注的信息即为个人信息、权利、义务、法律责任等内容,因此,通过本公开提供的方案,能够自动的从待处理文件和第一文件中提取这些要素信息,从而确定待处理文件中的语句是否符合第一文件中的语句,从而可以得到待处理文件的评价结果。
[0105] 其中,将谓语作用的对象实体确定为以下任一种信息:个人信息、权利、义务、法律责任,包括:
[0106] 将对象实体输入预设的信息分类模型,得到与对象实体对应的信息;
[0107] 或者,根据预设的关键词与信息之间的对应关系,以及对象实体中包括的词汇,确定对象实体对应的信息。
[0108] 具体的,可以预先训练信息分类模型,电子设备将对象实体输入该模型,模型能够输出对象实体对应的信息。
[0109] 另一种实现方式中,还可以预先设置关键词与信息之间的对应关系,比如存在关键词“责任”与“法律责任”之间的对应关系,则电子设备可以将包括“责任”的实体,确定为法律责任这一要素信息。
[0110] 再比如“应当xxx”一般表示义务,“可以xxx”和“有权xxx”等表示权利,可以预先收集这些固定的表达方式进行机器学习或者建立字典就可以分辨这些实体属于什么类型。
[0111] 通过上述实施方式,电子设备能够将对象实体确定为个人信息、权利、义务、法律责任中的任一种信息,进而提取出待处理文件和第一文件中的要素信息,使得电子设备可以通过比对两个文件的这些要素信息确定待处理文件的合法性分值。
[0112] 步骤306,根据第一要素信息、第二要素信息,确定待处理文件的合法性分值。
[0113] 其中,电子设备可以比对第一要素信息和第二要素信息,进而确定待处理文件中的语句,是否符合第一文件中的规定。
[0114] 若每个第二要素信息都符合各个第一要素信息,则可以确定待处理文件中的语句符合第一文件的规定,若一个第二要素信息不符合任一个第一要素信息,则可以确定待处理文件中与该第二要素信息对应的语句不符合第一文件的规定。
[0115] 通过提取第一文件和待处理文件中的要素,能够通过比对要素的方式比对第一文件中的规定与待处理文件中的语句,进而提高比对第一文件和待处理文件的速度,以提高确定待处理文件合法性的效率。
[0116] 具体的,要素信息包括行为主体、涉及的个人信息,以及以下任一种信息:权利、义务、法律责任。
[0117] 在比对第一要素信息与第二要素信息时,电子设备可以根据各第一要素信息、第二要素信息,确定行为主体相同且涉及的个人信息相同的要素信息组;要素信息组中包括至少一个第一要素信息,以及至少一个第二要素信息。
[0118] 行为主体相同,且涉及的个人信息相同,则说明这两个要素信息是描述相同行为主体对相同的个人信息的行为,因此,通过比对这两个要素信息,能够确定出待处理文件中的语句是否符合第一文件中的条文要求。
[0119] 其中,电子设备可以比对要素信息组中包括的第二要素信息与任一个第一要素信息,根据比对结果确定待处理文件的合法性分值。
[0120] 具体可以比对要素信息组中包括的第二要素信息与任一个第一要素信息,根据比对结果确定第二要素信息的要素合法性。具体可以比对两个要素信息中除了行为主体和个人信息以外的其他信息,以确定第二要素信息是否符合信息组中的任一个第一要素信息,若均符合,则确定该第二要素信息是符合第一文件的,否则,可以认为第一要素信息不符合该第一文件的要求。
[0121] 具体的,若第二要素信息不符合一条第一要素信息,则可以扣减与该第二要素信息的分值,最终得到待处理文件的合法性分值。
[0122] 通过比对待处理文件和第一文件中的要素信息,能够得到待处理文件与第一文件之间的不相符的内容,进而基于二者差异确定出待处理文件的合法性分值。这种方式无需人工比对待处理文件和第一文件,就能够得到待处理文件与第一文件之间的比对结果,进而能够准确且快速的得到待处理文件的评价结果。
[0123] 步骤307,针对每个第一文件确定出的待处理文件的完整性分值,以及待处理文件的合法性分值,确定待处理文件与预设第一文件对应的文件评价分值。
[0124] 在一种可选的实施方式中,第一文件的数量为多个,电子设备可以利用每个第一文件对待处理文件进行评价,得到与该第一文件对应的待处理文件的完整性分值和合法性分值。例如,设置有5个第一文件,则电子设备能够利用这个5个第一文件逐一的对待处理文件进行处理,得到五组完整性分值和合法性分值。
[0125] 电子设备可以将一组完整性分值和合法性分值相加,得到与第一文件对应的文件评价分值。比如,利用第一文件A对待处理文件进行评价得到完整性分值a1,以及合法性分值a2,则电子设备可以对a1和a2相加,得到第一文件A对待处理文件的文件评价分值。
[0126] 步骤308,若待处理文件与每个第一文件对应的文件评价分值总和,大于或等于预设阈值,则确定待处理文件的评价结果为合法;否则,确定待处理文件的评价结果为不合法。
[0127] 其中,还可以确定各第一文件的文件评价分值总和,若该总和大于或等于预设阈值,则可以确定待处理文件的评价结果为合法。否则,电子设备可以将待处理文件的评价结果确定为不合法。
[0128] 具体的,通过这种方式,电子设备能够从待处理文件的内容完整性,以及内容合法性两个方面评估待处理文件是否合规,因此,本公开提供的方案能够通过自动化的方式准确的确定出待处理文件是否合规。
[0129] 图4为本公开一示例性实施例示出的文件内容的评价装置的结构示意图。
[0130] 如图4所示,本公开提供的文件内容的评价装置400,包括:
[0131] 接收单元410,用于接收用于对待处理文件进行评价的请求;
[0132] 获取单元420,用于根据所述请求获取待处理文件,以及用于评价所述待处理文件的预设的第一文件;
[0133] 分值确定单元430,用于根据所述第一文件,确定所述待处理文件的完整性分值,以及所述待处理文件的合法性分值;
[0134] 评价单元440,用于根据所述待处理文件的完整性分值和所述合法性分值,确定所述待处理文件的评价结果,所述评价结果用于表征所述待处理文件是否合规。
[0135] 本公开提供的方案中,可以从完整性和合法性两个方面,利用预设的第一文件评价待处理文件,从而得到待处理文件准确的评价结果。同时,这种自动化评价待处理文件的方式,还能够提高文件的评价效率。
[0136] 图5为本公开另一示例性实施例示出的文件内容的评价装置的结构示意图。
[0137] 如图5所示,本公开提供的文件内容的评价装置500中,接收单元510与图4中所示的接收单元410相似,获取单元520与图4中所示的获取单元420相似,分值确定单元530与图4中所示的分值确定单元430相似,评价单元540与图4中所示的评价单元440相似。
[0138] 其中,所述分值确定单元530,包括完整性分值确定模块531,用于:
[0139] 获取所述第一文件中包括的章节信息;
[0140] 根据所述第一文件中包括的章节信息,确定所述待处理文件的完整性分值。
[0141] 其中,所述完整性分值确定模块531,具体用于:
[0142] 根据所述第一文件中包括的章节信息,确定所述待处理文件中各语句所涉及的关联章节;
[0143] 比对所述待处理文件中涉及的全部关联章节,与所述第一文件中包括的章节信息;
[0144] 若所述全部关联章节中缺失任一所述章节信息,则在预设的完整性总分值基础上扣除与缺失的章节信息对应的分值,得到所述待处理文件的完整性分值。
[0145] 其中,所述分值确定单元530,包括合法性分值确定模块532,用于:
[0146] 基于预设的信息抽取方法在所述第一文件的条文中,抽取第一要素信息;其中,一条第一要素信息与所述第一文件中的一个条文对应;
[0147] 基于所述预设的信息抽取方法在所述待处理文件的语句中,抽取与各所述语句对应的各第二要素信息;
[0148] 根据所述第一要素信息、所述第二要素信息,确定所述待处理文件的合法性分值。
[0149] 其中,合法性分值确定模块532具体用于:
[0150] 对待处理的文本内容中识别实体,并确定实体之间的关系;所述待处理的文本内容包括所述第一文件中的条文、所述待处理文件中的语句;
[0151] 根据所述实体之间的关系,在所述实体中确定出所述要素信息;其中,所述要素信息包括行为主体、涉及的个人信息,以及以下任一种信息:
[0152] 权利、义务、法律责任。
[0153] 其中,所述合法性分值确定模块532具体用于:
[0154] 根据所述实体之间的关系确定所述待处理的文本内容中的谓语;
[0155] 根据所述谓语在所述实体中确定出主语实体,并将所述主语实体确定为所述行为主体。
[0156] 其中,所述合法性分值确定模块532具体用于:
[0157] 根据所述实体之间的关系确定所述待处理的文本内容中的谓语;
[0158] 根据所述谓语在所述实体中确定出谓语作用的对象实体,并将所述谓语作用的对象实体确定为以下任一种信息:
[0159] 个人信息、权利、义务、法律责任。
[0160] 其中,所述合法性分值确定模块532具体用于:
[0161] 将所述对象实体输入预设的信息分类模型,得到与所述对象实体对应的信息;
[0162] 或者,根据预设的关键词与信息之间的对应关系,以及所述对象实体中包括的词汇,确定所述对象实体对应的信息。
[0163] 其中,所述要素信息包括行为主体、涉及的个人信息,以及以下任一种信息:
[0164] 权利、义务、法律责任;
[0165] 所述合法性分值确定模块532,具体用于:
[0166] 根据各所述第一要素信息、所述第二要素信息,确定行为主体相同且涉及的个人信息相同的要素信息组;所述要素信息组中包括至少一个第一要素信息,以及至少一个第二要素信息;
[0167] 比对所述要素信息组中包括的第二要素信息与任一个第一要素信息,根据所述比对结果确定所述待处理文件的合法性分值。
[0168] 其中,所述第一文件的数量为多个;
[0169] 所述评价单元540,包括:
[0170] 文件分值确定模块541,用于针对每个第一文件确定出的所述待处理文件的完整性分值,以及所述待处理文件的合法性分值,确定所述待处理文件与所述预设第一文件对应的文件评价分值;
[0171] 评价模块542,用于若所述待处理文件与每个所述第一文件对应的文件评价分值总和,大于或等于预设阈值,则确定所述待处理文件的评价结果为合法;否则,确定所述待处理文件的评价结果为不合法。
[0172] 本公开提供一种文件内容的评价方法、装置、电子设备及程序产品,应用于计算机技术中的NLP技术,以快速且准确的确定文件内容是否合规。
[0173] 本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0174] 根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0175] 根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
[0176] 图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0177] 如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
[0178] 设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0179] 计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如文件内容的评价方法。例如,在一些实施例中,文件内容的评价方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的文件内容的评价方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文件内容的评价方法。
[0180] 本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0181] 用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0182] 在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0183] 为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0184] 可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
[0185] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0186] 应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0187] 上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。