基于电子书的实体关联信息的展示方法及电子设备转让专利

申请号 : CN201910964989.0

文献号 : CN110716991B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 乔明务晓敏

申请人 : 掌阅科技股份有限公司

摘要 :

本发明公开了一种基于电子书的实体关联信息的展示方法及电子设备,该方法包括:确定阅读页面中包含的实体关键词;在所述阅读页面中显示所述实体关键词所对应的关联搜索入口元素;当检测到通过所述关联搜索入口元素触发的关联搜索请求时,获取并展示与所述关联搜索请求相对应的实体关联信息。该方式能够根据关联搜索入口元素进行关联搜索,从而便于用户进行扩展阅读,提升阅读效率。

权利要求 :

1.一种基于电子书的实体关联信息的展示方法,包括:

确定阅读页面中包含的实体关键词;其中,获取电子书的原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;将所述第一实体识别结果与所述第二实体识别结果进行比较,根据比较结果对第一实体识别结果和/或第二实体识别结果进行修正,以识别所述原始文本中包含的实体关键词;

在所述阅读页面中显示所述实体关键词所对应的关联搜索入口元素;

当检测到通过所述关联搜索入口元素触发的关联搜索请求时,获取并展示与所述关联搜索请求相对应的实体关联信息。

2.根据权利要求1所述的方法,其中,所述确定阅读页面中包含的实体关键词包括:预先识别电子书的原始文本中包含的实体关键词,并确定各个实体关键词在所述电子书中对应的偏移量信息;

则所述当检测到通过所述关联搜索入口元素触发的关联搜索请求时,获取并展示与所述关联搜索请求相对应的实体关联信息包括:确定与所述关联搜索入口元素相对应的文本内容的偏移量信息,根据所述偏移量信息确定与所述关联搜索入口元素相对应的实体关键词;

获取与所述实体关键词相匹配的实体关联信息,将所述实体关联信息展示在关联结果页面中。

3.根据权利要求2所述的方法,其中,所述实体关联信息包括书籍类关联信息,所述获取与所述实体关键词相匹配的实体关联信息包括:根据所述实体关键词在各个电子书中的出现次数,和/或各个电子书的用户交互数据,从数据库所包含的电子书中筛选关联电子书;

根据筛选出的关联电子书确定与所述实体关键词相匹配的书籍类关联信息。

4.根据权利要求2所述的方法,其中,所述实体关联信息包括章节段落类关联信息,所述获取与所述实体关键词相匹配的实体关联信息包括:根据所述实体关键词在当前电子书中的各个章节和/或段落中的出现次数,和/或所述各个章节和/或段落的用户交互数据,从当前电子书所包含的各个章节和/或段落中筛选关联章节和/或关联段落;

根据筛选出的关联章节和/或关联段落确定与所述实体关键词相匹配的章节段落类关联信息。

5.根据权利要求2-4任一所述的方法,其中,所述预先识别电子书的原始文本中包含的实体关键词进一步包括:针对已识别出的实体关键词,当所述实体关键词为人名类型时,获取与该人名类型的实体关键词相对应的人物搜索结果;

判断所述人物搜索结果中是否包含生卒年月信息;若是,则保留该人名类型的实体关键词;若否,则删除该人名类型的实体关键词。

6.根据权利要求1-4任一所述的方法,其中,所述在所述阅读页面中显示所述实体关键词所对应的关联搜索入口元素包括:根据标注属性信息对所述实体关键词进行标注处理,将标注信息作为所述实体关键词所对应的关联搜索入口元素;

其中,所述标注处理包括:高亮显示、添加下划线、和/或添加超链接;其中,下划线包括实线或虚线。

7.根据权利要求1-4任一所述的方法,其中,所述关联搜索入口元素的响应优先级低于预设交互元素的响应优先级;其中,所述预设交互元素包括:划线类交互元素;

则所述当检测到通过所述关联搜索入口元素触发的关联搜索请求时,获取并展示与所述关联搜索请求相对应的实体关联信息包括:当检测到与所述关联搜索入口元素相匹配的交互事件时,判断所述关联搜索入口元素与预设交互元素之间是否存在重合区域;

若否,触发关联搜索请求;若是,触发与所述预设交互元素相对应的交互请求。

8.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:确定阅读页面中包含的实体关键词;其中,获取电子书的原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;将所述第一实体识别结果与所述第二实体识别结果进行比较,根据比较结果对第一实体识别结果和/或第二实体识别结果进行修正,以识别所述原始文本中包含的实体关键词;

在所述阅读页面中显示所述实体关键词所对应的关联搜索入口元素;

当检测到通过所述关联搜索入口元素触发的关联搜索请求时,获取并展示与所述关联搜索请求相对应的实体关联信息。

9.根据权利要求8所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:预先识别电子书的原始文本中包含的实体关键词,并确定各个实体关键词在所述电子书中对应的偏移量信息;

确定与所述关联搜索入口元素相对应的文本内容的偏移量信息,根据所述偏移量信息确定与所述关联搜索入口元素相对应的实体关键词;

获取与所述实体关键词相匹配的实体关联信息,将所述实体关联信息展示在关联结果页面中。

10.根据权利要求9所述的电子设备,其中,所述实体关联信息包括书籍类关联信息,所述可执行指令使所述处理器执行以下操作:根据所述实体关键词在各个电子书中的出现次数,和/或各个电子书的用户交互数据,从数据库所包含的电子书中筛选关联电子书;

根据筛选出的关联电子书确定与所述实体关键词相匹配的书籍类关联信息。

11.根据权利要求9所述的电子设备,其中,所述实体关联信息包括章节段落类关联信息,所述可执行指令使所述处理器执行以下操作:根据所述实体关键词在当前电子书中的各个章节和/或段落中的出现次数,和/或所述各个章节和/或段落的用户交互数据,从当前电子书所包含的各个章节和/或段落中筛选关联章节和/或关联段落;

根据筛选出的关联章节和/或关联段落确定与所述实体关键词相匹配的章节段落类关联信息。

12.根据权利要求9-11任一所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:针对已识别出的实体关键词,当所述实体关键词为人名类型时,获取与该人名类型的实体关键词相对应的人物搜索结果;

判断所述人物搜索结果中是否包含生卒年月信息;若是,则保留该人名类型的实体关键词;若否,则删除该人名类型的实体关键词。

13.根据权利要求8-11任一所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:根据标注属性信息对所述实体关键词进行标注处理,将标注信息作为所述实体关键词所对应的关联搜索入口元素;

其中,所述标注处理包括:高亮显示、添加下划线、和/或添加超链接;其中,下划线包括实线或虚线。

14.根据权利要求8-11任一所述的电子设备,其中,所述关联搜索入口元素的响应优先级低于预设交互元素的响应优先级;其中,所述预设交互元素包括:划线类交互元素;

则所述可执行指令使所述处理器执行以下操作:

当检测到与所述关联搜索入口元素相匹配的交互事件时,判断所述关联搜索入口元素与预设交互元素之间是否存在重合区域;

若否,触发关联搜索请求;若是,触发与所述预设交互元素相对应的交互请求。

15.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:确定阅读页面中包含的实体关键词;其中,获取电子书的原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;将所述第一实体识别结果与所述第二实体识别结果进行比较,根据比较结果对第一实体识别结果和/或第二实体识别结果进行修正,以识别所述原始文本中包含的实体关键词;

在所述阅读页面中显示所述实体关键词所对应的关联搜索入口元素;

当检测到通过所述关联搜索入口元素触发的关联搜索请求时,获取并展示与所述关联搜索请求相对应的实体关联信息。

16.根据权利要求15所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:预先识别电子书的原始文本中包含的实体关键词,并确定各个实体关键词在所述电子书中对应的偏移量信息;

确定与所述关联搜索入口元素相对应的文本内容的偏移量信息,根据所述偏移量信息确定与所述关联搜索入口元素相对应的实体关键词;

获取与所述实体关键词相匹配的实体关联信息,将所述实体关联信息展示在关联结果页面中。

17.根据权利要求16所述的计算机存储介质,其中,所述实体关联信息包括书籍类关联信息,所述可执行指令使所述处理器执行以下操作:根据所述实体关键词在各个电子书中的出现次数,和/或各个电子书的用户交互数据,从数据库所包含的电子书中筛选关联电子书;

根据筛选出的关联电子书确定与所述实体关键词相匹配的书籍类关联信息。

18.根据权利要求16所述的计算机存储介质,其中,所述实体关联信息包括章节段落类关联信息,所述可执行指令使所述处理器执行以下操作:根据所述实体关键词在当前电子书中的各个章节和/或段落中的出现次数,和/或所述各个章节和/或段落的用户交互数据,从当前电子书所包含的各个章节和/或段落中筛选关联章节和/或关联段落;

根据筛选出的关联章节和/或关联段落确定与所述实体关键词相匹配的章节段落类关联信息。

19.根据权利要求16-18任一所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:针对已识别出的实体关键词,当所述实体关键词为人名类型时,获取与该人名类型的实体关键词相对应的人物搜索结果;

判断所述人物搜索结果中是否包含生卒年月信息;若是,则保留该人名类型的实体关键词;若否,则删除该人名类型的实体关键词。

20.根据权利要求15-18任一所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:根据标注属性信息对所述实体关键词进行标注处理,将标注信息作为所述实体关键词所对应的关联搜索入口元素;

其中,所述标注处理包括:高亮显示、添加下划线、和/或添加超链接;其中,下划线包括实线或虚线。

21.根据权利要求15-18任一所述的计算机存储介质,其中,所述关联搜索入口元素的响应优先级低于预设交互元素的响应优先级;其中,所述预设交互元素包括:划线类交互元素;

则所述可执行指令使所述处理器执行以下操作:

当检测到与所述关联搜索入口元素相匹配的交互事件时,判断所述关联搜索入口元素与预设交互元素之间是否存在重合区域;

若否,触发关联搜索请求;若是,触发与所述预设交互元素相对应的交互请求。

说明书 :

基于电子书的实体关联信息的展示方法及电子设备

技术领域

[0001] 本发明涉及计算机领域,具体涉及一种基于电子书的实体关联信息的展示方法及电子设备。

背景技术

[0002] 随着人们阅读意识的增强,电子书得到了越来越多用户的青睐。借助电子书应用,用户能够在移动设备上随时随地阅读书籍。在现有技术中,电子书应用主要用于通过屏幕终端向用户展示电子化的书籍内容,以便于用户利用终端设备阅读电子化书籍。
[0003] 但是,发明人在实现本发明的过程中发现,现有技术中的上述方案至少存在下述缺陷:在现有的电子书应用中,阅读页面中的全部文字内容均采用统一的形式进行展示,不利于用户捕捉关键内容;并且,用户无法针对阅读页面中的内容进行关联搜索,无法实现扩展阅读。

发明内容

[0004] 鉴于上述问题,本发明提供了一种克服上述问题或者至少部分地解决上述问题的基于电子书的实体关联信息的展示方法及电子设备。
[0005] 根据本发明的一个方面,提供了一种基于电子书的实体关联信息的展示方法,包括:
[0006] 确定阅读页面中包含的实体关键词;
[0007] 在所述阅读页面中显示所述实体关键词所对应的关联搜索入口元素;
[0008] 当检测到通过所述关联搜索入口元素触发的关联搜索请求时,获取并展示与所述关联搜索请求相对应的实体关联信息。
[0009] 根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0010] 所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
[0011] 确定阅读页面中包含的实体关键词;
[0012] 在所述阅读页面中显示所述实体关键词所对应的关联搜索入口元素;
[0013] 当检测到通过所述关联搜索入口元素触发的关联搜索请求时,获取并展示与所述关联搜索请求相对应的实体关联信息。
[0014] 根据本发明的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
[0015] 确定阅读页面中包含的实体关键词;
[0016] 在所述阅读页面中显示所述实体关键词所对应的关联搜索入口元素;
[0017] 当检测到通过所述关联搜索入口元素触发的关联搜索请求时,获取并展示与所述关联搜索请求相对应的实体关联信息。
[0018] 在本发明提供的基于电子书的实体关联信息的展示方法及电子设备中,能够确定阅读页面中包含的实体关键词,并在阅读页面中显示实体关键词所对应的关联搜索入口元素,相应地,能够根据检测到的通过关联搜索入口元素触发的关联搜索请求展示与关联搜索请求相对应的实体关联信息。由此可见,通过该方式,一方面,能够识别阅读页面中的实体关键词并显示对应的关联搜索入口元素,从而便于用户捕捉以实体关键词为代表的关键内容;另一方面,能够根据关联搜索入口元素进行关联搜索,从而便于用户进行扩展阅读,提升阅读效率。
[0019] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

[0020] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0021] 图1示出了本发明一个实施例提供的基于电子书的实体关联信息的展示方法的流程图;
[0022] 图2示出了本发明另一个实施例提供的基于电子书的实体关联信息的展示方法的流程图;
[0023] 图3示出了根据本发明另一个实施例的一种电子设备的结构示意图。

具体实施方式

[0024] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0025] 实施例一
[0026] 图1示出了本发明一个实施例提供的基于电子书的实体关联信息的展示方法的流程图。如图1所示,该方法包括以下步骤:
[0027] 步骤S110:确定阅读页面中包含的实体关键词。
[0028] 其中,实体关键词是指:词性为名词且用于指示实体名称的词汇。例如,人名、机构名、地名以及其他所有以名称为标识的实体,甚至还可以包括数字、日期、货币、地址、事件等各类名词性的实体词。总之,凡是名词性的、能够指代具体事物的词汇均可作为本实施例中的实体关键词。
[0029] 具体地,在确定阅读页面中包含的实体关键词时,可灵活通过多种方式确定,例如,可以通过语义识别的方式识别文档中包含的实体关键词,还可以结合用户反馈的评论内容、标注信息等识别文档中包含的实体关键词,总之,本发明不限定实体关键词的具体确定方式。
[0030] 步骤S120:在阅读页面中显示实体关键词所对应的关联搜索入口元素。
[0031] 其中,为了便于用户捕捉阅读页面中的关键内容,也为了便于用户通过关联搜索的方式扩展阅读,针对阅读页面中的实体关键词设置关联搜索入口元素。其中,关联搜索入口元素的形式可以由本领域技术人员灵活设置,本发明对此不做限定。例如,关联搜索入口元素可以为超链接、搜索按钮等各类形式。
[0032] 步骤S130:当检测到通过关联搜索入口元素触发的关联搜索请求时,获取并展示与关联搜索请求相对应的实体关联信息。
[0033] 具体地,通过关联搜索入口元素能够触发关联搜索请求,相应地,当检测到通过关联搜索入口元素触发的关联搜索请求时,获取与该关联搜索请求相对应的实体关联信息,并将获取到的实体关联信息展示给用户。具体实施时,需要根据关联搜索请求中包含的用于标识实体关键词的标识信息,确定与当关联搜索请求相对应的实体关联信息,其中,该实体关联信息是与实体关键词存在预设关联关系的内容,例如,可以是包含该实体关键词的电子书名称、包含该实体关联词的精彩段落等,本发明对实体关联信息的具体内涵不做限定,只要能够实现扩展阅读的目的即可。
[0034] 由此可见,在本发明提供的基于电子书的实体关联信息的展示方法中,能够确定阅读页面中包含的实体关键词,并在阅读页面中显示实体关键词所对应的关联搜索入口元素,相应地,能够根据检测到的通过关联搜索入口元素触发的关联搜索请求展示与关联搜索请求相对应的实体关联信息。由此可见,通过该方式,一方面,能够识别阅读页面中的实体关键词并显示对应的关联搜索入口元素,从而便于用户捕捉以实体关键词为代表的关键内容;另一方面,能够根据关联搜索入口元素进行关联搜索,从而便于用户进行扩展阅读,提升阅读效率。
[0035] 实施例二
[0036] 图2示出了本发明另一个实施例提供的基于电子书的实体关联信息的展示方法的流程图。如图2所示,该方法包括以下步骤:
[0037] 步骤S210:确定阅读页面中包含的实体关键词。
[0038] 具体地,在本实施例中,预先识别电子书的原始文本中包含的实体关键词,并确定各个实体关键词在电子书中对应的偏移量信息。其中,预先针对电子书的原始文本进行识别,有利于提升后续的展示速度,当然,在本发明其他的实施例中,也可以在电子书的阅读过程中实时识别阅读页面中包含的实体关键词,本发明对实体关键词的识别时机不做限定。
[0039] 具体实施时,可通过如下方式识别实体关键词:
[0040] 首先,获取电子书的原始文本中包含的各个文字以及各个文字的初始字向量,获取原始文本中包含的各个分词以及各个分词的初始词向量。具体地,针对电子书的原始文本执行切字处理,以获得原始文本中包含的各个文字以及各个文字的初始字向量。本发明既可以针对切字后得到的每个文字均确定对应的初始字向量,也可以先对切字后得到的各个文字进行筛选,并仅针对筛选后得到的各个文字确定对应的初始字向量。例如,可以按照文字的字面含义筛选具有明确含义的文字,并滤除作为助词、语气词的文字,从而简化后续的数据量。针对原始文本中包含的各个文字确定初始字向量时,可以直接根据字向量词典确定。由于本实施例用于针对电子书文本进行识别,因此,可以根据电子书应用的书城数据库生成该字向量词典。首先,预先获取电子书应用的书城数据库中包含的各个电子书的文本内容,根据各个电子书的文本内容生成原始语料数据。由此可见,本实施例中的原始语料数据是基于电子书应用的书城数据库中的各个电子书文本生成的,能够反映电子书文本的行文特点,有利于提升字向量以及词向量的准确性,从而提升识别准确率。然后,通过第一向量模型和/或第二向量模型,确定与原始语料数据相对应的字向量词典,从而根据该字向量词典确定各个文字的初始字向量。其中,第一向量模型与第二向量模型均用于生成字向量,二者既可以单独使用,也可以结合使用。其中,第一向量模型可以为word2vector模型,第二向量模型可以为Glove模型,上述两种向量模型均能够实现单个文字的向量化表示,从而能够以向量的形式来描述各个文字,以便于后续的分析处理。其中,本实施例中的初始字向量可以为64维的向量。同理,在确定该原始文本中包含的各个分词以及各个分词的初始词向量时,根据分词词典对所述原始文本执行分词处理,以获得原始文本中包含的各个分词以及各个分词的初始词向量。本发明既可以针对分词后得到的每个词汇均确定对应的初始词向量,也可以先对分词后得到的各个词汇进行筛选,并仅针对筛选后得到的各个词汇确定对应的初始词向量。例如,可以根据词汇的词性筛选名词、形容词等具有明确含义的词汇,并滤除助词、语气词、副词等不具有明确含义的词汇,从而简化后续的数据量。针对原始文本中包含的各个分词确定初始词向量时,可以直接根据词向量词典确定。词向量词典的生成方式与字向量词典的生成方式类似,此处不再赘述。本实施例中的初始词向量可以为128维的向量。
[0041] 然后,根据各个文字的初始字向量以及各个文字在原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据各个分词的初始词向量以及各个分词在原始文本中的上下文信息,确定各个分词的语义词向量。具体地,根据各个文字或分词在原始文本中的位置信息,确定各个文字或分词在原始文本中的上下文信息,进而得到融合了上下文信息的语义内容的语义字向量或语义词向量。具体实施时,根据预设训练模型,确定各个文字的初始字向量与原始文本中的上下文信息之间的语义关联关系,以得到各个文字的语义字向量;以及,根据预设训练模型,确定各个分词的初始词向量与原始文本中的上下文信息之间的语义关联关系,以得到各个分词的语义词向量;其中,语义字向量以及语义词向量为融合上下文信息后得到的向量。其中,在确定目标文字的语义字向量时,首先,根据该目标文字在原始文本中的偏移量,确定原始文本中的其他文字(即非目标文字)相对于该目标文字的相对偏移量,进而基于各个非目标文字相对于该目标文字的相对偏移量,生成该目标文字的语义字向量,从而融合目标文字的上下文信息。语义词向量的确定方式与语义字向量类似,都要结合分词的上下文信息进行确定。
[0042] 接下来,确定与各个文字的语义字向量相对应的第一实体识别结果,以及与各个分词的语义词向量相对应的第二实体识别结果。具体实施时,将各个文字的语义字向量输入分词标记模型,以得到与各个文字的语义字向量相对应的第一实体识别结果;以及,将分词的语义词向量输入分词标记模型,以得到与各个分词的语义词向量相对应的第二实体识别结果。其中,分词标记模型用于根据语义向量进行实体标注处理,具体可以为多种标记模型。在本实施例中,分词标记模型为条件随机场模型(简称CRF模型),该模型能够基于统计的方式进行词性标注,从而识别各个实体关键词。具体地,在本实施例中,一方面,基于分词标记模型得到与各个文字的语义字向量相对应的第一实体识别结果;另一方面,基于分词标记模型得到与各个分词的语义词向量相对应的第二实体识别结果。其中,用于得到第一实体识别结果的分词标记模型与用于得到第二实体识别结果的分词标记模型既可以相同也可以不同,只要能够实现词性标注处理即可。由此可见,基于分词标记模型得到与各个文字的语义字向量相对应的第一实体识别结果的第一处理过程与基于分词标记模型得到与各个分词的语义词向量相对应的第二实体识别结果的第二处理过程分别独立进行,二者之间互不影响。本发明不限定第一处理过程与第二处理过程的先后顺序,二者可以同时进行或先后进行。总之,本实施例的核心在于:通过基于语义字向量的第一处理过程以及基于语义词向量的第二处理过程这两套相互并行的处理过程独立得到两套识别结果,从而实现取长补短的效果。
[0043] 最后,根据第一实体识别结果以及第二实体识别结果识别原始文本中包含的实体关键词。具体地,将第一实体识别结果与第二实体识别结果进行比较,根据比较结果对第一实体识别结果和/或第二实体识别结果进行修正,以识别原始文本中包含的实体关键词。例如,将第一实体识别结果与第二实体识别结果进行DIFF运算处理,以比较二者之间的异同,并根据比较结果识别原始文本中包含的实体关键词。可选的,当识别出的实体关键词未存储于分词词典时,将识别出的实体关键词添加到分词词典中。该方式能够充分利用字向量的灵活性以及词向量信息量大的优势,从而取二者之长,得到准确的识别结果,既避免了因为字向量信息量少所导致的识别不准确,又避免了由于分词错误所导致的识别出错,从而显著提升了识别结果的准确性。并且,该方式能够自动发现新兴词汇,从而扩充分词词典,进而优化后续的识别过程。
[0044] 由此可见,通过上述方式能够准确识别出阅读页面中包含的实体关键词。另外,发明人在实现本发明的过程中发现,对于人名类型的关键词,可能存在与虚拟人物相对应的词汇,或者,有可能存在一些类似于人名但实质上并非人名的词汇,为了防止由于上述因素所导致的误识别,在本步骤中,进一步执行以下处理:针对已识别出的实体关键词,当实体关键词为人名类型时,获取与该人名类型的实体关键词相对应的人物搜索结果;判断该人物搜索结果中是否包含生卒年月信息;若是,则保留该人名类型的实体关键词;若否,则删除该人名类型的实体关键词。例如,针对人名类型的实体关键词,通过百度等搜索引擎获取与该人名类型的实体关键词相对应的人物搜索结果,该人物搜索结果用于对人物生平进行简介,判断该人物搜索结果中是否包含与生卒年月信息的信息格式相匹配的内容,例如,生卒年月信息的信息格式固定为XXXX年XX月XX日,其中,X表示阿拉伯数字。由于真实人物必然具有生卒信息(至少具有出生信息),因此,通过上述方式能够滤除误识别的人名类实体关键词,提升识别结果的准确性。并且,实际情况中,用户希望了解的人名大多为具有一定影响力的知名人物,因此,通过上述处理能够满足用户的上述需求。
[0045] 另外,对于识别出的地名类型的实体关键词而言,考虑到多数用户对于大家耳熟能详的地名往往不感兴趣,用户希望了解的大多是一些较为具体的地名。相应地,在本实施例中,可以进一步通过预设的通用地名列表滤除如北京、上海一类的常用地名,或者,也可以根据识别出的地名在电子书应用的书城数据库中出现频次滤除常用地名,以确保最终得到的实体关键词为具体的地名,如临沂、护国寺等。
[0046] 步骤S220:在阅读页面中显示实体关键词所对应的关联搜索入口元素。
[0047] 具体地,由于上一步骤中已经识别出阅读页面中包含的各个实体关键词,相应地,在本步骤中,需要进一步在阅读页面中显示已识别的实体关键词所对应的关联搜索入口元素。其中,关联搜索入口元素可以为多种形式。
[0048] 在一种具体的实现方式时,根据标注属性信息对实体关键词进行标注处理,将标注信息作为实体关键词所对应的关联搜索入口元素;其中,标注处理包括:高亮显示、添加下划线、和/或添加超链接;其中,下划线包括实线或虚线。其中,标注属性信息用于定义标注处理时所使用的线条类型、粗细、颜色等相关信息。具体地,当识别出阅读页面中包含的实体关键词后,将已识别的实体关键词传递给页面排版引擎,由页面排版引擎遍历待排版内容,以确定待排版内容中包含的各个实体关键词以及各个实体关键词在电子书中对应的偏移量信息,该偏移量信息用于表示实体关键词在电子书中的排版位置,从而便于快速定位该实体关键词。相应地,针对遍历得到的各个实体关键词,页面排版引擎进一步根据该实体关键词的属性设置对应的标注属性信息,以便于终端设备根据页面排版引擎设置的标注属性信息渲染并展示各个实体关键词的关联搜索入口元素。其中,各个实体关键词的标注属性信息可以相同也可以不同。在一种可选的方式中,将各个实体关键词的标注属性信息均设置为相同线型的虚线类标注属性。在又一种可选的方式中,根据各个实体关键词的类型、在电子书中的出现频次、用户交互数据等信息设置不同的标注属性信息。后一种方式有助于针对重要性高的、用户更感兴趣的内容设置更加醒目的标注属性信息。例如,可以根据实体关键词的类型设置与该类型相对应的标注属性信息,以便于用户根据标注信息快速区分不同类型的关键词,并挑选用户感兴趣的类型的关键词。又如,还可以根据各个实体关键词在电子书中的出现频次、用户针对该实体关键词产生的用户交互数据,对实体关键词划分等级,以便针对不同等级的实体关键词设置与该等级相对应的标注属性信息,以便于用户根据标注信息快速区分不同等级的关键词。其中,用户针对该实体关键词产生的用户交互数据中可能包含多种交互类型的数据,还可以进一步针对不同交互类型设置不同的类型权重,以便根据交互数据的交互次数、类型权重来划分等级。比如,评论、笔记类交互类型的交互权重大于划线类交互类型的交互权重,从而有利于将用户感兴趣的内容进行突出显示。
[0049] 步骤S230:当检测到通过关联搜索入口元素触发的关联搜索请求时,确定与该关联搜索入口元素相对应的实体关键词。
[0050] 具体地,用户可以通过点击、滑动等各类交互操作触发与关联搜索入口元素相对应的关联搜索请求。当检测到通过关联搜索入口元素触发的关联搜索请求时,需要确定与该关联搜索入口元素相对应的实体关键词。具体确定方式可以为多种。例如,在一种方式中,针对各个关联搜索入口元素设置用于唯一标识该元素的元素标识,并将元素标识及其对应的实体关键词关联存储到预设的查询列表中,相应地,根据接收到的关联搜索请求中包含的元素标识查询对应的实体关键词。
[0051] 在本实施例中,由于预先确定了各个实体关键词在电子书中对应的偏移量信息,因此,在本步骤中,确定与该关联搜索入口元素相对应的文本内容的偏移量信息,根据该偏移量信息确定与该关联搜索入口元素相对应的实体关键词。由于关联搜索入口元素与实体关键词的位置相匹配,通常位于实体关键词的下方,因此,根据关联搜索入口元素相对应的文本内容的偏移量信息,能够确定对应的实体关键词的偏移量信息,相应地,根据预存的各个实体关键词在电子书中对应的偏移量信息即可快速确定本次接收到的关联搜索请求所对应的实体关键词。
[0052] 步骤S240:获取与实体关键词相匹配的实体关联信息,将实体关联信息展示在关联结果页面中。
[0053] 其中,与实体关键词相匹配的实体关联信息用于实现扩展阅读,具体可以为各类与实体关键词存在关联关系的内容。
[0054] 在一种可选的实现方式中,实体关联信息为书籍类关联信息,相应地,在获取与实体关键词相匹配的实体关联信息时,根据实体关键词在各个电子书中的出现次数,和/或各个电子书的用户交互数据,从数据库所包含的电子书中筛选关联电子书;根据筛选出的关联电子书确定与实体关键词相匹配的书籍类关联信息。
[0055] 在该方式中,通过实体关联信息向用户展示与当前正在阅读的目标电子书相对应的关联电子书,以便于用户扩展阅读。具体地,统计实体关键词在各个电子书中的出现次数,将出现该实体关键词的次数较多的电子书确定为与当前阅读的目标电子书相对应的关联电子书。另外,还可以根据各个电子书的用户交互数据,从数据库所包含的电子书中筛选关联电子书。例如,统计各个实体关键词在各个电子书中的用户交互数据,如用户评论、用户笔记、用户分享、用户标记等,将实体关键词的交互次数较多或交互类型属于预设类型(如评论类型或笔记类型)的电子书确定为关联电子书。例如,可以展示与实体关键词相关的知识链,并在该知识链中展示各个关联电子书的简介信息及书中包含的与该实体关键词对应的段落。
[0056] 在又一种可选的实现方式中,实体关联信息为章节段落类关联信息,相应地,在获取与实体关键词相匹配的实体关联信息时,根据实体关键词在当前电子书中的各个章节和/或段落中的出现次数,和/或各个章节和/或段落的用户交互数据,从当前电子书所包含的各个章节和/或段落中筛选关联章节和/或关联段落;根据筛选出的关联章节和/或关联段落确定与实体关键词相匹配的章节段落类关联信息。
[0057] 与上一方式类似,在该方式中,通过实体关联信息向用户展示与当前正在阅读的目标电子书相对应的章节段落类关联信息,以便于用户扩展阅读。具体地,统计实体关键词在当前电子书中的各个章节和/或段落中的出现次数,将出现该实体关键词的次数较多的章节和/或段落确定为与实体关键词相匹配的章节段落类关联信息。另外,还可以根据各个章节和/或段落的用户交互数据,从当前电子书所包含的各个章节和/或段落中筛选关联章节和/或关联段落。例如,统计各个实体关键词在各个章节和/或段落中的用户交互数据,如用户评论、用户笔记、用户分享、用户标记等,将实体关键词的交互次数较多或交互类型属于预设类型(如评论类型或笔记类型)的章节和/或段落确定为章节段落类关联信息。例如,可以展示与实体关键词相对应的出镜记录,从而按照章节顺序依次展示各个包含实体关键词的章节段落,从而便于用户集中理解该实体关键词的含义。
[0058] 上述两种方式既可以单独使用,也可以结合使用。另外,在展示时,可以在电子书阅读页面上以浮层形式覆盖关联结果页面,从而将实体关联信息展示在关联结果页面中。
[0059] 另外,发明人在实现本发明的过程中发现,电子书的阅读页面中可能还包含其他类型的交互元素,并且,关联搜索入口元素的响应区域与其他类型的交互元素的响应区域可能存在部分重叠,此时,为了区分用户触发的交互请求的类型,需要针对关联搜索入口元素设置响应优先级。可选的,在本实施例中,关联搜索入口元素的响应优先级低于预设交互元素的响应优先级;相应地,当检测到与关联搜索入口元素相匹配的交互事件时,判断该关联搜索入口元素与预设交互元素之间是否存在重合区域;若否,触发关联搜索请求;若是,触发与该预设交互元素相对应的交互请求。其中,预设交互元素包括:用于标记重点内容的划线类交互元素或笔记类交互元素等。例如,当检测到与关联搜索入口元素相匹配的交互事件时,确定本次交互事件所对应的触控位置,判断该触控位置是否与预设交互元素的响应区域之间存在重合,若是,则根据预设交互元素执行划线类交互操作或笔记类交互操作。通过该方式,能够确保用户的其他交互操作不受关联搜索入口元素的干扰,从而防止用户误操作。
[0060] 综上可知,在本实施例中,能够识别阅读页面中的实体关键词并显示对应的关联搜索入口元素,从而便于用户捕捉以实体关键词为代表的关键内容;并且能够根据关联搜索入口元素进行关联搜索,从而便于用户进行扩展阅读,提升阅读效率。其中,实体关联信息既可以是电子书信息,也可以是精彩段落信息,由于实体关联信息中包含实体关键词,因而有助于用户全面理解该实体关键词的相关内容,有助于提升阅读效果。
[0061] 实施例三
[0062] 本申请实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于电子书的实体关联信息的展示方法。
[0063] 可执行指令具体可以用于使得处理器执行以下操作:
[0064] 确定阅读页面中包含的实体关键词;
[0065] 在所述阅读页面中显示所述实体关键词所对应的关联搜索入口元素;
[0066] 当检测到通过所述关联搜索入口元素触发的关联搜索请求时,获取并展示与所述关联搜索请求相对应的实体关联信息。
[0067] 在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
[0068] 预先识别电子书的原始文本中包含的实体关键词,并确定各个实体关键词在所述电子书中对应的偏移量信息;
[0069] 确定与所述关联搜索入口元素相对应的文本内容的偏移量信息,根据所述偏移量信息确定与所述关联搜索入口元素相对应的实体关键词;
[0070] 获取与所述实体关键词相匹配的实体关联信息,将所述实体关联信息展示在关联结果页面中。
[0071] 在一种可选的实现方式中,所述实体关联信息包括书籍类关联信息,所述可执行指令使所述处理器执行以下操作:
[0072] 根据所述实体关键词在各个电子书中的出现次数,和/或各个电子书的用户交互数据,从数据库所包含的电子书中筛选关联电子书;
[0073] 根据筛选出的关联电子书确定与所述实体关键词相匹配的书籍类关联信息。
[0074] 在一种可选的实现方式中,所述实体关联信息包括章节段落类关联信息,所述可执行指令使所述处理器执行以下操作:
[0075] 根据所述实体关键词在当前电子书中的各个章节和/或段落中的出现次数,和/或所述各个章节和/或段落的用户交互数据,从当前电子书所包含的各个章节和/或段落中筛选关联章节和/或关联段落;
[0076] 根据筛选出的关联章节和/或关联段落确定与所述实体关键词相匹配的章节段落类关联信息。
[0077] 在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
[0078] 获取电子书的原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
[0079] 根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
[0080] 确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
[0081] 根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的实体关键词。
[0082] 在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
[0083] 针对已识别出的实体关键词,当所述实体关键词为人名类型时,获取与该人名类型的实体关键词相对应的人物搜索结果;
[0084] 判断所述人物搜索结果中是否包含生卒年月信息;若是,则保留该人名类型的实体关键词;若否,则删除该人名类型的实体关键词。
[0085] 在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
[0086] 根据标注属性信息对所述实体关键词进行标注处理,将标注信息作为所述实体关键词所对应的关联搜索入口元素;
[0087] 其中,所述标注处理包括:高亮显示、添加下划线、和/或添加超链接;其中,下划线包括实线或虚线。
[0088] 在一种可选的实现方式中,所述关联搜索入口元素的响应优先级低于预设交互元素的响应优先级;其中,所述预设交互元素包括:划线类交互元素;
[0089] 则所述可执行指令使所述处理器执行以下操作:
[0090] 当检测到与所述关联搜索入口元素相匹配的交互事件时,判断所述关联搜索入口元素与预设交互元素之间是否存在重合区域;
[0091] 若否,触发关联搜索请求;若是,触发与所述预设交互元素相对应的交互请求。
[0092] 实施例四
[0093] 图3示出了根据本发明另一个实施例的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
[0094] 如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
[0095] 其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述基于电子书的实体关联信息的展示方法实施例中的相关步骤。
[0096] 具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
[0097] 处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
[0098] 存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0099] 程序310具体可以用于使得处理器302执行以下操作:
[0100] 确定阅读页面中包含的实体关键词;
[0101] 在所述阅读页面中显示所述实体关键词所对应的关联搜索入口元素;
[0102] 当检测到通过所述关联搜索入口元素触发的关联搜索请求时,获取并展示与所述关联搜索请求相对应的实体关联信息。
[0103] 在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
[0104] 预先识别电子书的原始文本中包含的实体关键词,并确定各个实体关键词在所述电子书中对应的偏移量信息;
[0105] 确定与所述关联搜索入口元素相对应的文本内容的偏移量信息,根据所述偏移量信息确定与所述关联搜索入口元素相对应的实体关键词;
[0106] 获取与所述实体关键词相匹配的实体关联信息,将所述实体关联信息展示在关联结果页面中。
[0107] 在一种可选的实现方式中,所述实体关联信息包括书籍类关联信息,所述可执行指令使所述处理器执行以下操作:
[0108] 根据所述实体关键词在各个电子书中的出现次数,和/或各个电子书的用户交互数据,从数据库所包含的电子书中筛选关联电子书;
[0109] 根据筛选出的关联电子书确定与所述实体关键词相匹配的书籍类关联信息。
[0110] 在一种可选的实现方式中,所述实体关联信息包括章节段落类关联信息,所述可执行指令使所述处理器执行以下操作:
[0111] 根据所述实体关键词在当前电子书中的各个章节和/或段落中的出现次数,和/或所述各个章节和/或段落的用户交互数据,从当前电子书所包含的各个章节和/或段落中筛选关联章节和/或关联段落;
[0112] 根据筛选出的关联章节和/或关联段落确定与所述实体关键词相匹配的章节段落类关联信息。
[0113] 在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
[0114] 获取电子书的原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
[0115] 根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
[0116] 确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
[0117] 根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的实体关键词。
[0118] 在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
[0119] 针对已识别出的实体关键词,当所述实体关键词为人名类型时,获取与该人名类型的实体关键词相对应的人物搜索结果;
[0120] 判断所述人物搜索结果中是否包含生卒年月信息;若是,则保留该人名类型的实体关键词;若否,则删除该人名类型的实体关键词。
[0121] 在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
[0122] 根据标注属性信息对所述实体关键词进行标注处理,将标注信息作为所述实体关键词所对应的关联搜索入口元素;
[0123] 其中,所述标注处理包括:高亮显示、添加下划线、和/或添加超链接;其中,下划线包括实线或虚线。
[0124] 在一种可选的实现方式中,所述关联搜索入口元素的响应优先级低于预设交互元素的响应优先级;其中,所述预设交互元素包括:划线类交互元素;
[0125] 则所述可执行指令使所述处理器执行以下操作:
[0126] 当检测到与所述关联搜索入口元素相匹配的交互事件时,判断所述关联搜索入口元素与预设交互元素之间是否存在重合区域;
[0127] 若否,触发关联搜索请求;若是,触发与所述预设交互元素相对应的交互请求。
[0128] 在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0129] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0130] 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
[0131] 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0132] 此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0133] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。