文本处理方法、装置、计算机可读存储介质及电子设备转让专利

申请号 : CN202110299495.2

文献号 : CN112800230B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郝梦圆柴鹰孙拔群王奇文

申请人 : 贝壳找房(北京)科技有限公司

摘要 :

本公开实施例公开了一种文本处理方法、装置、计算机可读存储介质及电子设备,其中,该方法包括:获取待处理文本;对待处理文本进行意图分类,得到意图信息序列;基于预设的统计语言模型,确定意图信息序列对应的权重集合;基于意图信息序列对应的权重集合,确定待处理文本对应的描述评分并输出描述评分。本公开实施例可以实现在评分时通过意图信息组合引入待处理文本中的各个句子的上下文信息,使生成的描述评分可以更准确地反映待处理文本的意图,从而有助于更准确地展示评估待处理文本的质量。同时在评分时通过自动设置意图信息组合的权重,实现了无监督地进行评分。

权利要求 :

1.一种文本处理方法,包括:获取待处理文本;

对所述待处理文本进行意图分类,得到意图信息序列,其中,所述意图信息序列中的意图信息与所述待处理文本中的句子相对应;

基于预设的统计语言模型,确定所述意图信息序列对应的权重集合,其中,所述权重集合中的权重对应于所述意图信息序列中的意图信息组合,用于表征对应的意图信息组合包括的意图信息的共现概率;

基于所述意图信息序列对应的权重集合,确定所述待处理文本对应的描述评分并输出所述描述评分;

在所述基于预设的统计语言模型,确定所述意图信息序列对应的权重集合之后,所述方法还包括:

从所述意图信息序列对应的权重集合中,确定符合预设条件的权重;

基于所述符合预设条件的权重对应的意图信息组合,从所述待处理文本中提取目标句子;

基于提取的目标句子,生成所述待处理文本的摘要。

2.根据权利要求1所述的方法,其中,所述基于所述意图信息序列对应的权重集合,确定所述待处理文本对应的描述评分,包括:确定所述意图信息序列对应的权重集合的综合权重;

基于所述综合权重,确定所述待处理文本对应的描述评分。

3.据权利要求2所述的方法,其中,所述基于所述综合权重,确定所述待处理文本对应的描述评分,包括:

基于所述综合权重和预先对预设文本集合中的文本的综合权重进行统计的统计数据,确定所述待处理文本的排名;

基于所述排名,确定所述待处理文本的描述评分。

4.根据权利要求1所述的方法,其中,所述基于预设的统计语言模型,确定所述意图信息序列对应的权重集合,包括:提取预设的至少一个统计语言模型;

将所述意图信息序列输入所述至少一个统计语言模型,得到所述至少一个统计语言模型分别输出的权重集合,其中,所述权重集合中的权重分别对应于所述意图信息序列中的意图信息组合,用于表征对应的意图信息组合包括的意图信息的共现概率;

获取得到的至少一个权重集合分别对应的综合权重;

基于得到的至少一个综合权重的大小,从所述至少一个综合权重中确定目标综合权重,并将所述目标综合权重对应的权重集合确定为所述意图信息序列对应的权重集合。

5.根据权利要求4所述的方法,其中,所述至少一个统计语言模型分别对应于预设的文本类别信息;

所述方法还包括:

将所述目标综合权重对应的文本类别信息确定为所述待处理文本的文本类别信息并输出所述待处理文本的文本类别信息。

6.根据权利要求1所述的方法,其中,所述预设条件包括以下至少一项:大于或等于预设的权重阈值,按照权重的大小进行排序后所在的排位处于预设排位范围内。

7.一种文本处理装置,包括:获取模块,用于获取待处理文本;

分类模块,用于对所述待处理文本进行意图分类,得到意图信息序列,其中,所述意图信息序列中的意图信息与所述待处理文本中的句子相对应;

第一确定模块,用于基于预设的统计语言模型,确定所述意图信息序列对应的权重集合,其中,所述权重集合中的权重对应于所述意图信息序列中的意图信息组合,用于表征对应的意图信息组合包括的意图信息的共现概率;

第二确定模块,用于基于所述意图信息序列对应的权重集合,确定所述待处理文本对应的描述评分并输出所述描述评分;

所述装置还包括:第四确定模块,用于从所述意图信息序列对应的权重集合中,确定符合预设条件的权重;

提取模块,用于基于所述符合预设条件的权重对应的意图信息组合,从所述待处理文本中提取目标句子;

生成模块,用于基于提取的目标句子,生成所述待处理文本的摘要。

8.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1‑6任一所述的方法。

9.一种电子设备,所述电子设备包括:处理器;

用于存储所述处理器可执行指令的存储器;

所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1‑6任一所述的方法。

说明书 :

文本处理方法、装置、计算机可读存储介质及电子设备

技术领域

[0001] 本公开涉及计算机技术领域,尤其是一种文本处理方法、装置、计算机可读存储介质及电子设备。

背景技术

[0002] 目前在一些领域需要对文本进行评估,以确定文本对一些事物的描述是否准确。因此,可以通过对文本进行评分,用评分来衡量文本的质量。
[0003] 例如,为了向用户推荐某种产品(例如房源),可以利用多媒体通过远程展示的方式,向用户讲解产品的基本信息。这对产品推荐人员的个人展示、讲解能力要求很高。通过
专家评估发现:合理的展示辅助工具的使用,具备较好的逻辑性的讲解,有助于吸引用户的
注意以及进一步地产品价值转化。
[0004] 此外,通过对产品推荐人员的展示、讲解行为的评估,可以评判产品推荐人员的表现,进行奖励或惩罚。评估标准,可以通过行业专家经验的大量实践后进行总结得到,再通
过语言描述传播给其他人。但该方式存在以下不足:
[0005] 业务场景变化迅速,某些业务场景下,行业专家不存在;
[0006] 专家总结可以定性描述,但是经验推理过程难以描述;
[0007] 专家经验难以对产品推荐人员的线上带看进行定量评估,不能在线对推荐行为进行指导。

发明内容

[0008] 本公开的实施例提供了一种文本处理方法、装置、计算机可读存储介质及电子设备。
[0009] 本公开的实施例提供了一种文本处理方法,该方法包括:获取待处理文本;对待处理文本进行意图分类,得到意图信息序列,其中,意图信息序列中的意图信息与待处理文本
中的句子相对应;基于预设的统计语言模型,确定意图信息序列对应的权重集合,其中,权
重集合中的权重对应于意图信息序列中的意图信息组合,用于表征对应的意图信息组合包
括的意图信息的共现概率;基于意图信息序列对应的权重集合,确定待处理文本对应的描
述评分并输出描述评分。
[0010] 在一些实施例中,基于意图信息序列对应的权重集合,确定待处理文本对应的描述评分,包括:确定意图信息序列对应的权重集合的综合权重;基于综合权重,确定待处理
文本对应的描述评分。
[0011] 在一些实施例中,基于综合权重,确定待处理文本对应的描述评分,包括:基于综合权重和预先对预设文本集合中的文本的综合权重进行统计的统计数据,确定待处理文本
的排名;基于排名,确定待处理文本的描述评分。
[0012] 在一些实施例中,基于预设的统计语言模型,确定意图信息序列对应的权重集合,包括:提取预设的至少一个统计语言模型;将所述意图信息序列输入所述至少一个统计语
言模型,得到所述至少一个统计语言模型分别输出的权重集合,其中,所述权重集合中的权
重分别对应于所述意图信息序列中的意图信息组合,且用于表征对应的意图信息组合包括
的意图信息的共现概率;获取得到的至少一个权重集合分别对应的综合权重;基于得到的
至少一个综合权重的大小,从至少一个综合权重中确定目标综合权重,并将目标综合权重
对应的权重集合确定为意图信息序列对应的权重集合。
[0013] 在一些实施例中,至少一个统计语言模型中的统计语言模型对应于预设的文本类别信息;方法还包括:将目标综合权重对应的文本类别信息确定为待处理文本的文本类别
信息并输出待处理文本的文本类别信息。
[0014] 在一些实施例中,在意图信息序列对应的权重集合之后,方法还包括:从意图信息序列对应的权重集合中,确定符合预设条件的权重;基于符合预设条件的权重对应的意图
信息组合,从待处理文本中提取目标句子;基于提取的目标句子,生成待处理文本的摘要。
[0015] 在一些实施例中,预设条件包括以下至少一项:大于或等于预设的权重阈值,按照权重的大小进行排序后所在的排位处于预设排位范围内。
[0016] 根据本公开实施例的另一个方面,提供了一种文本处理装置,该装置包括:获取模块,用于获取待处理文本;分类模块,用于对待处理文本进行意图分类,得到意图信息序列,
其中,意图信息序列中的意图信息与待处理文本中的句子相对应;第一确定模块,用于基于
预设的统计语言模型,确定意图信息序列对应的权重集合,其中,权重集合中的权重对应于
意图信息序列中的意图信息组合,且用于表征对应的意图信息组合包括的意图信息的共现
概率;第二确定模块,用于基于意图信息序列对应的权重集合,确定待处理文本对应的描述
评分并输出描述评分。
[0017] 在一些实施例中,第二确定模块包括:第一确定单元,用于确定意图信息序列对应的权重集合的综合权重;第二确定单元,用于基于综合权重,确定待处理文本对应的描述评
分。
[0018] 在一些实施例中,第二确定单元包括:第一确定子单元,用于基于综合权重和预先对预设文本集合中的文本的综合权重进行统计的统计数据,确定待处理文本的排名;第二
确定子单元,用于基于排名,确定待处理文本的描述评分。
[0019] 在一些实施例中,第一确定模块包括:提取单元,用于提取预设的至少一个统计语言模型;第三确定单元,用于将所述意图信息序列输入所述至少一个统计语言模型,得到所
述至少一个统计语言模型分别输出的权重集合,其中,所述权重集合中的权重分别对应于
所述意图信息序列中的意图信息组合,且用于表征对应的意图信息组合包括的意图信息的
共现概率;第四确定单元,用于获取得到的至少一个权重集合分别对应的综合权重;第五确
定单元,用于基于得到的至少一个综合权重的大小,从至少一个综合权重中确定目标综合
权重,并将目标综合权重对应的权重集合确定为意图信息序列对应的权重集合。
[0020] 在一些实施例中,至少一个统计语言模型中的统计语言模型对应于预设的文本类别信息;装置还包括:第三确定模块,用于将目标综合权重对应的文本类别信息确定为待处
理文本的文本类别信息并输出待处理文本的文本类别信息。
[0021] 在一些实施例中,装置还包括:第四确定模块,用于从意图信息序列对应的权重集合中,确定符合预设条件的权重;提取模块,用于基于符合预设条件的权重对应的意图信息
组合,从待处理文本中提取目标句子;生成模块,用于基于提取的目标句子,生成待处理文
本的摘要。
[0022] 在一些实施例中,预设条件包括以下至少一项:大于或等于预设的权重阈值,按照权重的大小进行排序后所在的排位处于预设排位范围内。
[0023] 根据本公开实施例的另一个方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序用于执行上述文本处理方法。
[0024] 根据本公开实施例的另一个方面,提供了一种电子设备,电子设备包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指
令以实现上述文本处理方法。
[0025] 基于本公开上述实施例提供的文本处理方法、装置、计算机可读存储介质及电子设备,通过对待处理文本进行意图分类,得到意图信息序列,然后基于预设的统计语言模
型,确定意图信息序列对应的权重集合,最后基于权重集合,确定待处理文本对应的描述评
分并输出描述评分。由于权重集合中的权重对应于意图信息组合,意图信息组合对应于待
处理文本中的相邻的句子,因此,权重可以定量地表征待处理文本中的各个句子与上下文
之间的联系,进而可以实现在评分时通过意图信息组合对应的权重引入待处理文本中的各
个句子的上下文信息,使生成的描述评分可以更准确地反映待处理文本的意图,从而有助
于更准确地展示评估待处理文本的质量。同时在评分时通过自动设置意图信息组合的权
重,实现了无监督地进行评分。当待处理文本为产品推荐文本时,可以通过输出描述评分准
确地评估产品推荐人员的推荐行为。
[0026] 下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。

附图说明

[0027] 通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明
书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,
相同的参考标号通常代表相同部件或步骤。
[0028] 图1是本公开所适用的系统图。
[0029] 图2是本公开一示例性实施例提供的文本处理方法的流程示意图。
[0030] 图3是本公开的实施例的文本处理方法的综合权重的分布曲线的示例性示意图。
[0031] 图4是本公开另一示例性实施例提供的文本处理方法的流程示意图。
[0032] 图5是本公开又一示例性实施例提供的文本处理方法的流程示意图。
[0033] 图6是本公开一示例性实施例提供的文本处理装置的结构示意图。
[0034] 图7是本公开另一示例性实施例提供的文本处理装置的结构示意图。
[0035] 图8是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

[0036] 下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的
示例实施例的限制。
[0037] 应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
[0038] 本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺
序。
[0039] 还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
[0040] 还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
[0041] 另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0042] 还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
[0043] 同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0044] 以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
[0045] 对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0046] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0047] 本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电
子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:
个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器
的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和
包括上述任何系统的分布式云计算技术环境,等等。
[0048] 终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目
标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计
算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通
信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储
设备的本地或远程计算系统存储介质上。
[0049] 申请概述
[0050] 为解决上述背景技术中描述的问题,目前已有的方法,主要包括以下有监督的评估方法:
[0051] 1、通过和目标值(例如文本的类别)的相关性分析进行影响因子抽取;
[0052] 2、影响因子的权重设定;
[0053] 3、因子加权进行评估得分;
[0054] 4、产出解释性描述等。
[0055] 但是,现有的基于有监督的方法评估文本的质量具有如下缺点:
[0056] 1、可以通过设定固定组合的方式,关注单个、多个的行为信息,但未考虑行为信息的上下文联系变化,所以评分解释缺乏上下文联系;
[0057] 2、相关性评估,无法解决不同行为信息的分类问题;
[0058] 3、无法无监督的基于数据,自动进行权重设定;
[0059] 4、因子、权重设定后,无法产出有效的可解释性的评估分数。
[0060] 示例性系统
[0061] 图1示出了可以应用本公开的实施例的文本处理方法或文本处理装置的示例性系统架构100。
[0062] 如图1所示,系统架构100可以包括终端设备101,网络102和服务器103。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,
例如有线、无线通信链路或者光纤电缆等等。
[0063] 用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如房屋租售类应用、购物类应用、搜索
类应用、网页浏览器应用、即时通信工具等。
[0064] 终端设备101可以是各种电子设备,包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端
(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
[0065] 服务器103可以是提供各种服务的服务器,例如对终端设备101上传的文本进行处理的后台文本服务器。后台文本服务器可以对接收到的待处理文本进行处理,得到意图信
息序列、描述评分等信息。
[0066] 需要说明的是,本公开的实施例所提供的文本处理方法可以由服务器103执行,也可以由终端设备101执行,相应地,文本处理装置可以设置于服务器103中,也可以设置于终
端设备101中。
[0067] 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在待处理文本不需要从远程获取的情况
下,上述系统架构可以不包括网络,只包括服务器或终端设备。
[0068] 示例性方法
[0069] 图2是本公开一示例性实施例提供的文本处理方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上,如图2所示,该方法包括如下步
骤:
[0070] 步骤201,获取待处理文本。
[0071] 在本实施例中,电子设备可以从本地或从远程获取待处理文本。其中,待处理文本可以是以各种方式获得的文本。例如可以是手动输入的文本,或者对语音进行识别得到的
文本。
[0072] 作为示例(为便与描述,本示例称为示例X),待处理文本可以是房产经纪人在介绍房屋基本信息时,电子设备对经纪人的语音进行识别而得到的文本。例如,该文本可以为
“附件最近的公园,公园往东有A公园,以及B公园。最近的地铁是6号线的C地铁和D地铁。最
近的医院是E人民医院。本房往北是F小区,往南是G小区。这是本房的外观,本房是玻璃幕
墙。小区管理比较好。物业费是4块3。100平左右的户型能租到15000左右每个月。感谢您的
收听。”
[0073] 步骤202,对待处理文本进行意图分类,得到意图信息序列。
[0074] 在本实施例中,电子设备可以对待处理文本进行意图分类,得到意图信息序列。其中,意图信息序列中的意图信息与待处理文本中的句子相对应。意图信息用于表征对应的
句子的类别(类别可以表示句子的表达意图),意图信息的内容可以是预先设置的,电子设
备可以对每个句子进行分类,意图信息即为句子的分类结果。
[0075] 继续上述示例X,对上述待处理文本进行意图分类后,得到的意图信息序列和每个意图信息对应的句子如下:
[0076] 配套_生活_休闲,对应“附件最近的公园,公园往东有A公园,以及B公园”;
[0077] 配套_交通_地铁,对应“最近的地铁是6号线的C地铁和D地铁”;
[0078] 配套_生活_医院,对应“最近的医院是E人民医院”;
[0079] 其他,对应“本房往北是F小区,往南是G小区。这是本房的外观,本房是玻璃幕墙”;
[0080] 小区_其他,对应“小区管理比较好”;
[0081] 小区_物业_物业费,对应“物业费是4块3”;
[0082] 房源_户型,对应“100平左右的户型能租到15000左右每个月”;
[0083] 其他,对应“感谢您的收听”。
[0084] 通常,电子设备可以利用预先训练的意图分类器,对待处理文本包括的句子进行意图分类。作为示例,意图分类器可以是基于人工神经网络,通过机器学习方法训练得到
的。需要说明的是,意图分类器的实现方式是目前的现有技术,这里不再赘述。
[0085] 步骤203,基于预设的统计语言模型,确定意图信息序列对应的权重集合。
[0086] 在本实施例中,电子设备可以基于预设的统计语言模型,确定意图信息序列对应的权重集合。其中,权重集合中的权重对应于意图信息序列中的意图信息组合。
[0087] 上述意图信息组合可以是由至少两个相邻的意图信息组成。意图信息组合对应的权重用于表征意图信息组合中的各个意图信息在待处理文本所属的语言体系中同时出现
的概率,上述语言体系可以是预先对某个类型的文本集合进行统计得到的。由于意图信息
组合对应于待处理文本中的相邻的句子,因此,对应的权重可以定量地表征待处理文本中
的各个句子与上下文之间的联系,进而使后续利用权重生成描述评分时引入了待处理文本
的上下文,从而使描述评分可以更准确地反映待处理文本的意图。
[0088] 上述统计语言模型可以基于现有的模型训练得到。例如,可以使用N‑gram模型,对预设的大量意图信息序列进行统计建模得到上述统计语言模型。N‑gram模型可以输出每个
意图信息组合的共现概率。意图信息组合对应的权重可以基于共现概率得到,例如将共现
概率作为权重,或将共现概率进行各种转换(例如等比例缩放)后得到权重。
[0089] 继续上述示例X,统计语言模型基于N‑gram模型得到,设N=2,则每个意图信息组合包括两个相邻的意图信息。得到的至少一个意图信息组合和对应的权重如下表1所示:
[0090]权重(共现概率) 意图信息组合
0.3 ,配套_生活_休闲
0.31 配套_生活_休闲,配套_交通_地铁
0.12 配套_交通_地铁,配套_生活_医院
0.02 配套_生活_医院,其他
0.9 其他,小区_其他
0.81 小区_其他,小区_物业_物业费
0.45 小区_物业_物业费,房源_户型
0.23 房源_户型,其他
0.99 其他,

[0091] 步骤204,基于意图信息序列对应的权重集合,确定待处理文本对应的描述评分并输出描述评分。
[0092] 在本实施例中,电子设备可以基于意图信息序列对应的权重集合,确定待处理文本对应的描述评分并输出描述评分。其中,描述评分用于表征待处理文本描述相应的对象
的准确程度。例如,当待处理文本是房产经纪人对房屋的讲解文本时,描述评分用于表征经
纪人的讲解能否准确地描述出房屋的主要特征的量化指标。
[0093] 继续上述示例X,描述评分可以基于上述各个共现概率得到。例如,确定描述评分的方法可以包括但不限于以下任一种:可以将各个共现概率相乘,得到该意图信息序列在
意图语言体系中出现的概率作为描述评分;可以对上述各个共现概率计算几何平均数作为
描述评分;可以将上述几何平均数转换为预设形式的分数(例如百分制)作为描述评分等
等。在示例X中,描述评分越高,表示使用该意图信息序列进行房屋讲解的经纪人的数量越
多,即可以表示该意图信息序列被多数经纪人认可。
[0094] 进一步地,电子设备在得到描述评分后,可以将描述评分以各种方式输出。例如,在电子设备包括的显示器上显示,或发送到其他电子设备上显示,或存储到预设的存储区
域中。当待处理文本为产品推荐人描述某种产品的文本时,还可以通过输出的描述评分体
现产品推荐人的表现。
[0095] 本公开的上述实施例提供的方法,通过对待处理文本进行意图分类,得到意图信息序列,然后基于预设的统计语言模型,确定意图信息序列对应的权重集合,最后基于权重
集合,确定待处理文本对应的描述评分并输出描述评分。由于权重集合中的权重对应于意
图信息组合,意图信息组合对应于待处理文本中的相邻的句子,因此,权重可以定量地表征
待处理文本中的各个句子与上下文之间的联系,进而可以实现在评分时通过意图信息组合
对应的权重引入待处理文本中的各个句子的上下文信息,使生成的描述评分可以更准确地
反映待处理文本的意图,从而有助于更准确地展示评估待处理文本的质量。同时在评分时
通过自动设置意图信息组合的权重,实现了无监督地进行评分。当待处理文本为产品推荐
文本时,可以通过输出描述评分准确地评估产品推荐人员的推荐行为。
[0096] 在一些可选的实现方式中,上述步骤204可以如下执行:
[0097] 首先,确定意图信息序列对应的权重集合的综合权重。
[0098] 其中,综合权重可以是对权重集合包括的各个权重进行综合计算得到的数值,综合权重用于表征上述意图信息序列在相应的意图语言体系中出现的可能性。综合权重的数
值越大,表示意图信息序列出现的概率越大,即越能够体现上述待处理文本描述的对象的
主要特征。
[0099] 继续上述示例X,综合权重可以是表1中的各个共现概率的算术平均数或几何平均数。由于通常不同的文本的意图信息序列的长度不同,因此,可以使用几何平均数来表示某
个意图信息序列的综合权重,从而便于不同的意图信息序列之间的比较。
[0100] 然后,基于综合权重,确定待处理文本对应的描述评分。
[0101] 作为示例,可以将综合权重本身作为描述评分,或者将综合权重进行转换,得到特定形式(例如十分制,百分制等)的分数。
[0102] 本实现方式通过对权重集合进行计算得到综合权重,可以在待处理文本的数量为多个时,利用综合权重体现不同长度的意图信息序列对相应对象进行描述的准确程度,从
而使进一步得到的描述评分能够更加准确地体现待处理文本的质量,有助于提高输出描述
评分的准确性和针对性。
[0103] 在一些可选的实现方式中,电子设备可以按照如下步骤确定待处理文本对应的描述评分:
[0104] 首先,基于综合权重和预先对预设文本集合中的文本的综合权重进行统计的统计数据,确定待处理文本的排名。
[0105] 继续上述示例X,如图3所示,统计数据可以是基于大量的经纪人的讲解文本对应的综合权重进行统计拟合得到的分布曲线,该曲线的横轴表示综合权重,纵轴表示相应的
综合权重下的讲解文本的数量。通过该曲线,利用对概率密度进行积分的方法可以确定大
于待处理文本的综合权重的讲解文本的数量,进而确定待处理文本的排名。例如,假设待处
理文本对应的综合权重为0.2,则可以确定曲线中大于0.2的部分与横轴围成的面积作为待
处理文本的排名。
[0106] 然后,基于排名,确定待处理文本的描述评分。
[0107] 例如,可以将所得到的排名除以上述预设文本集合中的文本的总数,基于计算结果得到描述评分(例如将计算结果转换为百分制下的分数)。继续上述图3的示例,可以计算
曲线中大于0.2的部分与横轴围成的面积与整个曲线与横轴围成的面积之比,基于计算结
果得到描述评分。
[0108] 本实现方式通过确定待处理文本的排名,根据排名确定描述评分,可以使描述评分准确地反映待处理文本在预设文本集合中的相对质量情况,进而有助于提高输出描述评
分的准确性和针对性。
[0109] 在一些可选的实现方式中,如图4所示,在上述步骤203之后,还可以包括如下步骤:
[0110] 步骤205,从意图信息序列对应的权重集合中,确定符合预设条件的权重。
[0111] 其中,预设条件可以通过各种方式设定。
[0112] 可选的,预设条件包括以下至少一项:大于或等于预设的权重阈值(例如0.4),按照权重的大小进行排序后所在的排位处于预设排位范围内(例如排序后的前50%)。通过设
置上述预设条件,可以从权重集合中提取较大的权重,从而可以使得到的符合预设条件的
权重对应的意图信息组合能够准确反映上述待处理文本的主要特征,有助于提高生成待处
理文本的摘要的准确性。
[0113] 继续上述示例X,设权重阈值为0.4,则从各个意图信息组合中提取出如下表2所示的意图信息组合:
[0114] 权重(共现概率) 意图信息组合0.9 其他,小区_其他
0.81 小区_其他,小区_物业_物业费
0.45 小区_物业_物业费,房源_户型
0.99 其他,
[0115] 步骤206,基于符合预设条件的权重对应的意图信息组合,从待处理文本中提取目标句子。
[0116] 继续上述示例X,表2中的意图信息组合包括的各个意图信息对应的句子分别为:a,本房往北是F小区,往南是G小区,这是本房的外观,本房是玻璃幕墙;b,小区管理比较好;
c,物业费是4块3;d,100平左右的户型能租到15000左右每个月;e,感谢您的收听。
[0117] 步骤207,基于提取的目标句子,生成待处理文本的摘要。
[0118] 继续上述示例X,最终生成的待处理文本的摘要为:本房往北是F小区,往南是G小区,这是本房的外观,本房是玻璃幕墙,小区管理比较好。物业费是4块3。100平左右的户型
能租到15000左右每个月。感谢您的收听。
[0119] 本实现方式通过从权重集合中确定符合预设条件的权重,根据符合预设条件的权重从待处理文本中提取句子生成摘要,由于符合预设条件的权重能够体现待处理文本的主
要意图,因此,可以使生成的摘要能够准确、简要地对待处理文本进行总结,有助于在输出
待处理文本的描述评分的同时输出待处理文本的摘要,丰富了输出的信息的内容,有助于
在用户对待处理文本进行评价时通过摘要为用户提供参考。
[0120] 进一步参考图5,示出了文本处理方法的又一个实施例的流程示意图。如图5所示,在上述图2所示实施例的基础上,步骤203可以包括如下步骤:
[0121] 步骤2031,提取预设的至少一个统计语言模型。
[0122] 在本实施例中,电子设备可以提取预设的至少一个统计语言模型。其中,对于上述至少一个统计语言模型中的每个统计语言模型,该统计语言模型对应于某种类型的语言体
系。例如,某个统计语言模型是基于预设的、由某些质量较好的文本组成的文本集合训练得
到的;某个统计语言模型是基于预设的、由某些质量较差的文本组成的文本集合训练得到
的。文本质量的好坏可以由人工设定。训练方法请参考上述步骤203中描述的方法,这里不
再赘述。
[0123] 步骤2032,将意图信息序列输入至少一个统计语言模型,得到至少一个统计语言模型分别输出的权重集合。
[0124] 在本实施例中,电子设备可以将意图信息序列输入至少一个统计语言模型,得到至少一个统计语言模型分别输出的权重集合。其中,权重集合中的权重分别对应于意图信
息序列中的意图信息组合,用于表征对应的意图信息组合包括的意图信息的共现概率。
[0125] 作为示例,假设有三个统计语言模型,则基于这三个统计语言模型分部对意图信息序列进行处理,得到三个权重集合。关于权重集合的描述可以参考上述步骤203的描述,
这里不再赘述。
[0126] 步骤2033,获取得到的至少一个权重集合分别对应的综合权重。
[0127] 在本实施例中,电子设备可以获取得到的至少一个权重集合分别对应的综合权重。其中,获取综合权重的方法可以参考上述针对步骤204的可选实现方式中描述的内容,
这里不再赘述。
[0128] 步骤2034,基于得到的至少一个综合权重的大小,从至少一个综合权重中确定目标综合权重,并将目标综合权重对应的权重集合确定为意图信息序列对应的权重集合。
[0129] 在本实施例中,电子设备可以基于得到的至少一个综合权重的大小,从至少一个综合权重中确定目标综合权重,并将目标综合权重对应的权重集合确定为意图信息序列对
应的权重集合。
[0130] 通常,可以将数值最大的综合权重作为目标综合权重。这里使用至少一个统计语言模型对意图信息序列进行处理,可以看作是对意图信息序列进行分类,即对待处理文本
进行分类,每个统计语言模型对应于一个文本类别。
[0131] 在一些可选的实现方式中,至少一个统计语言模型中的统计语言模型对应于预设的文本类别信息。其中,文本类别信息用于表征文本的类别,通常,文本的类别体现文本的
质量的好坏。例如,当文本用于描述某种产品时,文本的类别可以体现对产品描述的准确性
和对用户的吸引力。例如待处理文本是房产经纪人对房屋的讲解文本,目标综合权重对应
的文本类别可以表示“表现优秀的经纪人的讲解”或“表现普通的经纪人的讲解”或“表现较
差的经纪人的讲解”。
[0132] 基于此,电子设备还可以将目标综合权重对应的文本类别信息确定为待处理文本的文本类别信息并输出待处理文本的文本类别信息。
[0133] 通常,电子设备可以在输出描述评分的同时输出待处理文本的文本类别信息。例如,可以在电子设备包括的显示器上显示描述评分“90分”和文本类别信息“表现优秀的经
纪人的讲解”。本实现方式通过输出待处理文本的类别信息,丰富了输出的信息的内容,有
助于更准确及有针对性地展示待处理文本的质量。
[0134] 上述图5对应实施例提供的方法,通过使用至少一个统计语言模型对意图信息序列进行处理,从得到的至少一个综合权重中确定目标综合权重,目标综合权重对应的语言
体系与待处理文本更加匹配,即本实施例实现了对待处理文本进行分类,使最终确定的意
图信息序列对应的权重集合还能够体现待处理文本的类别,即体现了影响因子(影响对文
本进行分类的因素)‑目标值(文本的真实类别)之间的非线性关系,从而有助于进一步提高
输出的描述评分的准确性。
[0135] 示例性装置
[0136] 图6是本公开一示例性实施例提供的文本处理装置的结构示意图。本实施例可应用在电子设备上,如图6所示,文本处理装置包括:获取模块601,用于获取待处理文本;分类
模块602,用于对待处理文本进行意图分类,得到意图信息序列,其中,意图信息序列中的意
图信息与待处理文本中的句子相对应;第一确定模块603,用于基于预设的统计语言模型,
确定意图信息序列对应的权重集合,其中,权重集合中的权重对应于意图信息序列中的意
图信息组合,用于表征对应的意图信息组合包括的意图信息的共现概率;第二确定模块
604,用于基于意图信息序列对应的权重集合,确定待处理文本对应的描述评分并输出描述
评分。
[0137] 在本实施例中,获取模块601从本地或从远程获取待处理文本。其中,待处理文本可以是以各种方式获得的文本。例如可以是手动输入的文本,或者对语音进行识别得到的
文本。
[0138] 作为示例(为便与描述,本示例称为示例X),待处理文本可以是房产经纪人在介绍房屋基本信息时,电子设备对经纪人的语音进行识别而得到的文本。例如,该文本可以为
“附件最近的公园,公园往东有A公园,以及B公园。最近的地铁是6号线的C地铁和D地铁。最
近的医院是E人民医院。本房往北是F小区,往南是G小区。这是本房的外观,本房是玻璃幕
墙。小区管理比较好。物业费是4块3。100平左右的户型能租到15000左右每个月。感谢您的
收听。”
[0139] 在本实施例中,分类模块602可以对待处理文本进行意图分类,得到意图信息序列。其中,意图信息序列中的意图信息与待处理文本中的句子相对应。意图信息用于表征对
应的句子的类别(类别可以表示句子的表达意图),意图信息的内容可以是预先设置的,分
类模块602可以对每个句子进行分类,意图信息即为句子的分类结果。
[0140] 继续上述示例X,对上述待处理文本进行意图分类后,得到的意图信息序列和每个意图信息对应的句子如下:
[0141] 配套_生活_休闲,对应“附件最近的公园,公园往东有A公园,以及B公园”;
[0142] 配套_交通_地铁,对应“最近的地铁是6号线的C地铁和D地铁”;
[0143] 配套_生活_医院,对应“最近的医院是E人民医院”;
[0144] 其他,对应“本房往北是F小区,往南是G小区。这是本房的外观,本房是玻璃幕墙”;
[0145] 小区_其他,对应“小区管理比较好”;
[0146] 小区_物业_物业费,对应“物业费是4块3”;
[0147] 房源_户型,对应“100平左右的户型能租到15000左右每个月”;
[0148] 其他,对应“感谢您的收听”。
[0149] 通常,分类模块602可以利用预先训练的意图分类器,对待处理文本包括的句子进行意图分类。作为示例,意图分类器可以是基于人工神经网络,通过机器学习方法训练得到
的。需要说明的是,意图分类器的实现方式是目前的现有技术,这里不再赘述。
[0150] 在本实施例中,第一确定模块603可以基于预设的统计语言模型,确定意图信息序列对应的权重集合。其中,权重集合中的权重对应于意图信息序列中的意图信息组合。
[0151] 上述意图信息组合可以是由至少两个相邻的意图信息组成。意图信息组合对应的权重用于表征意图信息组合中的各个意图信息在待处理文本所属的语言体系中同时出现
的概率,上述语言体系可以是预先对某个类型的文本集合进行统计得到的。由于意图信息
组合对应于待处理文本中的相邻的句子,因此,对应的权重可以定量地表征待处理文本中
的各个句子与上下文之间的联系,进而使后续利用权重生成描述评分时引入了待处理文本
的上下文,从而使描述评分可以更准确地反映待处理文本的意图。
[0152] 上述统计语言模型可以基于现有的模型训练得到。例如,可以使用N‑gram模型,对预设的大量意图信息序列进行统计建模得到上述统计语言模型。N‑gram模型可以输出每个
意图信息组合的共现概率。意图信息组合对应的权重可以基于共现概率得到,例如将共现
概率作为权重,或将共现概率进行各种转换(例如等比例缩放)后得到权重。
[0153] 在本实施例中,第二确定模块604可以基于意图信息序列对应的权重集合,确定待处理文本对应的描述评分并输出描述评分。其中,描述评分用于表征待处理文本描述相应
的对象的准确程度。例如,当待处理文本是房产经纪人对房屋的讲解文本时,描述评分用于
表征经纪人的讲解能否准确地描述出房屋的主要特征的量化指标。
[0154] 继续上述示例X,描述评分可以基于上述各个共现概率得到。例如,确定描述评分的方法可以包括但不限于以下任一种:可以将各个共现概率相乘,得到该意图信息序列在
意图语言体系中出现的概率作为描述评分;可以对上述各个共现概率计算几何平均数作为
描述评分;可以将上述几何平均数转换为预设形式的分数(例如百分制)作为描述评分等
等。在示例X中,描述评分越高,表示使用该意图信息序列进行房屋讲解的经纪人的数量越
多,即可以表示该意图信息序列被多数经纪人认可。
[0155] 参照图7,图7是本公开另一示例性实施例提供的文本处理装置的结构示意图。
[0156] 在一些可选的实现方式中,第二确定模块604可以包括:第一确定单元6041,用于确定意图信息序列对应的权重集合的综合权重;第二确定单元6042,用于基于综合权重,确
定待处理文本对应的描述评分。
[0157] 在一些可选的实现方式中,第二确定单元6042可以包括:第一确定子单元60421,用于基于综合权重和预先对预设文本集合中的文本的综合权重进行统计的统计数据,确定
待处理文本的排名;第二确定子单元60422,用于基于排名,确定待处理文本的描述评分。
[0158] 在一些可选的实现方式中,第一确定模块603可以包括:提取单元6031,用于提取预设的至少一个统计语言模型;第三确定单元6032,用于将意图信息序列输入至少一个统
计语言模型,得到至少一个统计语言模型分别输出的权重集合,其中,权重集合中的权重分
别对应于意图信息序列中的意图信息组合,用于表征对应的意图信息组合包括的意图信息
的共现概率;第四确定单元6033,用于获取得到的至少一个权重集合分别对应的综合权重;
第五确定单元6034,用于基于得到的至少一个综合权重的大小,从至少一个综合权重中确
定目标综合权重,并将目标综合权重对应的权重集合确定为意图信息序列对应的权重集
合。
[0159] 在一些可选的实现方式中,至少一个统计语言模型中的统计语言模型对应于预设的文本类别信息;该装置还可以包括:第三确定模块605,用于将目标综合权重对应的文本
类别信息确定为待处理文本的文本类别信息并输出待处理文本的文本类别信息。
[0160] 在一些可选的实现方式中,该装置还可以包括:第四确定模块606,用于从意图信息序列对应的权重集合中,确定符合预设条件的权重;提取模块607,用于基于符合预设条
件的权重对应的意图信息组合,从待处理文本中提取目标句子;生成模块608,用于基于提
取的目标句子,生成待处理文本的摘要。
[0161] 在一些可选的实现方式中,预设条件可以包括以下至少一项:大于或等于预设的权重阈值,按照权重的大小进行排序后所在的排位处于预设排位范围内。
[0162] 本公开上述实施例提供的文本处理装置,通过对待处理文本进行意图分类,得到意图信息序列,然后基于预设的统计语言模型,确定意图信息序列对应的权重集合,最后基
于权重集合,确定待处理文本对应的描述评分并输出描述评分。由于权重集合中的权重对
应于意图信息组合,意图信息组合对应于待处理文本中的相邻的句子,因此,权重可以定量
地表征待处理文本中的各个句子与上下文之间的联系,进而可以实现在评分时通过意图信
息组合对应的权重引入待处理文本中的各个句子的上下文信息,使生成的描述评分可以更
准确地反映待处理文本的意图,从而有助于更准确地展示评估待处理文本的质量。同时在
评分时通过自动设置意图信息组合的权重,实现了无监督地进行评分。当待处理文本为产
品推荐文本时,可以通过输出描述评分准确地评估产品推荐人员的推荐行为。
[0163] 示例性电子设备
[0164] 下面,参考图8来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备,该单机设备
可以与终端设备101和服务器103进行通信,以从它们接收所采集到的输入信号。
[0165] 图8图示了根据本公开实施例的电子设备的框图。
[0166] 如图8所示,电子设备800包括一个或多个处理器801和存储器802。
[0167] 处理器801可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备800中的其他组件以执行期望的功能。
[0168] 存储器802可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如
可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可
以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计
算机程序指令,处理器801可以运行程序指令,以实现上文的本公开的各个实施例的文本处
理方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如待处理文本、
意图信息序列、描述评分等各种内容。
[0169] 在一个示例中,电子设备800还可以包括:输入装置803和输出装置804,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
[0170] 例如,在该电子设备是终端设备101或服务器103时,该输入装置803可以是鼠标、键盘、麦克风等设备,用于输入文本,或输入音频再转换成文本。在该电子设备是单机设备
时,该输入装置803可以是通信网络连接器,用于从终端设备101和服务器103接收所输入的
文本。
[0171] 该输出装置804可以向外部输出各种信息,包括确定出的描述评分。该输出设备804可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0172] 当然,为了简化,图8中仅示出了该电子设备800中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备800
还可以包括任何其他适当的组件。
[0173] 示例性计算机程序产品和计算机可读存储介质
[0174] 除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述
“示例性方法”部分中描述的根据本公开各种实施例的文本处理方法中的步骤。
[0175] 所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如
Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程
序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软
件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备
或服务器上执行。
[0176] 此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方
法”部分中描述的根据本公开各种实施例的文本处理方法中的步骤。
[0177] 所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电
磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的
例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储
器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘
只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0178] 以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的
各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作
用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0179] 本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例
而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部
分说明即可。
[0180] 本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到
的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具
有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇
“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使
用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0181] 可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序
仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特
别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序
包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据
本公开的方法的程序的记录介质。
[0182] 还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
[0183] 提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义
的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在
此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0184] 为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技
术人员将认识到其某些变型、修改、改变、添加和子组合。