一种搜索方法、装置及存储介质转让专利

申请号 : CN202010115111.2

文献号 : CN111339252B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 文瑞陈曦高文龙孙继超赵博刘羽

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本申请实施例提供一种搜索方法、装置及存储介质,方法包括:获取搜索信息;基于所述搜索信息得到至少一个症状特征;根据症状特征与症状的语义关联度,分别为各症状特征设置权重;获取设置了权重的各症状特征与至少一个预设症状实体之间的目标相似度;根据所述目标相似度,从所述至少一个预设症状实体中确定目标症状实体并输出。通过本方案,能够识别症状实体的准确性,以及有效区分相似症状和非相似症状。

权利要求 :

1.一种搜索方法,其特征在于,所述方法包括:获取搜索信息;

输出根据所述搜索信息得到的症状推荐信息,所述症状推荐信息与预设症状实体对应,所述预设症状实体对应至少一种症状描述信息;

获取用户对所述症状推荐信息的操作行为数据;

根据所述操作行为数据和所述搜索信息得到至少一个症状特征;

根据症状特征与症状的语义关联度,分别为各症状特征设置权重;

获取设置了权重的各症状特征与至少一个预设症状实体之间的目标相似度;

根据所述操作行为数据得到操作行为图谱;

根据所述目标相似度、预设阈值和所述操作行为图谱,确定候选症状实体;

获取所述候选症状实体与所述预设症状实体的至少一种症状描述信息的相似度;

根据所述候选症状实体与所述预设症状实体的至少一种症状描述信息的相似度,确定目标症状实体。

2.根据权利要求1所述的方法,其特征在于,所述根据症状特征与症状的语义关联度,分别为各症状特征设置权重,包括:根据各症状特征的语义确定与症状存在语义关系的症状特征;

根据语义关系确定各症状特征与症状的语义关联度;

分别为各症状特征设置与语义关联度成正关系的权重。

3.根据权利要求2所述的方法,其特征在于,所述获取设置了权重的各症状特征与至少一个预设症状实体之间的目标相似度,包括:分别计算各症状特征与各症状描述信息之间的加权相似度;

取各症状特征与各症状描述信息之间的加权相似度的平均值,将所述平均值作为所述目标相似度。

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取训练数据,所述训练数据包括多个医疗语料;

根据所述多个医疗语料确定多个医疗症状;

分别将各医疗症状转换为预设数据结构的症状特征,所述症状特征包括症状部位、症状参数和症状表征中的至少一项;

根据预设症状实体与症状特征之间的映射关系,得到各症状特征的词向量。

5.根据权利要求1所述的方法,其特征在于,所述目标症状实体、所述症状描述信息均保存在区块链节点上。

6.根据权利要求1所述的方法,其特征在于,所述根据所述目标相似度、预设阈值和所述操作行为图谱,确定候选症状实体,包括:针对所述目标相似度小于或等于预设阈值的预设症状实体,获取设置了权重的各症状特征,与所述预设症状实体之间的相似度,其中,所述目标相似度与所述相似度的计算方式不同;

若所述相似度小于或等于预设阈值,根据所述操作行为图谱,确定候选症状实体。

7.根据权利要求6所述的方法,其特征在于,所述根据所述操作行为数据得到操作行为图谱前,还包括:

将所述目标相似度与预设阈值进行比较,若所述目标相似度大于预设阈值,从所述目标相似度大于预设阈值的预设症状实体中,确定目标症状实体;

若所述目标相似度小于或等于预设阈值,执行根据所述操作行为数据得到操作行为图谱的步骤;

所述若所述相似度小于或等于预设阈值,根据所述操作行为图谱,确定候选症状实体前,还包括:

将所述相似度与预设阈值进行比较,若所述相似度大于预设阈值,从所述相似度大于预设阈值的预设症状实体中,确定目标症状实体。

8.一种搜索装置,其特征在于,所述搜索装置包括:输入输出模块,用于获取搜索信息;

处理模块,用于输出根据所述搜索信息得到的症状推荐信息,所述症状推荐信息与预设症状实体对应,所述预设症状实体对应至少一种症状描述信息;获取用户对所述症状推荐信息的操作行为数据;根据所述操作行为数据和所述搜索信息得到至少一个症状特征;

根据症状特征与症状的语义关联度,分别为各症状特征设置权重;获取设置了权重的各症状特征与至少一个预设症状实体之间的目标相似度;根据所述操作行为数据得到操作行为图谱;根据所述目标相似度、预设阈值和所述操作行为图谱,确定候选症状实体;获取所述候选症状实体与所述预设症状实体的至少一种症状描述信息的相似度;根据所述候选症状实体与所述预设症状实体的至少一种症状描述信息的相似度,确定目标症状实体;

所述输入输出模块还用于将所述目标症状实体对应的症状描述信息输出。

9.一种搜索装置,其特征在于,所述搜索装置包括:至少一个处理器、存储器和收发器;

其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1‑7中任一项中所述的方法。

10.一种计算机可读存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1‑7中任一项中所述的方法。

说明书 :

一种搜索方法、装置及存储介质

技术领域

[0001] 本申请实施例涉及人工智能技术领域,尤其涉及一种搜索方法、装置及存储介质。

背景技术

[0002] 在医疗领域,通常使用人工智能来为用户提供自助医疗服务。例如,在基于人工智能实现的医疗智能助手应用中,医疗智能助手应用会根据用户的输入症状进行后续的疾病
判断、科室引导、挂号找医生等服务。然而,对于同一个症状,用户的输入通常千差万别。例
如,同样是标准症状“腹痛”,用户a的输入可能是:“肚子有点痛”,用户b的输入可能是:“肚
子轻微痛”。由于需要根据用户输入的症状进行后续的疾病判断、科室引导、挂号找医生等
流程,因此医疗智能助手应用需要以较高精度识别相似症状并将输入的症状链接到标准症
状库。
[0003] 在对现有技术的研究和实践过程中,本申请实施例的发明人发现,医疗智能助手应用中的模型是基于人工标注的训练数据训练有监督机器学习或深度学习分类模型得到,
虽然最终训练得到的模型的泛化能力较强,但是需要依赖于大量精准的人工标注数据,人
工标注成本高。

发明内容

[0004] 本申请实施例提供了一种搜索方法、装置及存储介质,能够提高识别症状实体的准确性,以及有效区分相似症状和非相似症状,且不依赖大量人工标注,从而降低工作量。
[0005] 第一方面中,本申请实施例提供一种搜索方法,所述方法包括:
[0006] 获取搜索信息;
[0007] 基于所述搜索信息得到至少一个症状特征;
[0008] 根据症状特征与症状的语义关联度,分别为各症状特征设置权重;
[0009] 获取设置了权重的各症状特征与至少一个预设症状实体之间的目标相似度;
[0010] 根据所述目标相似度,从所述至少一个预设症状实体中确定目标症状实体并输出。
[0011] 一种可能的设计中,所述根据症状特征与症状的语义关联度,分别为各症状特征设置权重,包括:
[0012] 根据各症状特征的语义确定与症状存在语义关系的症状特征;
[0013] 根据语义关系确定各症状特征与症状的语义关联度;
[0014] 分别为各症状特征设置与语义关联度成正关系的权重。
[0015] 一种可能的设计中,所述预设症状实体对应至少一种症状描述信息;所述获取各症状特征与预设症状实体之间的目标相似度,包括:
[0016] 分别计算各症状特征与各症状描述信息之间的加权相似度;
[0017] 取各症状特征与各症状描述信息之间的加权相似度的平均值,将所述平均值作为所述目标相似度。
[0018] 一种可能的设计中,所述基于所述搜索信息得到至少一个症状特征,包括:
[0019] 输出根据所述搜索信息得到的症状推荐信息,症状推荐信息与预设症状实体对应;
[0020] 获取所述用户对所述症状推荐信息的操作行为数据;
[0021] 根据所述操作行为数据和所述搜索信息得到所述至少一个症状特征。
[0022] 一种可能的设计中,所述根据所述目标相似度,从所述至少一个预设症状实体中确定目标症状实体,包括:
[0023] 根据所述操作行为数据得到操作行为图谱;
[0024] 根据所述操作行为图谱和预设阈值,确定候选症状实体;
[0025] 获取所述候选症状实体与至少一种症状描述信息的相似度;
[0026] 根据相似度确定目标症状实体。
[0027] 一种可能的设计中,所述方法还包括:
[0028] 获取训练数据,所述训练数据包括多个医疗语料;
[0029] 根据所述多个医疗语料确定多个医疗症状;
[0030] 分别将各医疗症状转换为预设数据结构的症状特征,所述症状特征包括症状部位、症状参数和症状表征中的至少一项;
[0031] 根据预设症状实体与症状特征之间的映射关系,得到各症状特征的词向量。
[0032] 一种可能的设计中,所述目标症状实体、所述症状描述信息均保存在区块链节点上。
[0033] 第二方面中,本申请实施例提供一种搜索装置,具有实现对应于上述第一方面提供的搜索方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。
硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
[0034] 一种可能的设计中,所述搜索装置包括:
[0035] 输入输出模块,用于获取搜索信息;
[0036] 处理模块,用于基于所述搜索信息得到至少一个症状特征;根据症状特征与症状的语义关联度,分别为各症状特征设置权重;获取设置了权重的各症状特征与至少一个预
设症状实体之间的目标相似度;根据所述目标相似度,从所述至少一个预设症状实体中确
定目标症状实体;
[0037] 所述输入输出模块还用于将所述目标症状实体对应的症状描述信息输出。
[0038] 一种可能的设计中,所述处理模块具体用于:
[0039] 根据各症状特征的语义确定与症状存在语义关系的症状特征;
[0040] 根据语义关系确定各症状特征与症状的语义关联度;
[0041] 分别为各症状特征设置与语义关联度成正关系的权重。
[0042] 一种可能的设计中,所述预设症状实体对应至少一种症状描述信息;所述处理模块具体用于:
[0043] 分别计算各症状特征与各症状描述信息之间的加权相似度;
[0044] 取各症状特征与各症状描述信息之间的加权相似度的平均值,将所述平均值作为所述目标相似度。
[0045] 一种可能的设计中,所述处理模块具体用于:
[0046] 通过所述输入输出模块输出根据所述搜索信息得到的症状推荐信息,症状推荐信息与预设症状实体对应;
[0047] 通过所述输入输出模块获取所述用户对所述症状推荐信息的操作行为数据;
[0048] 根据所述操作行为数据和所述搜索信息得到所述至少一个症状特征。
[0049] 一种可能的设计中,所述处理模块具体用于:
[0050] 根据所述操作行为数据得到操作行为图谱;
[0051] 根据所述操作行为图谱和预设阈值,确定候选症状实体;
[0052] 获取所述候选症状实体与至少一种症状描述信息的相似度;
[0053] 根据相似度确定目标症状实体。
[0054] 一种可能的设计中,所述处理模块还用于:
[0055] 通过所述输入输出模块获取训练数据,所述训练数据包括多个医疗语料;
[0056] 根据所述多个医疗语料确定多个医疗症状;
[0057] 分别将各医疗症状转换为预设数据结构的症状特征,所述症状特征包括症状部位、症状参数和症状表征中的至少一项;
[0058] 根据预设症状实体与症状特征之间的映射关系,得到各症状特征的词向量。
[0059] 一种可能的设计中,所述目标症状实体、所述症状描述信息均保存在区块链节点上。
[0060] 本申请实施例又一方面提供了一种搜索装置,其包括至少一个连接的处理器、存储器和收发器,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中
的计算机程序来执行上述第一方面所述的方法。
[0061] 本申请实施例又一方面提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
[0062] 相较于现有技术,本申请实施例提供的方案中,由于基于所述搜索信息得到至少一个症状特征,因此不依赖大量人工标注,从而降低工作量。根据症状特征与症状的语义关
联度,分别为各症状特征设置权重,获取设置了权重的各症状特征与至少一个预设症状实
体之间的目标相似度,根据目标相似度,从至少一个预设症状实体中确定目标症状实体并
输出。因此,本方案能够提高识别症状实体的准确性,以及有效区分相似症状和非相似症
状。

附图说明

[0063] 图1a为本申请实施例中搜索系统的一种网络拓扑示意图;
[0064] 图1b为本申请实施例中搜索系统的一种网络拓扑示意图;
[0065] 图2为本申请实施例中搜索方法的一种流程示意图;
[0066] 图3为本申请实施例中搜索系统的一种网络拓扑示意图;
[0067] 图4a为本申请实施例中搜索系统的一种网络拓扑示意图;
[0068] 图4b为本申请实施例中搜索系统的一种网络拓扑示意图;
[0069] 图5为本申请实施例中搜索系统的一种网络拓扑示意图;
[0070] 图6为本申请实施例中区块链系统的一种示意图;
[0071] 图7为本申请实施例中搜索装置的一种结构示意图;
[0072] 图8为本申请实施例中搜索装置的一种结构示意图;
[0073] 图9为本申请实施例中服务器的一种结构示意图。

具体实施方式

[0074] 本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在
适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的
顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,
例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那
些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其
它步骤或模块,本申请实施例中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用
中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一
些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连
接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,
本申请实施例中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是
物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实
际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。
[0075] 本申请实施例供了一种搜索方法、装置及存储介质,可用于搜索引擎,搜索引擎侧可用于向用户提供医疗相关知识的查询、科室引导等操作。该方案可用于服务器侧或者用
户设备侧,本申请实施例仅以搜索引擎部署于服务器侧为例,服务器侧部署了搜索装置,本
申请实施例中搜索装置可以是区块链系统中的节点。
[0076] 本申请实施例提供的方案涉及人工智能(Artificial Intelligence,AI)、自然语言处理(Nature Language processing,NLP)、机器学习(Machine Learning,ML)等技术,具
体通过如下实施例进行说明:
[0077] 其中,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话
说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能
以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原
理与实现方法,使机器具有感知、推理与决策的功能。
[0078] AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据
处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技
术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0079] NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计
算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的
语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义
理解、机器翻译、机器人问答、知识图谱等技术。
[0080] ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重
新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算
机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括
人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
[0081] 一些实施方式中,如图1a所示的搜索系统包括搜索引擎、至少一个用户终端。用户通过用户终端在搜索引擎的前端页面输入搜索信息,搜索引擎获取到搜索信息后,可将搜
索信息分词,分析得到用户想要描述的症状特征,然后基于预设知识库,将这些症状特征进
行实体映射,以得到该用户的实际症状,为后续症状判断、科室引导提供明确的依据。
[0082] 实体映射:实体映射是指将文本中的实体提及映射到预设知识库,在问题回答、语义搜索和信息提取等领域起到了非常有趣的基础作用。医疗领域的症状实体映射在医疗智
能助手应用中不可或缺,如肚子痛/肚子疼/小腹微痛等都需要先链接到腹痛这一标准实体
词,而后进行后续处理。实体映射也可称作实体链接,本申请实施例不对此作限定。
[0083] 相似度:相似度是一种衡量两个字符串字面相似度的量化度量方法。其原理为通过一定的操作把一个字符串变成另外一个字符串。所需的步骤越少则两个字符串距离越
小,字符串的相似度越大。常用的相似度有莱文斯坦距离,包括删除、插入替换等操作。当然
也存在其他的相似度定义方式如编辑距离、最长公共子序列(Longest  Common 
Subsequence,LCS)和汉明距离等,本申请实施例不对此作限定。
[0084] 加权相似度:由于不同情况的插入,替换,删除的可能性是不同的。比如在拼写纠错的时候有些位置的字母打错成某个字母的可能性比其他字母要高;在基因序列中,有些
碱基的缺失和替换可能性也要比其他的高。在相似度的基础上,为删除、插入、替换等操作
添加不同的权重称为加权相似度。
[0085] 预设知识库:是指用于提供实体遍历和实体映射的知识库。一些实施方式中,预设知识库可通过神经网络模型实现,具体来说,先获取大量医疗领域的医疗语料,然后基于这
些医疗语料训练词向量模型,并基于医疗领域的各类基础症状构建症状映射关系(即预设
知识库)。该症状映射关系包括多个预设症状实体与症状部位、症状程度、症状表征之间的
映射关系。然后基于词向量模型训练得到这些基础症状的词向量。当获取到用户输入的搜
索信息后,将搜索信息输入到词向量模型中,得到对应搜索信息所表示的症状特征的词向
量。然后,计算该词向量与症状映射关系中各预设症状实体对应的词向量之间的相似度,从
其中选出相似度高于预设阈值的候选症状实体,可从候选症状实体中选择一个作为与该搜
索信息映射的目标症状实体(例如选择相似度最大的候选症状实体)。一些实施方式中,本
申请实施例中,词向量模型可采用如图1b所示的一种神经网络模型结构,该词向量模型包
括输入层、隐藏层和输出层。其中,隐藏层由至少两层循环神经网络构成,语言模型中的循
环神经网络可为长短期记忆(long short term memory,LSTM)网络(图1b以两层LSTM网络
为例)、门控循环单元(gated recurrent unit,GRU)和简单循环单元(simple recurrent 
units,SRU)等神经网络,本申请实施例不对此作限定。下面介绍词向量模型的预训练过程:
获取训练数据,所述训练数据包括多个医疗语料(例如图1b中的单词特征);根据所述多个
医疗语料确定多个医疗症状(即图1b中的句法特征);分别将各医疗症状转换为预设数据结
构的症状特征(即图1b中的语法特征),所述症状特征包括症状部位、症状参数和症状表征
中的至少一项;根据预设症状实体与症状特征之间的映射关系,得到各症状特征的词向量。
基于各症状特征的词向量训练模型,以得到词向量模型。词向量模型训练好后,即可在线从
用户输入的搜索信息中抽取特征,然后集成特征,然后获取每个特征在该词向量模型中的
词向量。
[0086] 其中,需要特别说明的是,本申请实施例涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数
据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以
及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例涉及的用户设备可
以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于
此。用户设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实
施例在此不做限制。
[0087] 参照图2,以下介绍本申请实施例所提供的一种搜索方法,本申请实施例包括:
[0088] 201、获取搜索信息。
[0089] 其中,该搜索信息为用户在搜索引擎的前端页面输入,例如,搜索信息为“感冒”、“小腿有点通”,“腿部很痛”,“下肢感觉痛”等短语。该搜索信息也可称为搜索词、关键词、搜
索短语等,本申请实施例不对搜索信息的名称和获取方式作限定。
[0090] 202、基于所述搜索信息得到至少一个症状特征。
[0091] 其中,症状特征是指疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变的状态。症状。例如,搜索信息为脑炎
时,症状特征可包括全身症状:比如有发烧,神疲乏力;全脑的症状:比如出现头疼、恶心、呕
吐、癫痫、抽搐、昏迷、意识障碍;局灶性症状:肢体偏瘫、失语。
[0092] 一些实施方式中,可采用将搜索信息分词为预设格式的信息,即得到至少一个症状特征;或者通过引导用户产生用户点击行为,并基于用户点击行为得到得到至少一个症
状特征。下面分别进行说明:
[0093] 方式一:采用将搜索信息分词为预设格式的信息。
[0094] 对于字面相似实体,由于用户输入的多样性,可将搜索信息分词为预设格式的信息,该预设格式可包括三项:症状部位、症状程度和症状表征。即便搜索信息中不包括症状
部位、症状程度和症状表征中的一项或两项,也也可用该预设格式来表征分词后的搜索信
息,本申请实施例允许该预设格式的信息中某个部分表征为空。
[0095] 举例来说,首先,将搜索信息(例如用户query)进行分词为:症状部位+症状程度+症状症状表征,每个部分都包含一些候选词。例如腹痛的症状部位词包括:肚子、小腹、腹部
等,常见的症状程度词包括:有些、有点、有一点、轻微、略微等,常见的症状表征则包括:疼、
痛、疼痛等。如图3所示。
[0096] 可见,对用户query进行医结合医疗相关性进行分词,即使用症状部位+症状程度+症状症状表征这种预设格式对用户query进行分解,并制定不同症状的少量表述,能够解决
使用纯映射表映射带来的无法完全罗列的问题和现有技术中有监督模型需要的大量人工
标注的问题。
[0097] 方式二:通过引导用户产生用户点击行为,并基于用户点击行为得到得到至少一个症状特征。
[0098] 在方式二中,考虑到用户输入的搜索信息的多样化和不确定性,即便用户是在描述同一件事,由于搜索引擎中语料限制,有可能在用户输入的搜索信息与搜索引擎中的语
料在文字上或者语义上相似度较低,可能会出现无法匹配到预设症状实体的情况。例如,搜
索信息为“晚上睡不着”时,预设症状实体可能为“失眠”,或者搜索信息为“一天多次厕所”
时,预设症状实体可能为“尿频”。由于字面上完全不相同,而相关语料难以获取从而训练语
义向量也存在困难,因此从静态语义很难进行实体映射,即难以将“晚上睡不着”与“失眠”
进行实体映射,以及难以将“一天多次厕所”与“尿频”进行实体映射。
[0099] 为了避免该情况出现以及提高对用户的有效响应,本申请实施例还可以基于用户点击行为来为明确搜索信息所表达的症状,例如基于用户的动态点击日志进行实体映射,
点击数据路径强关联,通过一定的阈值选择和过滤,就能找出相关的候选症状实体。具体来
说,所述基于所述搜索信息得到至少一个症状特征,包括:
[0100] 输出根据所述搜索信息得到的症状推荐信息,症状推荐信息与预设症状实体对应;
[0101] 获取所述用户对所述症状推荐信息的操作行为数据;
[0102] 根据所述操作行为数据和所述搜索信息得到所述至少一个症状特征。
[0103] 其中,症状推荐信息由搜索引擎预先设置,症状推荐信息可以是词条、文章、资讯、问答等内容,本申请实施例不对症状推荐信息的表现形式和链接渠道作限定。
[0104] 例如,搜索信息为“晚上睡不着”时,症状推荐信息可包括:每天3点入睡(影响健康吗)、经常半夜突然醒来后睡不着(会衰老吗);或者搜索信息为“一天多次厕所”时,症状推
荐信息可包括:1小时去厕所好多次(算尿频吗)、喝一点水就要频繁上厕所(膀胱有问题
吗)。又例如,当用户输入的搜索信息为“感冒时”,如图4a所示,搜索引擎可向用户终端发送
以下症状推荐信息:咳嗽(是肺炎吗)、38.4度(算发烧吗)、高烧(能喝冷水吗)、发热(怎么
办)、头痛(怎么办)等,然后检测用户针对这些症状推荐信息的点击行为,假设该用户点击
了“38.4度(算发烧吗)”8次、点击了“高烧(能喝冷水吗)”6次、点击了“发热(怎么办)”13次。
那么可以搜集这些用户点击行为数据,然后基于这些用户点击行为数据进行统计分析,得
到如图4b所示的症状关系图谱,最终确定出与该用户的的搜索信息匹配的目标症状实体,
便于进行实体映射到预设知识库的操作。
[0105] 203、根据症状特征与症状的语义关联度,分别为各症状特征设置权重。
[0106] 其中,语义关联度是指搜索信息中的词用于表征某个病症症状的时,其与该病症症状的关联度。
[0107] 权重是指某一因素或指标相对于某一事物的重要程度。例如,权重可指搜索信息中的某个词用于表征某个病症症状的重要性。
[0108] 一些实施方式中,由于医疗相关字词如症状部位、症状表征等词更能有效区分不同症状,因此能够有效区分不同症状的症状部位、症状表征所占的权重应该尽量大,其他如
症状程度类的词、发生症状的时间等词的权重对于症状区分度不高,所占比重应该尽量小。
基于此,本申请实施例提出基于医疗部位、症状和症状程度的加权编辑距离和别名实体映
射库的实体映射方法来解决该问题。具体来说,所述根据症状特征与症状的语义关联度,分
别为各症状特征设置权重,包括:
[0109] 根据各症状特征的语义确定与症状存在语义关系的症状特征;
[0110] 根据语义关系确定各症状特征与症状的语义关联度;
[0111] 分别为各症状特征设置与语义关联度成正关系的权重。
[0112] 可见,在一些实施方式中,如果使用单纯的相似度求用户query的相似度,则很容易出现误判,例如用户输入“肚子有一点痒”经过分词后,得到“肚子有一点痒”如果使用单
纯的编辑距离,则跟腿痛实体中的“腿有一点痒”编辑距离更小,更为接近,容易把该用户
query错误链接到腿痛的实体。同样如果用户输入“小腿轻微痛”也会因为同样的原因而被
误判到腹痛这个实体。因此,本申请实施例针对医疗症状的重要性不同,赋予部位、症状表
征词较大的权重,而程度词和其他医疗无关词则赋予较小的权重。例如,分别赋予症状部位
词、症状表征词大于2的不同权重,而症状程度副词赋予大于1小于2的权重,其他不相关的
字权重为1。然后求用户的输入和制定的实体映射表中不同预设症状实体的不同表述的加
权编辑距离并求平均值,以得到搜索信息与各个预设症状实体的平均加权编辑距离。其中,
平均编辑距离最小的预设症状实体则认为是与搜索信息最接近的症状实体。如图3所示,四
个不同用户query,分别与腹痛、腿痛两个预设症状实体中的各个不同表述求加权编辑距离
并得到平均值。可以看到“肚子有一点痛”和“小腿有些痒”能分别成功映射到“腹痛”和“腿
痒”两个预设症状实体。
[0113] 可见,通过为预设格式的信息中的三项分别赋予不同的权重,能够更准确的反映出用户表实际想要表达的症状,同时,也更明确用户的症状,避免后续计算相似度时,将用
户的搜索信息映射到错误的预设症状实体。
[0114] 204、获取设置了权重的各症状特征与至少一个预设症状实体之间的目标相似度。
[0115] 其中,预设症状实体是指用于表征某类疾病的症状特征的实体。例如,症状为腿疼、下肢痛等类似症状时,预设症状实体可包括腿疼实体;症状为头疼、头有点疼等类似症
状时,预设症状实体可包括头疼实体;症状为肚子疼、腹腔不舒服等类似症状时,预设症状
实体可包括腹疼实体;症状为睡不着、失眠等类似症状时,预设症状实体可包括睡眠差实
体。诸如此类,不作赘述。具体可参考图3所示的预设预设症状实体。
[0116] 一些实施方式中,所述预设症状实体对应至少一种症状描述信息,症状描述信息是指描述机体、精神所致的症状特征的信息。考虑到用户输入的搜索信息的多样性,在实体
映射时可能会将一个搜索信息映射到多个预设症状实体,可能得到的预设症状实体并不能
完全明确的体现出用户的搜索需求,那么,还可以采用加权方式得到更合理的目标相似度,
具体来说,所述获取各症状特征与预设症状实体之间的目标相似度,包括:
[0117] 分别计算各症状特征与各症状描述信息之间的加权相似度;
[0118] 取各症状特征与各症状描述信息之间的加权相似度的平均值,将所述平均值作为所述目标相似度。
[0119] 例如,分别赋予症状部位词、症状表征词大于2的不同权重,而症状程度副词赋予大于1小于2的权重,其他不相关的字权重为1。然后求用户的输入和制定的实体映射表中不
同预设症状实体的不同表述的加权编辑距离并求平均值,以得到搜索信息与各个预设症状
实体的平均加权编辑距离。其中,平均编辑距离最小的预设症状实体则认为是与搜索信息
最接近的症状实体。如图3所示,四个不同用户query,分别与腹痛、腿痛两个预设症状实体
中的各个不同表述求加权编辑距离并得到平均值。可以看到“肚子有一点痛”和“小腿有些
痒”能分别成功映射到“腹痛”和“腿痒”两个预设症状实体。
[0120] 可见,通过加权相似度度量,能够将用户的搜索信息映射到错误的预设症状实体。
[0121] 205、根据所述目标相似度,从所述至少一个预设症状实体中确定目标症状实体并输出。
[0122] 一些实施方式中,当采用上述方式二得到得到所述至少一个症状特征时,可基于操作行为数据进一步分析出对应该用户的操作行为图谱,便于识别出目标症状实体。具体
来说,所述根据所述目标相似度,从所述至少一个预设症状实体中确定目标症状实体,包
括:
[0123] 根据所述操作行为数据得到操作行为图谱;
[0124] 根据所述操作行为图谱和预设阈值,确定候选症状实体;
[0125] 获取所述候选症状实体与至少一种症状描述信息的相似度;
[0126] 根据相似度确定目标症状实体。
[0127] 其中,操作行为图谱可表示用户针对症状推荐信息的点击路径、点击对象、点击次数、点击先后顺序、点击时间间隔等,通过该操作行为图谱能够反映该用户针对该搜索信息
所想要表达的症状的多维度信息,有了这些多维度信息,就更加便于确定目标症状实体。
[0128] 一些实施方式中,基于图3所示的基础症状表示列表中的实体映射部分,当用户输入一个症状实体a(例如前述搜索信息、用户query)时,如图5所示,首先基于加权编辑距离
衡量模型寻找候选症状实体,如果计算得到的相似度a大于预设阈值,则可将症状实体a链
接到基础症状表示列表中与症状实体a最相关的预设症状实体A。
[0129] 若相似度a大于预设阈值小于或等于预设阈值,则可使用上述词向量模型(例如图1b所示的词向量模型)计算出症状实体a与预设症状实体A的相似度b。具体来说,若计算得
到的相似度b大于预设阈值,则同样进行实体链接;若相似度b小于或等于预设阈值,则根据
用户的点击行为数据生成候选症状实体,然后计算候选症状实体与基础症状表示列表中各
预设症状实体之间的相似度c,若相似度c大于预设阈值,则进行实体链接。
[0130] 本实施方式中,经过上述三个步骤,能够最大程度的保证症状实体链接的准确度和召回率,具有很强的实用性。
[0131] 本申请实施例中,一方面中,由于基于所述搜索信息得到至少一个症状特征,因此不依赖大量人工标注,从而降低工作量。根据症状特征与症状的语义关联度,分别为各症状
特征设置权重,获取设置了权重的各症状特征与至少一个预设症状实体之间的目标相似
度,根据目标相似度,从至少一个预设症状实体中确定目标症状实体并输出。因此,本方案
能够提高识别症状实体的准确性,以及有效区分相似症状和非相似症状。
[0132] 另一方面中,通过为预设格式的信息中的三项分别赋予不同的权重,能够更准确的反映出用户表实际想要表达的症状,同时,也更明确用户的症状,避免后续计算相似度
时,将用户的搜索信息映射到错误的预设症状实体。
[0133] 本申请实施例中,上述目标症状实体、症状描述信息均可保存在区块链中。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模
式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联
产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性
(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服
务层。
[0134] 区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账
户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授
权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);
基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求
完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处
理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传
输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合
约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约
注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提
供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合
约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控
节点设备健康状态等。
[0135] 本申请实施例中执行搜索方法的搜索装置(也可称作服务器)可以是区块链系统中的节点。本申请实施例中的搜索装置可以是如图6所示的一种区块链系统中的节点。
[0136] 图1a至图6中任一项所对应的实施例中所提及的任一技术特征也同样适用于本申请实施例中的图7至图9所对应的实施例,后续类似之处不再赘述。
[0137] 以上对本申请实施例中一种搜索方法进行说明,以下对执行上述搜索方法的装置进行介绍。
[0138] 参阅图7,如图7所示的一种搜索装置70的结构示意图,其可应用于搜索引擎,该搜索引擎可用于向用户提供医疗相关知识的查询、科室引导等操作。本申请实施例中的搜索
装置70能够实现对应于上述图1a‑图5中任一所对应的实施例中所执行的搜索方法的步骤。
搜索装置70实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或
软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述搜索
装置70可包括处理模块701、输入输出模块702,所述处理模块701、所述输入输出模块702的
功能实现可参考图1a‑图5中任一所对应的实施例中所执行确定症状特征、目标相似度、目
标症状实体等操作,此处不作赘述。例如,所述处理模块701可用于控制所述输入输出模块
702的获取、输入输出等操作。
[0139] 一些实施方式中,所述输入输出模块702可用于获取搜索信息;
[0140] 所述处理模块701可用于基于所述搜索信息得到至少一个症状特征;根据症状特征与症状的语义关联度,分别为各症状特征设置权重;获取设置了权重的各症状特征与至
少一个预设症状实体之间的目标相似度;根据所述目标相似度,从所述至少一个预设症状
实体中确定目标症状实体;
[0141] 所述输入输出模块701还用于将所示处理模块701确定的所述目标症状实体对应的症状描述信息输出。
[0142] 本申请实施例中,处理模块701基于所述搜索信息得到至少一个症状特征,因此不依赖大量人工标注,从而降低工作量。根据症状特征与症状的语义关联度,分别为各症状特
征设置权重,获取设置了权重的各症状特征与至少一个预设症状实体之间的目标相似度,
根据目标相似度,从至少一个预设症状实体中确定目标症状实体并输出。因此,本方案能够
提高识别症状实体的准确性,以及有效区分相似症状和非相似症状。
[0143] 一些实施方式中,所述处理模块701具体用于:
[0144] 根据各症状特征的语义确定与症状存在语义关系的症状特征;
[0145] 根据语义关系确定各症状特征与症状的语义关联度;
[0146] 分别为各症状特征设置与语义关联度成正关系的权重。
[0147] 一些实施方式中,所述预设症状实体对应至少一种症状描述信息;所述处理模块701具体用于:
[0148] 分别计算各症状特征与各症状描述信息之间的加权相似度;
[0149] 取各症状特征与各症状描述信息之间的加权相似度的平均值,将所述平均值作为所述目标相似度。
[0150] 一些实施方式中,所述处理模块701具体用于:
[0151] 通过所述输入输出模块702输出根据所述搜索信息得到的症状推荐信息,症状推荐信息与预设症状实体对应;
[0152] 通过所述输入输出模块702获取所述用户对所述症状推荐信息的操作行为数据;
[0153] 根据所述操作行为数据和所述搜索信息得到所述至少一个症状特征。
[0154] 一些实施方式中,所述处理模块701具体用于:
[0155] 根据所述操作行为数据得到操作行为图谱;
[0156] 根据所述操作行为图谱和预设阈值,确定候选症状实体;
[0157] 获取所述候选症状实体与至少一种症状描述信息的相似度;
[0158] 根据相似度确定目标症状实体。
[0159] 上面从模块化功能实体的角度对本申请实施例中的搜索装置70进行了描述,下面从硬件处理的角度分别对本申请实施例中的执行搜索方法的服务器进行描述。需要说明的
是,处理模块701对应的实体设备可以为处理器,在本申请实施例图7所示的实施例中的输
入输出模块702对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输出
接口等。图8所示的装置70可以具有如图8所示的结构,当图7所示的装置70具有如图8所示
的结构时,图8中的处理器和输入输出单元能够实现前述对应该搜索装置70的装置实施例
提供的处理模块701、输入输出模块702相同或相似的功能,图8中的存储器存储处理器执行
上述搜索方法时需要调用的计算机程序。
[0160] 图9是本申请实施例提供的一种服务器结构示意图,该服务器920可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:central 
processing units,英文简称:CPU)922(例如,一个或一个以上处理器)和存储器932,一个
或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设
备)。其中,存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程
序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指
令操作。更进一步地,中央处理器922可以设置为与存储介质930通信,在服务器920上执行
存储介质930中的一系列指令操作。
[0161] 服务器920还可以包括一个或一个以上电源926,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口959,和/或,一个或一个以上操作系统941,例如
Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。
[0162] 上述实施例中由服务器所执行的步骤可以基于该图9所示的服务器920的结构。例如上述实施例中由图9所示的装置60所执行的步骤可以基于该图9所示的服务器结构。例
如,所述处理器922通过调用存储器932中的指令,执行以下操作:
[0163] 通过所述输入输出接口959获取搜索信息;
[0164] 基于所述搜索信息得到至少一个症状特征;根据症状特征与症状的语义关联度,分别为各症状特征设置权重;获取设置了权重的各症状特征与至少一个预设症状实体之间
的目标相似度;根据所述目标相似度,从所述至少一个预设症状实体中确定目标症状实体;
[0165] 通过所述输入输出接口959将所示处理模块701确定的所述目标症状实体对应的症状描述信息输出。
[0166] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0167] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0168] 在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述
模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块
或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所
显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的
间接耦合或通信连接,可以是电性,机械或其它的形式。
[0169] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个
网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目
的。
[0170] 另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集
成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的
模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计
算机可读取存储介质中。
[0171] 在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
[0172] 所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机
可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以
存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介
质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线
(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网
站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够
存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储
设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半
导体介质(例如固态硬盘Solid State Disk(SSD))等。
[0173] 以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助
理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实
施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应
理解为对本申请实施例的限制。