基于AI技术的互联网智能自动诊疗应答系统转让专利

申请号 : CN202211563978.X

文献号 : CN115810422B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 罗宁政王立法贾佳刘海滨

申请人 : 深圳市维康致远科技有限公司

摘要 :

本发明属于互联网医疗技术领域,具体涉及基于AI技术的互联网智能自动诊疗应答系统。所述系统包括:关键词提取单元,配置用于提取用户输入的内容的关键词,得到关键词集合;关键词派生单元,配置用于将关键词集合中的每个关键词进行关键词派生,得到每个关键词对应的一个或多个派生关键词,将每个关键词与其对应的派生关键词组成关键词组合,将所有的关键词组合组成关键词组合集合。本发明通过对用户输入内容的自动提取关键词,再对关键词进行分析和计算,不仅实现了智能化的在线自动诊疗,更能实现基于内容的反问,提升用户体验,具有智能化程度高和响应准确率高的优点。

权利要求 :

1.基于AI技术的互联网智能自动诊疗应答系统,其特征在于,所述系统包括:关键词提取单元,配置用于提取用户输入的内容的关键词,得到关键词集合;关键词派生单元,配置用于将关键词集合中的每个关键词进行关键词派生,得到每个关键词对应的一个或多个派生关键词,将每个关键词与其对应的派生关键词组成关键词组合,将所有的关键词组合组成关键词组合集合;关键词组合融合单元,配置用于对关键词组合进行关键词融合计算,得到每个关键词组合最终对应的融合关键词;向量计算单元,配置用于基于融合关键词,使用预设关键词向量计算模型,得到每个融合关键词的向量;应答处理单元,配置用于基于计算得到的融合关键词的向量,从预设的应答向量数据库中进行匹配检索,得到对应的应答结果,输出给用户,同时基于融合关键词的向量,计算得到问题概率,再从应答向量数据库中检索到应答结果对应的应答问题,使用问题概率判断是否需要将应答问题输出给用户,若是,则直接输出应答问题,若否,则忽略;所述应答向量数据库为一个关系数据库,其中存储有多个应答向量,每个应答向量对应一个应答内容,每个应答内容对应一个应答问题,每个应答内容与应答问题通过问题概率转移矩阵关联;

所述关键词组合融合单元,配置用于对关键词组合进行关键词融合计算,得到每个关键词组合最终对应的融合关键词的方法包括:计算每个关键词组合中关键词与其对应的派生关键词在词语语义树中的语义中心距离值,再计算所有语义中心距离值的算术平均值,从词语语义树中获取距离根节点为算术平均值的所有词语,然后找到这些词语中与关键词组合中的关键词距离最近的词语,作为融合关键词;

所述向量计算单元,基于融合关键词,使用预设关键词向量计算模型,得到每个融合关键词的向量的方法包括:将词语语义树中的根节点作为坐标原点,将融合关键词在词语语义树中的位置作为终节点,连接坐标原点与终节点,按照从原点到终节点的方向,得到融合关键词的向量的方向,按照原点与终节点的欧式距离,得到向量值;

所述基于融合关键词的向量,计算得到问题概率的方法包括: 其中,

R为融合关键词向量值,X为问题概率。

2.如权利要求1所述的系统,其特征在于,所述关键词提取单元包括:分词器、相似度计算单元、权重计算单元和关键词选取单元;所述分词器,配置用于对内容进行分词得到单词,对所述单词进行过滤得到候选关键词;所述相似度计算单元,配置用于计算任意两个候选关键词之间的相似度;权重计算单元,配置用于使用如下公式,根据相似度计算候选关键词的权重: 其中,Weight(vi)表示候选关键词Vi的权重,d为调整系数,取值范围为0.2~0.6;n为候选关键词的数量;similar(vi,vj)表示候选关键词vi与vj的相似度;λ为相似度校正值,取值范围为0.4~0.7;所述关键词选取单元,配置用于根据计算得到的候选关键词的权重,按照权重值从高到低,选取预设的K个候选关键词作为关键词,得到关键词集合。

3.如权利要求2所述的系统,其特征在于,所述相似度计算单元计算相似度的方法执行以下步骤: 其中, 为候选关键词vi的语义中心距离值,

为候选关键词vj的语义中心距离值;所述语义中心距离值的获得方法为:采用分层聚类方法构建词语语义树;根据词语语义树中每个连接的不一致率计算,候选关键词在词语语义树中距离根节点的距离作为语义中心距离值。

4.如权利要求3所述的系统,其特征在于,所述关键词派生单元包括:派生单元,配置用于将关键词集合中的每个关键词进行关键词派生,得到每个关键词对应的一个或多个派生关键词;组合单元,配置用于将每个关键词与其对应的派生关键词组成关键词组合,将所有的关键词组合组成关键词组合集合。

5.如权利要求4所述的系统,其特征在于,所述派生单元将关键词集合中的每个关键词进行关键词派生,得到每个关键词对应的一个或多个派生关键词的方法包括:从预先建立的派生词数据库中,基于关键词进行检索,得到关键词对应的派生关键词;所述派生词数据库为关系数据库,存储内容为预先录入的词语,每个词语与其对应的近义词相关联,在对关键词进行检索时,检索到派生词数据库中匹配的词语后,将该词语关联的近义词提取出来作为该关键词的派生词。

6.如权利要求5所述的系统,其特征在于,所述问题概率转移矩阵为一个判别矩阵,其矩阵表达如下: 其中,A、B和C均为预设值,满足以下约束关系:1=A*B*C。

7.如权利要求6所述的系统,其特征在于,所述应答内容和应答问题均为预先录入的纯文本内容。

说明书 :

基于AI技术的互联网智能自动诊疗应答系统

技术领域

[0001] 本发明属于互联网医疗技术领域,具体涉及基于AI技术的互联网智能自动诊疗应答系统。

背景技术

[0002] 人工智能(Artificial Intelligence)是计算机科学的一个分支,英文缩写为Al,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
[0003] 人机聊天是指人与计算机之间进行交互聊天的过程。人机聊天可应用于娱乐及情感陪伴、智能服务拟人化等方面。例如:通过人机聊天系统可以随时随地进行对话,缓解人们的生活压力,对于儿童还可帮助儿童提高语言能力。除此之外,人机聊天还可以适用于互联网医疗领域,通过与患者的对话,实现自动诊疗。
[0004] 目前,传统的人机聊天系统主要基于大规模自动挖掘的聊天句对,每个聊天句对中含有聊天上句P(post)和针对P的下句R(Response)。对于用户输入的聊天句子Q(query),首先计算出与Q相似度最高的多个聊天上句{PI,P2,…,Pn},再对聊天上句对应的聊天下句{Rl,R2,*",Rn}进行排序,然后选择出最优的聊天下句R返回给用户。
[0005] 这种应答的方式虽然能够实现自动聊天和自动回复,但由于AI只能针对用户提出的问题单纯的进行简单的回复,缺乏多轮聊天能力,即用户提出聊天上句,机器回复聊天下句,缺乏主动性,不够真实自然;对于时效性要求较高的对话例如新闻,则无法精准地进行回答;另外,聊天过程非常机械化,在实践中,由于用户提出的诊疗问题可能因人而异,且不同的用户的沟通习惯不同,使得其无法针对不同的情况提出更为准确和人性化的回答,导致在线诊疗的结果效果不佳。

发明内容

[0006] 本发明的主要目的在于提供基于AI技术的互联网智能自动诊疗应答系统,本发明通过对用户输入内容的自动提取关键词,再对关键词进行分析和计算,不仅实现了智能化的在线自动诊疗,更能实现基于内容的反问,提升用户体验,具有智能化程度高和响应准确率高的优点。
[0007] 为达到上述目的,本发明的技术方案是这样实现的:
[0008] 基于AI技术的互联网智能自动诊疗应答系统,所述系统包括:关键词提取单元,配置用于提取用户输入的内容的关键词,得到关键词集合;关键词派生单元,配置用于将关键词集合中的每个关键词进行关键词派生,得到每个关键词对应的一个或多个派生关键词,将每个关键词与其对应的派生关键词组成关键词组合,将所有的关键词组合组成关键词组合集合;关键词组合融合单元,配置用于对关键词组合进行关键词融合计算,得到每个关键词组合最终对应的融合关键词;向量计算单元,配置用于基于融合关键词,使用预设关键词向量计算模型,得到每个融合关键词的向量;应答处理单元,配置用于基于计算得到的融合关键词的向量,从预设的应答向量数据库中进行匹配检索,得到对应的应答结果,输出给用户,同时基于融合关键词的向量,计算得到问题概率,再从应答向量数据库中检索到应答结果对应的应答问题,使用问题概率判断是否需要将应答问题输出给用户,若是,则直接输出应答问题,若否,则忽略;所述应答向量数据库为一个关系数据库,其中存储有多个应答向量,每个应答向量对应一个应答内容,每个应答内容对应一个应答问题,每个应答内容与应答问题通过问题概率转移矩阵关联。
[0009] 进一步的,所述关键词提取单元包括:分词器、相似度计算单元、权重计算单元和关键词选取单元;所述分词器,配置用于对内容进行分词得到单词,对所述单词进行过滤得到候选关键词;所述相似度计算单元,配置用于计算任意两个候选关键词之间的相似度;权重计算单元,配置用于使用如下公式,根据相似度计算候选关键词的权重:其中,Weight(vi)表示候选关
键词Vi的权重,d为调整系数,取值范围为0.2~0.6;n为候选关键词的数量;similar(vi,vj)表示候选关键词vi与vj的相似度;λ为相似度校正值,取值范围为0.4~0.7;所述关键词选取单元,配置用于根据计算得到的候选关键的权重,按照权重值从高到底,选取预设的K个候选关键词作为关键词,得到关键词集合。
[0010] 进一步的,所述相似度计算单元计算相似度的方法执行以下步骤:其中, 为候选关键词vi的语义中心距离值, 为候选
关键词vj的语义中心距离值;所述语义中心距离值的获得方法为:采用分层聚类方法构建词语语义树;根据词语语义树中每个连接的不一致率计算,候选关键词在词语语义树中距离根节点的距离作为语义中心距离值。
[0011] 进一步的,所述关键词派生单元包括:派生单元,配置用于将关键词集合中的每个关键词进行关键词派生,得到每个关键词对应的一个或多个派生关键词;组合单元,配置用于将每个关键词与其对应的派生关键词组成关键词组合,将所有的关键词组合组成关键词组合集合。
[0012] 进一步的,所述派生单元将关键词集合中的每个关键词进行关键词派生,得到每个关键词对应的一个或多个派生关键词的方法包括:从预先建立的派生词数据库中,基于关键词进行检索,得到关键词对应的派生关键词;所述派生词数据库为关系数据库,存储内容为预先录入的词语,每个词语与其对应的近义词相关联,在对关键词进行检索时,检索到派生词数据库中匹配的词语后,将该词语关联的近义词提取出来作为该关键词的派生词。
[0013] 进一步的,所述关键词组合融合单元,配置用于对关键词组合进行关键词融合计算,得到每个关键词组合最终对应的融合关键词的方法包括:计算每个关键词组合中关键词与其对应的派生关键词在词语语义树中的语义中心距离值,再计算所有语义中心距离值的算术平均值,从词语语义树种获取距离根节点为算术平均值的所有词语,然后找到这些词语中与关键词组合中的关键词距离最近的词语,作为融合关键词。
[0014] 进一步的,所述向量计算单元,基于融合关键词,使用预设关键词向量计算模型,得到每个融合关键词的向量的方法包括:将词语语义树中的根节点作为坐标原点,将融合关键词在词语语义树种的位置作为终节点,连接坐标原点与终节点,按照从原点到终结点的方向,得到融合关键词的向量的方向,按照原点与终结点的欧式距离,得到向量值。
[0015] 进一步的,所述基于融合关键词的向量,计算得到问题概率的方法包括:其中,R为融合关键词向量值,X为问题概率。
[0016] 进一步的,所述问题概率转移矩阵为一个判别矩阵,其矩阵表达如下:
[0017] 其中,A、B和C均为预设值,满足以下约束关系:1=A*B*C。
[0018] 进一步的,所述应答内容和应答问题均为预先录入的纯文本内容。
[0019] 本发明的基于AI技术的互联网智能自动诊疗应答系统,具有如下有益效果:
[0020] 1.准确率和效率高:本发明在进行诊疗应答时,没有使用现有技术的选项式应答,也没有使用现有技术中的关键词匹配方式的应答,而是针对输入的内容,进行关键词提取,再根据关键词进行派生,尽可能保证能够完全获取到用户的内容,提升结果的准确率,同时对得到的关键词,没有简单对所有的关键词和派生词进行匹配,而是进行了融合,以提升后续的关键词匹配,提升效率。
[0021] 2.智能化程度高,具备问答能力:本发明的诊疗应答系统除了能够针对用户的问题进行应答以外,还能对用户提出问题反问,进而推进整个诊疗应答过程,通过概率关联的方式,还能针对用户具体的问题,判断是否需要提出反问,整个系统的智能化程度很高。
[0022] 3.人性化程度高:本发明的在进行诊疗应答时,在面对不同的用户的不同语言习惯,也能进行识别,得到准确的应答,而不是僵化式针对某一种固定方式的问题进行应答,极大提升了用户的体验,人性化程度高。

附图说明

[0023] 图1为本发明实施例提供的基于AI技术的互联网智能自动诊疗应答系统的系统结构示意图。

具体实施方式

[0024] 下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
[0025] 实施例1
[0026] 如图1所示,基于AI技术的互联网智能自动诊疗应答系统,所述系统包括:关键词提取单元,配置用于提取用户输入的内容的关键词,得到关键词集合;关键词派生单元,配置用于将关键词集合中的每个关键词进行关键词派生,得到每个关键词对应的一个或多个派生关键词,将每个关键词与其对应的派生关键词组成关键词组合,将所有的关键词组合组成关键词组合集合;关键词组合融合单元,配置用于对关键词组合进行关键词融合计算,得到每个关键词组合最终对应的融合关键词;向量计算单元,配置用于基于融合关键词,使用预设关键词向量计算模型,得到每个融合关键词的向量;应答处理单元,配置用于基于计算得到的融合关键词的向量,从预设的应答向量数据库中进行匹配检索,得到对应的应答结果,输出给用户,同时基于融合关键词的向量,计算得到问题概率,再从应答向量数据库中检索到应答结果对应的应答问题,使用问题概率判断是否需要将应答问题输出给用户,若是,则直接输出应答问题,若否,则忽略;所述应答向量数据库为一个关系数据库,其中存储有多个应答向量,每个应答向量对应一个应答内容,每个应答内容对应一个应答问题,每个应答内容与应答问题通过问题概率转移矩阵关联。
[0027] 具体的,用户在输入内容后,使用现有技术中分词器可以将内容进行分词,得到多个关键词,但这些关键词会随着用户的不同而不同。针对同一个表达,随着用户习惯的不同,往往大不相同。因此需要对这些关键词进行派生,得到多个派生关键词,派生关键词在本质上属于关键词的同义词和近义词。
[0028] 但由于派生词的产生,会使得后续的匹配检索和应答都降低效率,因为需要对每个派生词进行检索。
[0029] 此时需要对这些派生词进行融合。
[0030] 从关键词的派生,再到关键词和关键词的派生的融合,使得最终得到了一个与最初的关键词不同的融合关键词,这个融合关键词更能反应客户的实际意思,提升了准确率。
[0031] 实施例2
[0032] 优选地,所述关键词提取单元包括:分词器、相似度计算单元、权重计算单元和关键词选取单元;所述分词器,配置用于对内容进行分词得到单词,对所述单词进行过滤得到候选关键词;所述相似度计算单元,配置用于计算任意两个候选关键词之间的相似度;权重计算单元,配置用于使用如下公式,根据相似度计算候选关键词的权重:
[0033] 其中,Weight(vi)表示候选关键词Vi的权重,d为调整系数,取值范围为0.2~0.6;n为候选关键词的数量;similar(vi,vj)表示候选关键词vi与vj的相似度;λ为相似度校正值,取值范围为0.4~0.7;所述关键词选取单元,配置用于根据计算得到的候选关键的权重,按照权重值从高到底,选取预设的K个候选关键词作为关键词,得到关键词集合。
[0034] 具体的,在用户输入的内容中,最初通过分词器得到的关键词的数量将会很多,而这些关键词中,真正能够表达用户含义的往往只有权重最高的那几个关键词。
[0035] 因此需要对关键词进行一次基于权重的筛选,从而提升效率,也避免了无关的关键词对结果的干扰。
[0036] 实施例3
[0037] 优选地,所述相似度计算单元计算相似度的方法执行以下步骤:其中, 为候选关键词vi的语义中心距离值,
[0038] 为候选关键词vj的语义中心距离值;所述语义中心距离值的获得方法为:采用分层聚类方法构建词语语义树;根据词语语义树中每个连接的不一致率计算,候选关键词在词语语义树中距离根节点的距离作为语义中心距离值。
[0039] 具体的,通过分层聚类方法构建的词语语义树实质为一个检索字典,但该检索字典为一个有几何位置的字典,通过集合位置的不同,可以得到反应各个关键词或词语的向量。
[0040] 实施例4
[0041] 优选地,所述关键词派生单元包括:派生单元,配置用于将关键词集合中的每个关键词进行关键词派生,得到每个关键词对应的一个或多个派生关键词;组合单元,配置用于将每个关键词与其对应的派生关键词组成关键词组合,将所有的关键词组合组成关键词组合集合。
[0042] 具体的,短文本相似度的计算方法有很多,主要可以分为如下几类:基于语义词典的方法、基于语料库的方法、基于特征的方法、借助互联网资源的方法。基于语义词典的方法是指通过语义词典,WordNet,PF1DB,FrameNet等,计算词与词之间的语义相似度,最后将词语语义相似度综合起来得到文本语义相似度的方法。基于语料库的方法是指对大规模文本集进行统计分析,典型的方法有LSA(Latent Semantic Analysis)[HPHAL(Hyperspace Analogues to Language)。基于特征的方法试图用一些事先定义好的特征来表示短文本,然后通过分类器来获取短文本的语义相似度。借助互联网资源的方法大多数都利用搜索引擎的返回结果来丰富短文本的上下文信息或者计算词或实体的相似度从而计算短文本的语义相似度。
[0043] 实施例5
[0044] 优选地,所述派生单元将关键词集合中的每个关键词进行关键词派生,得到每个关键词对应的一个或多个派生关键词的方法包括:从预先建立的派生词数据库中,基于关键词进行检索,得到关键词对应的派生关键词;所述派生词数据库为关系数据库,存储内容为预先录入的词语,每个词语与其对应的近义词相关联,在对关键词进行检索时,检索到派生词数据库中匹配的词语后,将该词语关联的近义词提取出来作为该关键词的派生词。
[0045] 实施例6
[0046] 优选地,所述关键词组合融合单元,配置用于对关键词组合进行关键词融合计算,得到每个关键词组合最终对应的融合关键词的方法包括:计算每个关键词组合中关键词与其对应的派生关键词在词语语义树中的语义中心距离值,再计算所有语义中心距离值的算术平均值,从词语语义树种获取距离根节点为算术平均值的所有词语,然后找到这些词语中与关键词组合中的关键词距离最近的词语,作为融合关键词。
[0047] 聊天机器人系统就是一种借助于通讯手段能够时时刻刻在线、并通过自然语言与人沟通交流的人工智能系统。除了聊天功能外,聊天机器人系统还可以拥有众多的增值服务,例如天气查询、地图查询、生活信息查询、计算器、词典等,甚至还可以与人一起作游戏。聊天机器人系统实质上是一种自动问答系统。自动问答系统以自然语言理解技术为核心,涉及到计算语言学、信息科学和人工智能等多门学科,是计算机应用研究的热点之一。自然语言理解是人工智能领域中的一个重要研究方向,它使计算机能够理解和运用人类的自然语言,可以理解用户的谈话内容或者查询意图,实现人与计算机之间基于自然语言的有效沟通。
[0048] 实施例7
[0049] 优选地,所述向量计算单元,基于融合关键词,使用预设关键词向量计算模型,得到每个融合关键词的向量的方法包括:将词语语义树中的根节点作为坐标原点,将融合关键词在词语语义树种的位置作为终节点,连接坐标原点与终节点,按照从原点到终结点的方向,得到融合关键词的向量的方向,按照原点与终结点的欧式距离,得到向量值。
[0050] 从架构设计的角度,现有语音系统普遍缺乏角色性格上的差异,聊天逻辑死板、内容固定,尤其在语言上难以形成流畅而有效的逻辑互动,往往用户初次接触时觉得新鲜,使用后很快感到乏味。常见语音系统如聊天机器人小i,苹果语音模块Siri等所采用的关键字识别方式由于在语法理解方面的薄弱容易引起语义的误读。机器人间常用的对码的方式则由于逻辑固定,导致单调沉闷、缺乏变化。部分系统采用随机方式来丰富语言变化,但随机方式容易使得具体语言内容无法形成连贯逻辑,造成空洞感和虚假感,反而带来反效果。
[0051] 实施例8
[0052] 优选地,所述基于融合关键词的向量,计算得到问题概率的方法包括:
[0053] 其中,R为融合关键词向量值,X为问题概率。
[0054] 实施例9
[0055] 优选地,所述问题概率转移矩阵为一个判别矩阵,其矩阵表达如下: 其中,A、B和C均为预设值,满足以下约束关系:1=A*B*C。
[0056] 实施例10
[0057] 优选地,所述应答内容和应答问题均为预先录入的纯文本内容。
[0058] 虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。