基于机器学习的医保反欺诈方法及系统转让专利

申请号 : CN202211417617.4

文献号 : CN115456805B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王辉金敏玉张羽玄

申请人 : 华信咨询设计研究院有限公司

摘要 :

本发明公开了基于机器学习的医保反欺诈方法及系统。该方法将医院中所有医生分为多个第一类别;将在该医院就诊过的所有患者分为多个第二类别;当第一类别和第二类别存在医患关系时,获取医生和患者之间的边值,进而构建第一医患图和第二医患图;基于第一医患图获取每个医生的第一异常概率;根据医疗向量获取每个医生的独立因子进而获取第二异常概率;以第一异常概率和第二异常概率的乘积作为每个医生的异常概率;获取每个患者的异常概率;当异常概率大于预设阈值时,对应的医生或者患者存在异常;当存在异常的医生和患者存在边值,判定存在联合骗保行为。本发明能够对联合骗保行为进行有效识别,避免医保基金的损失。

权利要求 :

1.基于机器学习的医保反欺诈方法,其特征在于,包括以下步骤:

获取医院中每个医生的过往诊断经历,用数字表示疾病类型,得到每个医生的诊断集合,基于所有医生的诊断集合将所有医生分为不同的第一类别;获取在该医院就诊过的每个患者的病史,得到患病集合,基于所有患者的患病集合将所有患者分为不同的第二类别;

当第一类别和第二类别存在医患关系时,基于医生和患者之间的就诊频率获取医生和患者之间的边值,进而构建对应的医患二分权图,将医生视角的医患二分权图记为第一医患图,将患者视角的医患二分权图记为第二医患图;

获取第一医患图中每个医生的边值序列,基于边值序列的归属度获取第一异常概率;

将存在边值的医生和患者组成一个二元组,根据医生对患者的诊断结果获取二元组的医疗向量,通过对每个第一类别中所有医疗向量进行因子分析,获取对应医生的独立因子,基于独立因子的归属度获取第二异常概率;以第一异常概率和第二异常概率的乘积作为对应医生的异常概率;

根据第二医患图中的边值和医疗向量获取每个患者的异常概率;当异常概率大于预设阈值时,对应的医生或者患者存在异常;当存在异常的医生和患者同时存在边值,判定存在联合骗保行为;

所述第一异常概率的获取步骤包括:

对于每个医生,将对应的所有第一边值按照所述第一医患图中的患者顺序排列,组成医生的边值序列;计算边值序列中所有第一边值的平均值,以平均值替换第一边值为零的元素,得到优化边值序列;

计算每个优化边值序列与每个同类别其他医生对应的优化边值序列之间的余弦相似度,所有余弦相似度的和即为该优化边值序列在该类别中的归属度,由预设值减去所述归属度得到对应医生的所述第一异常概率;

所述第二异常概率的获取步骤包括:

计算每个独立因子与同类别其他每个独立因子之间的余弦相似度,所有余弦相似度的和为该独立因子在相应类别中的归属度,由预设值减去每个医生对应的最小归属度得到对应医生的所述第二异常概率;

所述患者的异常概率的获取步骤包括:

获取第二医患图中每个患者的边值序列,基于边值序列的归属度获取第三异常概率;

获取每个患者对应的医疗向量,通过对每个第二类别中所有医疗向量进行因子分析,获取对应患者的独立因子,基于独立因子的归属度获取第四异常概率;以第三异常概率和第四异常概率的乘积作为对应患者的异常概率。

2.根据权利要求1所述的基于机器学习的医保反欺诈方法,其特征在于,所述将所有医生分为不同的第一类别,包括:计算每两个医生的诊断集合的交集和并集,以交集中的元素数量与并集中的元素数量的比值作为对应两个医生的诊断相近程度,诊断相近程度大于预设的诊断相近阈值的医生为一个第一类别。

3.根据权利要求1所述的基于机器学习的医保反欺诈方法,其特征在于,所述将所有患者分为不同的第二类别,包括:计算每两个患者的患病集合的交集和并集,以交集中的元素数量与并集中的元素数量的比值作为对应两个患者的患病相近程度,患病相近程度大于预设的患病相近阈值的患者为一个第二类别。

4.根据权利要求1所述的基于机器学习的医保反欺诈方法,其特征在于,所述医患关系的判断过程为:以每个第一类别中所有医生的诊断集合的并集作为对应第一类别的第一集合,以每个第二类别中所有患者的患病集合的并集作为对应第二类别的第二集合;当第一集合和第二集合存在交集时,对应的第一类别和第二类别存在医患关系。

5.根据权利要求1所述的基于机器学习的医保反欺诈方法,其特征在于,所述医患二分权图的构建方法为:基于医生视角,获取每个医生诊断过的所有患者的总诊断次数,以每个患者被该医生诊断的次数与所述总诊断次数的比值作为该医生与对应患者之间的第一边值,根据所有第一边值构建所述第一医患图;

基于患者视角,获取每个患者在该医院的就诊次数,以该患者被每个医生诊断的次数与所述就诊次数的比值作为该患者和对应医生之间的第二边值,根据所有第二边值构建所述第二医患图。

6.基于机器学习的医保反欺诈系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1 5任意一项所述基于机器学习的医保反欺诈方法的步骤。

~

说明书 :

基于机器学习的医保反欺诈方法及系统

技术领域

[0001] 本发明涉及医保信息处理技术领域,尤其涉及基于机器学习的医保反欺诈方法及系统。

背景技术

[0002] 随着医保的覆盖范围以及相关业务的扩大,医保欺诈问题也日益严重,对医疗保险基金安全形成巨大威胁,危害了人民群众的切身利益。
[0003] 为监管医保资金支出,建立了医保反欺诈系统,这些系统主要是由熟知医保业务知识并有反欺诈侦测经验的专家建立的一系列规则库。这类反欺诈系统的规则一般较为简单,比如普通感冒病人的医保报销费用显著超过当地感冒治疗的平均费用时,认为是欺诈。
[0004] 另外,随着大数据的发展,在医保反欺诈领域也引入了相关技术,通过对医保大数据进行分析筛选数据异常的患者,识别患者的医保诈骗行为。
[0005] 对于专家系统,受限于专家的知识水平,只能对已知的欺诈策略起作用,对未知欺诈手段无法有效识别;对于利用大数据进行骗保行为的识别,通常基于患者的就医信息进行数据评估,无法识别复杂数据问题,比如医生和病人合谋欺诈等场景。

发明内容

[0006] 本发明主要解决现有技术无法对未知欺诈手段无法有效识别,无法识别复杂数据的问题;提供一种基于机器学习的医保反欺诈方法及系统,用于识别医患合谋骗保行为,所采用的技术方案具体如下:
[0007] 第一方面,本发明一个实施例提供了一种基于机器学习的医保反欺诈方法,该方法包括以下步骤:
[0008] 获取医院中每个医生的过往诊断经历,用数字表示疾病类型,得到每个医生的诊断集合,基于所有医生的诊断集合将所有医生分为不同的第一类别;获取在该医院就诊过的每个患者的病史,得到患病集合,基于所有患者的患病集合将所有患者分为不同的第二类别;
[0009] 当第一类别和第二类别存在医患关系时,基于医生和患者之间的就诊频率获取医生和患者之间的边值,进而构建对应的医患二分权图,将医生视角的医患二分权图记为第一医患图,将患者视角的医患二分权图记为第二医患图;
[0010] 获取第一医患图中每个医生的边值序列,基于边值序列的归属度获取第一异常概率;将存在边值的医生和患者组成一个二元组,根据医生对患者的诊断结果获取二元组的医疗向量,通过对每个第一类别中所有医疗向量进行因子分析,获取对应医生的独立因子,基于独立因子的归属度获取第二异常概率;以第一异常概率和第二异常概率的乘积作为对应医生的异常概率;
[0011] 根据第二医患图中的边值和医疗向量获取每个患者的异常概率;当异常概率大于预设阈值时,对应的医生或者患者存在异常;当存在异常的医生和患者同时存在边值,判定存在联合骗保行为。
[0012] 优选的,所述将所有医生分为不同的第一类别,包括:
[0013] 计算每两个医生的诊断集合的交集和并集,以交集中的元素数量与并集中的元素数量的比值作为对应两个医生的诊断相近程度,诊断相近程度大于预设的诊断相近阈值的医生为一个第一类别。
[0014] 优选的,所述将所有患者分为不同的第二类别,包括:
[0015] 计算每两个患者的患病集合的交集和并集,以交集中的元素数量与并集中的元素数量的比值作为对应两个患者的患病相近程度,患病相近程度大于预设的患病相近阈值的患者为一个第二类别。
[0016] 优选的,所述医患关系的判断过程为:
[0017] 以每个第一类别中所有医生的诊断集合的并集作为对应第一类别的第一集合,以每个第二类别中所有患者的患病集合的并集作为对应第二类别的第二集合;当第一集合和第二集合存在交集时,对应的第一类别和第二类别存在医患关系。
[0018] 优选的,所述医患二分权图的构建方法为:
[0019] 基于医生视角,获取每个医生诊断过的所有患者的总诊断次数,以每个患者被该医生诊断的次数与所述总诊断次数的比值作为该医生与对应患者之间的第一边值,根据所有第一边值构建所述第一医患图;
[0020] 基于患者视角,获取每个患者在该医院的就诊次数,以该患者被每个医生诊断的次数与所述就诊次数的比值作为该患者和对应医生之间的第二边值,根据所有第二边值构建所述第二医患图。
[0021] 优选的,所述第一异常概率的获取步骤包括:
[0022] 对于每个医生,将对应的所有第一边值按照所述第一医患图中的患者顺序排列,组成医生的边值序列;计算边值序列中所有第一边值的平均值,以平均值替换第一边值为零的元素,得到优化边值序列;
[0023] 计算每个优化边值序列与每个同类别其他医生对应的优化边值序列之间的余弦相似度,所有余弦相似度的和即为该优化边值序列在该类别中的归属度,由预设值减去所述归属度得到对应医生的所述第一异常概率。
[0024] 优选的,所述第二异常概率的获取步骤包括:
[0025] 计算每个独立因子与同类别其他每个独立因子之间的余弦相似度,所有余弦相似度的和为该独立因子在相应类别中的归属度,由预设值减去每个医生对应的最小归属度得到对应医生的所述第二异常概率。
[0026] 优选的,所述患者的异常概率的获取步骤包括:
[0027] 获取第二医患图中每个患者的边值序列,基于边值序列的归属度获取第三异常概率;获取每个患者对应的医疗向量,通过对每个第二类别中所有医疗向量进行因子分析,获取对应患者的独立因子,基于独立因子的归属度获取第四异常概率;以第三异常概率和第四异常概率的乘积作为对应患者的异常概率。
[0028] 第二方面,本发明另一个实施例提供了一种基于机器学习的医保反欺诈系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于机器学习的医保反欺诈方法的步骤。
[0029] 本发明实施例至少具有如下有益效果:
[0030] 1、依据医生的边值归属度和独立因子归属度对医生进行异常判断,能够基于医生的行为与同类别其他医生行为的相似程度评估医生的异常概率,当某个医生与患者的接触频率明显异于同类型的其他医生,医疗行为也异于同类型的其他医生,说明该医生行为异常,出现了骗保行为;同样的,根据第二医患图中的边值和医疗向量获取每个患者的异常概率,第二医患图中的边值代表了患者视角的就诊频率,通过患者与医生的接触频率以及患者的就医行为判断患者的异常概率;当异常概率过大时,说明医生或者患者存在异常,如果存在异常的医生和患者同时存在边值,即行为异常的医生和患者之间存在就诊关系,说明两者联合起来进行医保诈骗,判定出现联合骗保行为。将医生患者之间的接触频率同时作为医生和患者异常判断的根据,再结合对应的医疗行为或者就医行为,能够对联合骗保行为进行有效识别,避免医保基金的损失。
[0031] 2、分别对医生和患者进行异常判断,对于单独骗保的异常行为同样能够有效识别,使异常评估更加全面完善。

附图说明

[0032] 图1为本发明一个实施例提供的基于机器学习的医保反欺诈方法的步骤流程图。
[0033] 图2为本发明一个实施例提供的第一医患图。
[0034] 图3为本发明一个实施例提供的第二医患图。

具体实施方式

[0035] 为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于机器学习的医保反欺诈方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
[0036] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
[0037] 本发明的应用场景为任意一个医院。下面结合附图具体的说明本发明所提供的一种基于机器学习的医保反欺诈方法及系统的具体方案。
[0038] 请参阅图1,其示出了本发明一个实施例提供的基于机器学习的医保反欺诈方法的步骤流程图,该方法包括以下步骤:
[0039] 步骤S001,获取医院中每个医生的过往诊断经历,用数字表示疾病类型,得到每个医生的诊断集合,基于所有医生的诊断集合将所有医生分为不同的第一类别;获取在该医院就诊过的每个患者的病史,得到患病集合,基于所有患者的患病集合将所有患者分为不同的第二类别。
[0040] 具体的步骤包括:
[0041] 1、将所有医生分为不同的第一类别。
[0042] 获取医院中每个医生的过往诊断经历,对不同的疾病类型用不同的数字表示,则每个医生的过往诊断经历可以用一个数字集合表示,即为诊断集合。
[0043] 计算每两个医生的诊断集合的交集和并集,以交集中的元素数量与并集中的元素数量的比值作为对应两个医生的诊断相近程度,诊断相近程度大于预设的诊断相近阈值的医生为一个第一类别。
[0044] 诊断相近阈值根据实际情况预先设定,作为一个示例,在本发明实施例中设定为0.9。
[0045] 2、将所有患者分为不同的第二类别。
[0046] 获取在该医院就诊过的每个患者的病史,对不同的疾病类型用不同的数字表示,采用与医生的诊断集合同样的数字来表示对应的疾病类型。根据每个患者曾经得过的病症,形成一个数字集合,即为患者集合。
[0047] 计算每两个患者的患病集合的交集和并集,以交集中的元素数量与并集中的元素数量的比值作为对应两个患者的患病相近程度,患病相近程度大于预设的患病相近阈值的患者为一个第二类别。
[0048] 同样的,患病相近阈值根据实际情况预先设定,作为一个示例,在本发明实施例中同样设定为0.9。
[0049] 不同医生擅长解决的病症不同,因此可以计算每个类别中所有医生的共性,存在异常行为的医生的共性特征少,独立特征多,通过比较该共性和该类别中每个个体的共性特征,对存在异常行为的医生进行识别。
[0050] 患者也是相同的思路,对于患者来说,同一类别的患者的医保行为存在共性,通过比较类别共性特征和类别中个体的共性特征,对存在异常行为的患者行为进行识别。
[0051] 因此首先需要对医生和患者分别进行分类,各自得到不同类别。
[0052] 需要说明的是,通过分类之后,医生对应的第一类别数量和患者对应的第二类别数量不一定相同。
[0053] 步骤S002,当第一类别和第二类别存在医患关系时,基于医生和患者之间的就诊频率获取医生和患者之间的边值,进而构建对应的医患二分权图,将医生视角的医患二分权图记为第一医患图,将患者视角的医患二分权图记为第二医患图。
[0054] 具体的步骤包括:
[0055] 1、判断第一类别和第二类别是否存在医患关系。
[0056] 以每个第一类别中所有医生的诊断集合的并集作为对应第一类别的第一集合,以每个第二类别中所有患者的患病集合的并集作为对应第二类别的第二集合;当第一集合和第二集合存在交集时,对应的第一类别和第二类别存在医患关系。
[0057] 当某个第一类别和某个第二类别的交集为空集时,说明这个第一类别中的医生所擅长的病症和这个第二类别中的患者的所患病症完全不同,这个第一类别中的医生没有诊断过第二类别中的患者的所患病症,也就意味着这两个类别中的医生和患者没有相互联系过,不存在医患关系。
[0058] 而医患合谋的骗保行为一般情况下会有相互联系,所以只对存在医患关系的第一类别和第二类别进行相互匹配。
[0059] 2、构建医患二分权图,该医患二分权图包括医生视角的第一医患图,以及患者视角的第二医患图。
[0060] 基于医生视角,获取每个医生诊断过的所有患者的总诊断次数,以每个患者被该医生诊断的次数与总诊断次数的比值作为该医生与对应患者之间的第一边值,根据所有第一边值构建第一医患图。
[0061] 如图2所示,医生节点为:A、B、C、D,属于同一个第一类别;患者节点为:a、b、c、d,属于同一个第二类别。每个由医生节点指向患者节点的线表示该医生曾经治疗过该患者,该线上的数值为医生与患者之间的第一边值,A1代表医生节点A和患者节点a之间的第一边值,A2代表医生节点A和患者节点b之间的第一边值,B1代表医生节点B和患者节点b之间的第一边值,C1代表医生节点C和患者节点b之间的第一边值,C2代表医生节点C和患者节点c之间的第一边值,C3代表医生节点C和患者节点d之间的第一边值,D1代表医生节点D和患者节点d之间的第一边值。
[0062] 以每个患者被该医生诊断的次数与总诊断次数的比值作为该医生与对应患者之间的第一边值,例如:医生A总共出诊过1000次,其中有20次诊断的患者是患者a,则由医生A指向患者a的第一边值为:20/1000=0.02。
[0063] 虽然大部分患者不会找同一个医生看病,但是现实中的确存在一个患者多次找同一个医生看病的情况,例如复诊等,尤其是医保欺诈时,患者会经常性的找同一个医生合谋,因此利用医生和患者之间的看病频次来进行欺诈识别。
[0064] 第一医患图可以表示医生对不同病人的治疗情况,正常情况下某个医生对大多数病人的治疗频率相近,当对某个病人的治疗频率异常高时,有较大概率存在异常。
[0065] 基于患者视角,获取每个患者在该医院的就诊次数,以该患者被每个医生诊断的次数与就诊次数的比值作为该患者和对应医生之间的第二边值,根据所有第二边值构建第二医患图。
[0066] 如图3所示,医生节点为:A、B、C、D,属于同一个第一类别;患者节点为:a、b、c、d,属于同一个第二类别。每个由患者节点指向医生节点的线表示该患者曾经被对应的医生诊断过,该线上的数值为患者与医生之间的第二边值,a1代表患者节点a和医生节点A之间的第二边值,b1代表患者节点b和医生节点A之间的第二边值,b2代表患者节点b和医生节点B之间的第二边值,b3代表患者节点b和医生节点C之间的第二边值,c1代表患者节点c和医生节点C之间的第二边值,d1代表患者节点d和医生节点C之间的第二边值,d2代表患者节点d和医生节点D之间的第二边值。
[0067] 以该患者被每个医生诊断的次数与就诊次数的比值作为该患者和对应医生之间的第二边值,例如:患者a共患过10次病,其中有2次是被医生A治疗,则由患者a指向医生A的第二边值为:2/10=0.2。
[0068] 步骤S003,获取第一医患图中每个医生的边值序列,基于边值序列的归属度获取第一异常概率;将存在边值的医生和患者组成一个二元组,根据医生对患者的诊断结果获取二元组的医疗向量,通过对每个第一类别中所有医疗向量进行因子分析,获取对应医生的独立因子,基于独立因子的归属度获取第二异常概率;以第一异常概率和第二异常概率的乘积作为对应医生的异常概率。
[0069] 具体的步骤包括:
[0070] 1、获取每张第一医患图中每个医生的第一异常概率。
[0071] 对于每个医生,将对应的所有第一边值按照第一医患图中的患者顺序排列,组成医生的边值序列;计算边值序列中所有第一边值的平均值,以平均值替换第一边值为零的元素,得到优化边值序列;计算每个优化边值序列与每个同类别其他医生对应的优化边值序列之间的余弦相似度,所有余弦相似度的和即为该优化边值序列在该类别中的归属度,由预设值减去归属度得到对应医生的第一异常概率。
[0072] 通过如图2所示的第一医患图,将每个医生对应的所有第一边值按照患者顺序排列,得到每个医生节点对应的边值序列,可以表示每个医生的治疗情况。例如,图2中的医生节点A对应的边值序列为:[A1,A2,0,0]。
[0073] 考虑到后面需要通过计算每个医生的边值序列的余弦相似度,同时每个医生治疗过的患者可能不同,为了避免误差,计算边值序列中所有第一边值的平均值,以平均值替换第一边值为零的元素,得到优化边值序列,例如将医生节点A没有治疗过的患者的边值设置为A1和A2的平均值 ,则医生节点A对应的优化边值序列为:[A1,A2, , ]。
[0074] 计算每个优化边值序列与每个同类别其他医生对应的优化边值序列之间的余弦相似度,所有余弦相似度的和即为该优化边值序列在该类别中的归属度,由预设值减去归属度得到对应医生的第一异常概率。在本发明实施例中预设值为1。
[0075] 如果每个医生的行为正常,不存在异常行为,则每个医生与在该类别中其他医生的优化边值序列都比较相似,即归属度较大,第一异常概率较小;如果存在异常行为则归属度较小,第一异常概率较大。
[0076] 2、获取每个医生的第二异常概率。
[0077] 计算每个独立因子与同类别其他每个独立因子之间的余弦相似度,所有余弦相似度的和为该独立因子在相应类别中的归属度,由预设值减去每个医生对应的最小归属度得到对应医生的第二异常概率。
[0078] 将相互对应的医生和患者组成一个二元组,根据医生对患者的诊断结果获取二元组的医疗向量,医疗向量是指医疗数据组成的向量,例如患病类别、患病名称、治疗用药、治疗费用等,每个元素都可以通过数字化的方法用一个数字来表征,得到二元组对应的医疗向量。
[0079] 例如患病类别用二进制表示:00表示传染病;01表示季节性常见病等,其它元素均可以通过相同的方式实现数字化。
[0080] 医疗向量是通过诊断获取的,即每个医疗向量对应了一个诊断的医生和一个被诊断的患者组成的二元组。一个医生每诊断一个病人就会有一个医疗向量,同样的一个患者每看一次病也会有一个医疗向量,一个医生可以有多个医疗向量,一个患者也可以有多个医疗向量。
[0081] 通过对每个第一类别中所有医疗向量进行因子分析,获取对应医生的独立因子。
[0082] 通过因子分析对第一类别中所有医疗向量进行分析,可以得到这些医疗向量的公共因子和独立因子,其中,公共因子和独立因子均为向量,公共因子是所有医疗向量对应的共性数据,所有医疗向量只有一个公共因子,独立因子是每个医疗向量的特性,每个医疗向量对应一个独立因子。独立因子的存在可能是由于医生的看病习惯不同,例如,医生A和医生B的用药习惯不同,医生A习惯用中药,医生B习惯用西药;也可能是异常行为导致的。
[0083] 本发明是为了识别异常行为,所以只关注医生的独立因子,不关注医生的公共因子。
[0084] 需要说明的是,因子分析为现有技术,本发明实施例中不再赘述具体过程。
[0085] 同类别的医生擅长治疗的病症相似,同时治疗过的患者的病症相近,因此同类别中的医生如果不存在异常行为,相对来说,不存在异常行为的医生的独立因子也相近,而当医生存在医患欺诈时,导致医生在接诊治疗时不再以治病为目的,此时医生与同类别其他医生之间必定存在某种不同的特征,独立因子有较大差异。
[0086] 计算每个独立因子与同类别其他每个独立因子之间的余弦相似度,所有余弦相似度的和为该独立因子在相应类别中的归属度,由预设值减去每个医生对应的最小归属度得到对应医生的第二异常概率。
[0087] 由于每个医生对应了不止一个医疗向量,相应的,每个医生对应了多个归属度,归属度越小,越有可能异常,因此预设值减去最小的归属度得到最大的可能异常的概率作为第二异常概率。
[0088] 3、获取每个医生的异常概率。
[0089] 以第一异常概率和第二异常概率的乘积作为对应医生的异常概率。异常概率越大,该医生的行为越有可能异常,即越有可能存在骗保行为。
[0090] 步骤S004,根据第二医患图中的边值和医疗向量获取每个患者的异常概率;当异常概率大于预设阈值时,对应的医生或者患者存在异常;当存在异常的医生和患者同时存在边值,判定存在联合骗保行为。
[0091] 具体的步骤包括:
[0092] 1、根据第二医患图中的边值和医疗向量获取每个患者的异常概率。
[0093] 获取第二医患图中每个患者的边值序列,基于边值序列的归属度获取第三异常概率;获取每个患者对应的医疗向量,通过对每个第二类别中所有医疗向量进行因子分析,获取对应患者的独立因子,基于独立因子的归属度获取第四异常概率;以第三异常概率和第四异常概率的乘积作为对应患者的异常概率。
[0094] 按照计算第一异常概率同样的方法获取第二医患图中每个患者的第三异常概率,按照计算第二异常概率同样的方法获取第二医患图中每个患者的第四异常概率,以第三异常概率和第四异常概率的乘积作为对应患者的异常概率。
[0095] 2、异常评估。
[0096] 当异常概率大于预设阈值时,对应的医生或者患者存在异常,当存在异常的医生和患者同时存在边值,判定存在联合骗保行为。
[0097] 作为一个示例,本发明实施例中的预设阈值为0.8,当异常概率大于预设阈值0.8时,对应的医生或者患者存在异常,当存在异常的医生和患者同时存在边值,说明异常的医生和患者存在医患关系,两者存在联合骗保行为。
[0098] 综上所述,本发明实施例获取医院中每个医生的过往诊断经历,用数字表示疾病类型,得到每个医生的诊断集合,基于所有医生的诊断集合将所有医生分为不同的第一类别;获取在该医院就诊过的每个患者的病史,得到患病集合,基于所有患者的患病集合将所有患者分为不同的第二类别;当第一类别和第二类别存在医患关系时,基于医生和患者之间的就诊频率获取医生和患者之间的边值,进而构建对应的医患二分权图,将医生视角的医患二分权图记为第一医患图,将患者视角的医患二分权图记为第二医患图;获取第一医患图中每个医生的边值序列,基于边值序列的归属度获取第一异常概率;将存在边值的医生和患者组成一个二元组,根据医生对患者的诊断结果获取二元组的医疗向量,通过对每个第一类别中所有医疗向量进行因子分析,获取对应医生的独立因子,基于独立因子的归属度获取第二异常概率;以第一异常概率和第二异常概率的乘积作为对应医生的异常概率;根据第二医患图中的边值和医疗向量获取每个患者的异常概率;当异常概率大于预设阈值时,对应的医生或者患者存在异常;当存在异常的医生和患者同时存在边值,判定存在联合骗保行为。将医生患者之间的接触频率同时作为医生和患者异常判断的根据,能够对联合骗保行为进行有效识别,避免医保基金的损失。
[0099] 本发明实施例还提出了基于机器学习的医保反欺诈系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的步骤。由于基于机器学习的医保反欺诈方法在上述给出了详细描述,不再赘述。
[0100] 需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0101] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
[0102] 以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。