异常医保数据排查方法、装置、计算机设备和存储介质转让专利

申请号 : CN202010037451.8

文献号 : CN111274231B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张旭

申请人 : 平安医疗健康管理股份有限公司

摘要 :

本申请涉及大数据领域,具体涉及一种异常医保数据排查方法、装置、计算机设备和存储介质。所述方法包括:接收数据库发送的预设周期内的医保结算数据,所述医保结算数据携带有用户标识;对所述医保结算数据进行数据清洗;通过清洗后的所述医保结算数据计算所述用户标识之间的相关度;根据所述相关度从所述用户标识中提取符合要求的用户标识,并得到违规集合,所述违规集合中的所述用户标识的相关度大于预设阈值,所述预设阀值是用于表征与所述用户标识对应的医保结算数据的相关度的参数;删除所述医保结算数据中与所述违规集合对应的违规数据,并将删除后的所述医保结算数据发送给终端。采用本方法能够能够对违规医保数据进行清洗。

权利要求 :

1.一种异常医保数据排查方法,所述方法包括:

接收数据库发送的预设周期内的医保结算数据,所述医保结算数据携带有用户标识;

对所述医保结算数据进行数据清洗;

通过清洗后的所述医保结算数据计算所述用户标识之间的相关度;

根据所述相关度从所述用户标识中提取符合要求的用户标识,并得到违规集合,所述违规集合中的所述用户标识的相关度大于预设阈值,所述预设阀值是用于表征与所述用户标识对应的医保结算数据的相关度的参数;

获取所述违规集合中疑似违规参保人的结算时间;

根据所述结算时间建立所述疑似违规参保人的结算时间轴;

获取预设结算时间差和预设频次;

将同一所述违规集合的各疑似违规参保人的结算时间轴进行比对,得到各所述疑似违规参保人之间的结算时间差值;

统计各所述疑似违规参保人的结算时间差值小于预设结算时间差的相交频次;

将所述相交频次大于预设频次的疑似违规参保人判定为违规参保人,并根据所述相交频次获取对应的违规时间;

从所述医保结算数据中删除与所述用户标识和所述违规时间对应的违规数据,并将删除后的所述医保结算数据发送给终端。

2.根据权利要求1所述的方法,其特征在于,所述对所述医保结算数据进行数据清洗,包括:对所述医保结算数据进行解析抽取,得到结算明细表;

确定所述结算明细表中的异常值,并对应删除所述结算明细表中的异常值;

确定所述结算明细表中与缺失值所在变量最相似的医保结算数据参数,并将所述医保结算数据参数代入缺失值所在变量,得到清洗后的医保结算数据。

3.根据权利要求1所述的方法,其特征在于,所述通过清洗后的所述医保结算数据计算所述用户标识之间的相关度,包括:从清洗后的所述医保结算数据中获取与所述用户标识对应的结算时间和结算地址;

根据所述用户标识、所述结算时间和所述结算地址确定矩阵布局,并根据所述矩阵布局和所述用户标识的出现次数得到相关矩阵;

根据所述相关矩阵计算所述用户标识之间的相关度。

4.一种异常医保数据排查装置,其特征在于,所述装置包括:数据接收模块,用于接收数据库发送的预设周期内的医保结算数据,所述医保结算数据携带有用户标识;

数据清洗模块,用于对所述医保结算数据进行数据清洗;

相关度计算模块,用于通过清洗后的所述医保结算数据计算所述用户标识之间的相关度;

违规选取模块,用于根据所述相关度从所述用户标识中提取符合要求的用户标识,并得到违规集合,所述违规集合中的所述用户标识的相关度大于预设阈值,所述预设阀值是用于表征与所述用户标识对应的医保结算数据的相关度的参数;

数据删除处理模块,用于获取所述违规集合中疑似违规参保人的结算时间;根据所述结算时间建立所述疑似违规参保人的结算时间轴;获取预设结算时间差和预设频次;将同一所述违规集合的各疑似违规参保人的结算时间轴进行比对,得到各所述疑似违规参保人之间的结算时间差值;统计各所述疑似违规参保人的结算时间差值小于预设结算时间差的相交频次;将所述相交频次大于预设频次的疑似违规参保人判定为违规参保人,并根据所述相交频次获取对应的违规时间;从所述医保结算数据中删除与所述用户标识和所述违规时间对应的违规数据,并将删除后的所述医保结算数据发送给终端。

5.根据权利要求4所述的装置,其特征在于,所述数据清洗模块,包括:数据抽取单元,用于对所述医保结算数据进行解析抽取,得到结算明细表;

异常排查单元,用于确定所述结算明细表中的异常值,并对应删除所述结算明细表中的异常值;

缺失补充单元,用于确定所述结算明细表中与缺失值所在变量最相似的医保结算数据参数,并将所述医保结算数据参数代入缺失值所在变量,得到清洗后的医保结算数据。

6.根据权利要求5所述的装置,其特征在于,所述相关度计算模块,包括:结算数据获取单元,用于从清洗后的所述医保结算数据中获取与所述用户标识对应的结算时间和结算地址;

相关矩阵建立单元,用于根据所述用户标识、所述结算时间和所述结算地址确定矩阵布局,并根据所述矩阵布局和所述用户标识的出现次数得到相关矩阵;

相关度计算单元,用于根据所述相关矩阵计算所述用户标识之间的相关度。

7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。

说明书 :

异常医保数据排查方法、装置、计算机设备和存储介质

技术领域

[0001] 本申请涉及数据清洗技术领域,特别是涉及一种异常医保数据排查方法、装置、计算机设备和存储介质。

背景技术

[0002] 在获取到参保人员的医保结算数据后,服务器需要对医保结算数据进行内容提取并进行数据审核。在对结算数据进行提取和审核之前,计算机需要将医保结算数据中的异常结算数据进行标识,计算机再将被标识的异常数据从大量的结算数据中排除。可是,当医药贩子提前收集一批参保人的医保卡,利用医保卡批次低价购药时,计算机无法排查出此类异常数据,因而无法顺利实现医保结算数据的正常审核,而且计算机需要耗费大量的运算内存对异常数据进行处理,降低了系统资源的有效利用率。

发明内容

[0003] 基于此,有必要针对上述技术问题,提供一种能够对违规异常医保数据进行清洗的异常医保数据排查方法、装置、计算机设备和存储介质。
[0004] 一种异常医保数据排查方法,所述方法包括:
[0005] 接收数据库发送的预设周期内的医保结算数据,所述医保结算数据携带有用户标识;
[0006] 对所述医保结算数据进行数据清洗;
[0007] 通过清洗后的所述医保结算数据计算所述用户标识之间的相关度;
[0008] 根据所述相关度从所述用户标识中提取符合要求的用户标识,并得到违规集合,所述违规集合中的所述用户标识的相关度大于预设阈值,所述预设阀值是用于表征与所述用户标识对应的医保结算数据的相关度的参数;
[0009] 删除所述医保结算数据中与所述违规集合对应的违规数据,并将删除后的所述医保结算数据发送给终端。
[0010] 在其中一个实施例中,所述对所述医保结算数据进行数据清洗,包括:
[0011] 对所述医保结算数据进行解析抽取,得到结算明细表;
[0012] 确定所述结算明细表中的异常值,并对应删除所述结算明细表中的异常值;
[0013] 确定所述结算明细表中与缺失值所在变量最相似的医保结算数据参数,并将所述医保结算数据参数代入缺失值所在变量,得到清洗后的医保结算数据。
[0014] 在其中一个实施例中,所述通过清洗后的所述医保结算数据计算所述用户标识之间的相关度,包括:
[0015] 从清洗后的所述医保结算数据中获取与所述用户标识对应的结算时间和结算地址;
[0016] 根据所述用户标识、所述结算时间和所述结算地址确定矩阵布局,并根据所述矩阵布局和所述用户标识的出现次数得到相关矩阵;
[0017] 根据所述相关矩阵计算所述用户标识之间的相关度。
[0018] 在其中一个实施例中,所述删除所述医保结算数据中与所述违规集合对应的违规数据,包括:
[0019] 获取所述违规集合中疑似违规参保人的结算时间;
[0020] 根据所述结算时间建立所述疑似违规参保人的结算时间轴;
[0021] 将所述违规集合的所述疑似违规参保人的结算时间映射到结算时间轴进行比对,得到与所述用户标识对应的违规时间;
[0022] 从所述医保结算数据中删除与所述用户标识和所述违规时间对应的违规数据。
[0023] 在其中一个实施例中,所述将所述违规集合的各疑似违规参保人的结算时间轴进行比对,得到所述用户标识对应的违规时间,包括:
[0024] 获取预设结算时间差和预设频次;
[0025] 将同一所述违规集合的各疑似违规参保人的结算时间轴进行比对,得到各所述疑似违规参保人之间的结算时间差值;
[0026] 统计各所述疑似违规参保人的结算时间差值小于预设结算时间差的相交频次;
[0027] 将所述相交频次大于预设频次的疑似违规参保人判定为违规参保人,并根据所述相交频次获取对应的违规时间。
[0028] 一种异常医保数据排查装置,所述装置包括:
[0029] 数据接收模块,用于接收数据库发送的预设周期内的医保结算数据,所述医保结算数据携带有用户标识;
[0030] 数据清洗模块,用于对所述医保结算数据进行数据清洗;
[0031] 相关度计算模块,用于通过清洗后的所述医保结算数据计算所述用户标识之间的相关度;
[0032] 违规选取模块,用于根据所述相关度从所述用户标识中提取符合要求的用户标识,并得到违规集合,所述违规集合中的所述用户标识的相关度大于预设阈值,所述预设阀值是用于表征与所述用户标识对应的医保结算数据的相关度的参数;
[0033] 数据删除处理模块,用于删除所述医保结算数据中与所述违规集合对应的违规数据,并将删除后的所述医保结算数据发送给终端。
[0034] 在其中一个实施例中,所述数据清洗模块,包括:
[0035] 数据抽取单元,用于对所述医保结算数据进行解析抽取,得到结算明细表;
[0036] 异常排查单元,用于确定所述结算明细表中的异常值,并对应删除所述结算明细表中的异常值;
[0037] 缺失补充单元,用于确定所述结算明细表中与缺失值所在变量最相似的医保结算数据参数,并将所述医保结算数据参数代入缺失值所在变量,得到清洗后的医保结算数据。
[0038] 在其中一个实施例中,所述相关度计算模块,包括:
[0039] 结算数据获取单元,用于从清洗后的所述医保结算数据中获取与所述用户标识对应的结算时间和结算地址;
[0040] 相关矩阵建立单元,用于根据所述用户标识、所述结算时间和所述结算地址确定矩阵布局,并根据所述矩阵布局和所述用户标识的出现次数得到相关矩阵;
[0041] 相关度计算单元,用于根据所述相关矩阵计算所述用户标识之间的相关度。
[0042] 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0043] 一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0044] 上述异常医保数据排查方法、装置、计算机设备和存储介质,通过医保结算数据计算用户标识之间的相关度,根据相关度选取与多个用户标识对应的违规集合,删除医保结算数据中与违规集合对应的违规数据,从而在无法识别违规数据的情况下,通过对相关度进行分析,建立违规数据的筛选标准,顺利实现了医保结算数据的排查和删除,保证了医保结算数据的正常审核。

附图说明

[0045] 图1为一个实施例中异常医保数据排查方法的应用场景图;
[0046] 图2为一个实施例中异常医保数据排查方法的流程示意图;
[0047] 图3为一个实施例中异常医保数据排查步骤的流程示意图;
[0048] 图4为另一个实施例中异常医保数据排查方法的流程示意图;
[0049] 图5为一个实施例中异常医保数据排查装置的结构框图;
[0050] 图6为一个实施例中计算机设备的内部结构图。

具体实施方式

[0051] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0052] 本申请提供的异常医保数据排查方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104接收数据库发送的预设周期内的医保结算数据,医保结算数据携带有用户标识;服务器104对医保结算数据进行数据清洗;服务器104通过清洗后的医保结算数据计算用户标识之间的相关度;服务器104根据相关度从用户标识中提取符合要求的用户标识,并得到违规集合,违规集合中的用户标识的相关度大于预设阈值,预设阀值是用于表征与用户标识对应的医保结算数据的相关度的参数;服务器104删除医保结算数据中与违规集合对应的违规数据,并将删除后的医保结算数据发送给终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式智能设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0053] 在一个实施例中,如图2所示,提供了一种异常医保数据排查方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
[0054] 步骤202,接收数据库发送的预设周期内的医保结算数据,医保结算数据携带有用户标识。
[0055] 医保结算数据是与用户标识对应的参保人的医保信息,可以包含参保人的用户标识、就诊信息、报销金额等。例如,医保结算数据可以包含个人编号、就诊时间、就诊类别、入院/出院时间、诊断编码、诊断名称、科室名称、医疗总金额、医保报销金额和自负金额等。预设周期是预先设定的验证周期,可以是1个月或1年等。数据库可以存储有与城市参保人相关的所有医保结算数据。服务器接收数据库发送的预设周期内的医保结算数据。
[0056] 步骤204,对医保结算数据进行数据清洗。
[0057] 数据清洗是指对医保结算数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并保证数据的一致性。服务器对医保结算数据进行数据清洗。服务器可以对医保结算数据中的用户敏感信息进行处理;服务器还可以对医保结算数据进行异常值排查,并删除异常值;服务器也可以对缺失值进行补偿,保证数据的一致性;服务器还可以将重复数据进行归纳,减少数据的处理量。
[0058] 步骤206,通过清洗后的医保结算数据计算用户标识之间的相关度。
[0059] 服务器通过清洗后的医保结算数据计算用户标识之间的相关度。服务器可以从医保结算数据中获取与用户标识对应的结算数据。不同参保人医保结算数据之间是不相关的,与用户标识对应的医保结算数据是相互独立的。服务器通过对医保结算数据进行大数据分析,一旦医保结算数据之间存在相关度,就意味着参保人存在异常行为,进而服务器通过计算用户标识之间的相关度确定医保结算数据中的异常数据。服务器根据结算数据生成与用户标识对应的相关矩阵,并根据相关矩阵计算用户标识之间的相关度。
[0060] 步骤208,根据相关度从用户标识中提取符合要求的用户标识,并得到违规集合,违规集合中的用户标识的相关度大于预设阈值,预设阀值是用于表征与用户标识对应的医保结算数据的相关度的参数。
[0061] 预设阀值是用于表征与用户标识对应的医保结算数据的相关度的参数,预设阈值是指为了确保最终筛选的违规参保人准确性而设定的最小阈值,取值范围可以是0.6~0.9。服务器将相关度大于预设阈值的参保人进行归类,得到包含与多个用户标识对应的违规集合,违规集合中的用户标识的相关度大于预设阈值。服务器可以得到多个违规集合,不同的违规集合中的用户标识可以重叠或者无交集。例如,预设阈值为0.6,存在参保标识分别为A、B、C、D的4个人,其中A与B、C、D之间的相关度分别为0.6、0.8、0.1,B与A、C、D之间的相关度分别为0.6、0.7、0.2,C与A、B、D之间的相关度分别为0.8、0.7、0.1,服务器将相关度大于0.6的参保人A、B、C归为一类,得到疑似违规参保人的违规集合。
[0062] 步骤210,删除医保结算数据中与违规集合对应的违规数据,并将删除后的医保结算数据发送给终端。
[0063] 服务器删除医保结算数据中与违规集合对应的违规数据,并将删除后的医保结算数据发送给终端。在不知道医保结算数据中的异常结算数据的时候,服务器通过计算医保结算数据的相关度,实现了对异常结算数据的排查。
[0064] 上述异常医保数据排查方法中,通过医保结算数据计算用户标识之间的相关度,根据相关度选取与多个用户标识对应的违规集合,删除医保结算数据中与违规集合对应的违规数据,从而在无法识别违规数据的情况下,通过对相关度进行分析,建立违规数据的筛选标准,顺利实现了医保结算数据的排查和删除,保证了医保结算数据的正常审核。
[0065] 在一个实施例中,如图3所示,对医保结算数据进行数据清洗,包括以下步骤:
[0066] 步骤302,对医保结算数据进行解析抽取,得到结算明细表。
[0067] 服务器对医保结算数据进行解析抽取,并根据解析后的数据生成结算明细表。服务器可以获取预设的解析词,根据解析词提取对应的解析数据。解析词可以是医保结算数据中的某一变量。例如,解析词可以是用户标识、用户结算日期、用户结算地址、用户结算费用等。服务器根据解析词提取对应的解析数据,并根据用户标识等对应生成结算明细表。结算明细表可以包括参保人进行医保结算的详细数据,包括用户标识和每次就诊记录中的结算内容,例如结算明细表可以包括参保人标识、结算时间、结算地址、结算药品名称、药品数量、药品金额、金额总值等。
[0068] 步骤304,确定结算明细表中的异常值,并对应删除结算明细表中的异常值。
[0069] 服务器排查结算明细表中的异常值,并对应删除结算明细表中的异常值。当解析词对应的数据为数值时,服务器可以根据标准差的3σ原则排查结算明细表中的异常值。例如,当解析词是用户结算费用时,服务器可以计算结算费用的均值μ和标准差σ,而后判定数值分布在(μ‑σ,μ+σ)中的结算费用为正常值,判定数值未分布在(μ‑σ,μ+σ)中的结算费用为异常值。服务器也可以判定数值分布在(μ‑2σ,μ+2σ)中的结算费用为正常值,判定数值未分布在(μ‑2σ,μ+2σ)中的结算费用为异常值。当解析词对应的数据为汉字或字符时,服务器可以对数据进行分类得到不同分组,并计算各分组在数据中的含量,将含量小于预设含量的分组设定为异常值。
[0070] 步骤306,确定结算明细表中与缺失值所在变量最相似的医保结算数据参数,并将医保结算数据参数代入缺失值所在变量,得到清洗后的医保结算数据。
[0071] 缺失值是医保结算数据中缺少的医保结算数据参数,例如,医保结算数据中存在医保变量“科室”,当与A用户标识对应的医保结算数据中不存在与之对应的医保结算数据参数时,A用户标识对应的医保结算数据中存在“科室”的缺失值。服务器确定结算明细表中与缺失值所在变量最相似的医保结算数据参数,并将医保结算数据参数代入缺失值所在变量,得到清洗后的医保结算数据。例如,缺失值所在变量为结算费用时,服务器可以先确定与缺失值对应的用户标识最相似的其他变量,然后根据其他变量的医保结算数据参数代入缺失值所在变量,得到清洗后的医保结算数据。服务器可以用相关系数矩阵来确定哪个变量(如变量Y)与缺失值所在变量(如变量X)最相似,然后把所有变量按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值前的那个用户标识的参数来代替了。服务器也可以采用最近距离决定填补法、回归填补法、多重填补方法、K‑最近邻法、有序最近邻法、基于贝叶斯的方法等对缺失值进行补充。
[0072] 在上述异常医保数据排查方法中,通过对医保结算数据进行清洗,删除了医保结算数据中的异常值、并对缺失值进行补充,保证了数据的一致性。
[0073] 在另一个实施例中,通过清洗后的医保结算数据计算用户标识之间的相关度,包括以下步骤:从清洗后的医保结算数据中获取与用户标识对应的结算时间和结算地址;根据用户标识、结算时间和结算地址确定矩阵布局,并根据矩阵布局和用户标识的出现次数得到相关矩阵;根据相关矩阵计算用户标识之间的相关度。
[0074] 服务器从清洗后的医保结算数据中获取与用户标识对应的结算时间和结算地址。服务器根据用户标识、结算时间和结算地址确定矩阵布局,例如,竖行可以是用户标识,横行可以是与用户标识对应的结算时间和结算地址。服务器在矩阵布局内对应位置处输入用户标识的出现次数得到相关矩阵。服务器根据相关矩阵计算用户标识之间的相关度。服务器可以从相关矩阵中提取与用户标识对应的行矩阵,通过计算行矩阵的相似度得到用户标识之间的相似度。
[0075] 在上述异常医保数据排查方法中,服务器通过构建的相关矩阵可以迅速且准确地确定两个用户标识同时出现的相关度,进而确定不同用户标识对应的参保人同时出现的相关度。
[0076] 在一个实施例中,如图4所示,删除医保结算数据中与违规集合对应的违规数据,包括以下步骤:
[0077] 步骤402,获取违规集合中疑似违规参保人的结算时间。
[0078] 服务器根据违规集合中用户标识获取疑似违规参保人的结算时间。
[0079] 步骤404,根据结算时间建立疑似违规参保人的结算时间轴。
[0080] 服务器根据结算时间建立疑似违规参保人的结算时间轴,结算时间轴可以是以结算时间为横轴的坐标轴。
[0081] 步骤406,将违规集合的疑似违规参保人的结算时间映射到结算时间轴进行比对,得到与用户标识对应的违规时间。
[0082] 服务器将违规集合的多个疑似违规参保人的结算时间映射到结算时间轴。服务器通过对结算时间轴上的结算时间进行比对,得到与用户标识对应的违规时间。服务器可以从结算时间轴中提取出与不同用户标识重叠对应的结算时间作为违规时间;服务器也可以计算出不同违规参保人之间的结算时间差值,根据比对结果和结算时间差值判定违规参保人的违规行为,并获取与违规行为对应的违规时间。
[0083] 步骤408,从医保结算数据中删除与用户标识和违规时间对应的违规数据。
[0084] 服务器从医保结算数据中删除与用户标识和违规时间对应的违规数据。
[0085] 在上述异常医保数据排查方法中,服务器通过对与用户标识对应的结算时间确定疑似违规参保人的违规数据,不仅将医保结算数据中的违规数据删除,也避免了用户标识的正常数据的误删除,进一步提高了数据处理的准确率。
[0086] 在一个实施例中,将违规集合的各疑似违规参保人的结算时间轴进行比对,得到用户标识对应的违规时间,包括以下步骤:获取预设结算时间差和预设频次;将同一违规集合的各疑似违规参保人的结算时间轴进行比对,得到各疑似违规参保人之间的结算时间差值;统计各疑似违规参保人的结算时间差值小于预设结算时间差的相交频次;将相交频次大于预设频次的疑似违规参保人判定为违规参保人,并根据相交频次获取对应的违规时间。
[0087] 相交频次是指不同参保人根据结算时间轴在同一时间范围内同时出现并相遇的次数。服务器获取预设结算时间差和预设频率。服务器将同一违规集合的各用户标识的结算时间轴进行比对,得到各疑似违规参保人之间的结算时间差值。服务器可以将在同一时间轴对违规集合内的结算时间进行展示,也可以在不同时间轴上对违规集合内的结算时间进行展示。服务器获取与用户标识对应的结算时间。服务器统计两个用户标识的每个结算时间之间的结算时间差值。服务器统计结算时间差值小于预设结算时间差的相遇次数。例如,病人A的结算时间为7点、9点、10点,病人B的结算时间为8点、9点,预设结算时间差为2小时。服务器计算两个用户标识的每个结算时间之间的结算时间差值。其中,病人A的结算时间7点、9点与病人B的结算时间8点、9点的结算时间差值均小于预设结算时间差,服务器统计在结算时间为7点~9点范围内,病人A和病人B相遇次数为2次。服务器判断相交频次是否大于预设频次。当参保人之间的相交频次大于预设频次,服务器将相交频次大于预设频次的疑似违规参保人判定为违规参保人,并根据相交频次获取对应的违规时间。
[0088] 在上述异常医保数据排查方法中,服务器通过对时间轴对疑似违规参保人进行判断,精确计算了不同用户标识之间的结算时间差,精准地筛选出违规参保人,减少了系统误判的概率。
[0089] 应该理解的是,虽然图2‑4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2‑4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0090] 在一个实施例中,如图5所示,提供了一种异常医保数据排查装置,包括:数据接收模块502、数据清洗模块504、相关度计算模块506、违规选取模块508和数据删除处理模块510,其中:
[0091] 数据接收模块502,用于接收数据库发送的预设周期内的医保结算数据,医保结算数据携带有用户标识。
[0092] 数据清洗模块504,用于对医保结算数据进行数据清洗。
[0093] 相关度计算模块506,用于通过清洗后的医保结算数据计算用户标识之间的相关度。
[0094] 违规选取模块508,用于根据相关度从用户标识中提取符合要求的用户标识,并得到违规集合,违规集合中的用户标识的相关度大于预设阈值,预设阀值是用于表征与用户标识对应的医保结算数据的相关度的参数。
[0095] 数据删除处理模块510,用于删除医保结算数据中与违规集合对应的违规数据,并将删除后的医保结算数据发送给终端。
[0096] 在一个实施例中,数据清洗模块包括数据抽取单元、异常排查单元和缺失补充单元,其中:
[0097] 数据抽取单元,用于对医保结算数据进行解析抽取,得到结算明细表。
[0098] 异常排查单元,用于确定结算明细表中的异常值,并对应删除结算明细表中的异常值。
[0099] 缺失补充单元,用于确定结算明细表中与缺失值所在变量最相似的医保结算数据参数,并将医保结算数据参数代入缺失值所在变量,得到清洗后的医保结算数据。
[0100] 在另一个实施例中,相关度计算模块包括结算数据获取单元、相关矩阵建立单元和相关度计算单元,其中:
[0101] 结算数据获取单元,用于从清洗后的医保结算数据中获取与用户标识对应的结算时间和结算地址。
[0102] 相关矩阵建立单元,用于根据用户标识、结算时间和结算地址确定矩阵布局,并根据矩阵布局和用户标识的出现次数得到相关矩阵。
[0103] 相关度计算单元,用于根据相关矩阵计算用户标识之间的相关度。
[0104] 在一个实施例中,数据删除处理模块包括结算时间获取单元、时间轴建立单元、比对单元和删除单元,其中:
[0105] 结算时间获取单元,用于获取违规集合中疑似违规参保人的结算时间。
[0106] 时间轴建立单元,用于根据结算时间建立疑似违规参保人的结算时间轴。
[0107] 比对单元,用于将违规集合的疑似违规参保人的结算时间轴进行比对,得到与用户标识对应的违规时间。
[0108] 删除单元,用于从医保结算数据中删除与用户标识和违规时间对应的违规数据。
[0109] 在另一个实施例中,数据删除处理模块包括预设阈值获取单元、时间差值比对单元、频次统计单元和判定单元,其中:
[0110] 预设阈值获取单元,用于获取预设结算时间差和预设频次。
[0111] 时间差值比对单元,用于将同一违规集合的各疑似违规参保人的结算时间轴进行比对,得到各疑似违规参保人之间的结算时间差值。
[0112] 频次统计单元,用于统计各疑似违规参保人的结算时间差值小于预设结算时间差的相交频次。
[0113] 判定单元,用于将相交频次大于预设频次的疑似违规参保人判定为违规参保人,并根据相交频次获取对应的违规时间。
[0114] 关于异常医保数据排查装置的具体限定可以参见上文中对于异常医保数据排查方法的限定,在此不再赘述。上述异常医保数据排查装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0115] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储异常医保数据排查数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种异常医保数据排查方法。
[0116] 本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0117] 在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:接收数据库发送的预设周期内的医保结算数据,医保结算数据携带有用户标识;对医保结算数据进行数据清洗;通过清洗后的医保结算数据计算用户标识之间的相关度;根据相关度从用户标识中提取符合要求的用户标识,并得到违规集合,违规集合中的用户标识的相关度大于预设阈值,预设阀值是用于表征与用户标识对应的医保结算数据的相关度的参数;删除医保结算数据中与违规集合对应的违规数据,并将删除后的医保结算数据发送给终端。
[0118] 在一个实施例中,处理器执行计算机程序时实现的对医保结算数据进行数据清洗,包括:对医保结算数据进行解析抽取,得到结算明细表;排查结算明细表中的异常值,并对应删除结算明细表中的异常值;确定结算明细表中与缺失值所在变量最相似的医保结算数据参数,并将医保结算数据参数代入缺失值所在变量,得到清洗后的医保结算数据。
[0119] 在一个实施例中,处理器执行计算机程序时实现的通过清洗后的医保结算数据计算用户标识之间的相关度,包括:从清洗后的医保结算数据中获取与用户标识对应的结算时间和结算地址;根据用户标识、结算时间和结算地址确定矩阵布局,并根据矩阵布局和用户标识的出现次数得到相关矩阵;根据相关矩阵计算用户标识之间的相关度。
[0120] 在一个实施例中,处理器执行计算机程序时实现的删除医保结算数据中与违规集合对应的违规数据,包括:获取违规集合中疑似违规参保人的结算时间;根据结算时间建立疑似违规参保人的结算时间轴;将违规集合的疑似违规参保人的结算时间轴进行比对,得到与用户标识对应的违规时间;从医保结算数据中删除与用户标识和违规时间对应的违规数据。
[0121] 在一个实施例中,处理器执行计算机程序时实现的将违规集合的各疑似违规参保人的结算时间轴进行比对,得到用户标识对应的违规时间,包括:获取预设结算时间差和预设频次;将同一违规集合的各疑似违规参保人的结算时间轴进行比对,得到各疑似违规参保人之间的结算时间差值;统计各疑似违规参保人的结算时间差值小于预设结算时间差的相交频次;将相交频次大于预设频次的疑似违规参保人判定为违规参保人,并根据相交频次获取对应的违规时间。
[0122] 在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收数据库发送的预设周期内的医保结算数据,医保结算数据携带有用户标识;对医保结算数据进行数据清洗;通过清洗后的医保结算数据计算用户标识之间的相关度;根据相关度从用户标识中提取符合要求的用户标识,并得到违规集合,违规集合中的用户标识的相关度大于预设阈值,预设阀值是用于表征与用户标识对应的医保结算数据的相关度的参数;删除医保结算数据中与违规集合对应的违规数据,并将删除后的医保结算数据发送给终端。
[0123] 在一个实施例中,计算机程序被处理器执行时实现的对医保结算数据进行数据清洗,包括:对医保结算数据进行解析抽取,得到结算明细表;排查结算明细表中的异常值,并对应删除结算明细表中的异常值;确定结算明细表中与缺失值所在变量最相似的医保结算数据参数,并将医保结算数据参数代入缺失值所在变量,得到清洗后的医保结算数据。
[0124] 在一个实施例中,计算机程序被处理器执行时实现的通过清洗后的医保结算数据计算用户标识之间的相关度,包括:从清洗后的医保结算数据中获取与用户标识对应的结算时间和结算地址;根据用户标识、结算时间和结算地址确定矩阵布局,并根据矩阵布局和用户标识的出现次数得到相关矩阵;根据相关矩阵计算用户标识之间的相关度。
[0125] 在一个实施例中,计算机程序被处理器执行时实现的删除医保结算数据中与违规集合对应的违规数据,包括:获取违规集合中疑似违规参保人的结算时间;根据结算时间建立疑似违规参保人的结算时间轴;将违规集合的疑似违规参保人的结算时间轴进行比对,得到与用户标识对应的违规时间;从医保结算数据中删除与用户标识和违规时间对应的违规数据。
[0126] 在一个实施例中,计算机程序被处理器执行时实现的将违规集合的各疑似违规参保人的结算时间轴进行比对,得到用户标识对应的违规时间,包括:获取预设结算时间差和预设频次;将同一违规集合的各疑似违规参保人的结算时间轴进行比对,得到各疑似违规参保人之间的结算时间差值;统计各疑似违规参保人的结算时间差值小于预设结算时间差的相交频次;将相交频次大于预设频次的疑似违规参保人判定为违规参保人,并根据相交频次获取对应的违规时间。
[0127] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0128] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0129] 以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。