药品信息对码方法及系统转让专利

申请号 : CN202011013702.5

文献号 : CN111932284B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张志浩胡茂华

申请人 : 耀方信息技术(上海)有限公司

摘要 :

本申请涉及互联网技术领域,公开了一种药品信息对码方法及系统,该方法包含:获取待对码的药品信息;通过将待对码的药品信息与预先设置的药品主数据库中的每个药品的药品信息,分别进行基于药品信息规则的规则对码、基于用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得相应的规则对码分值、行为对码分值和模型对码分值;通过规则对码分值、行为对码分值和模型对码分值进行集成处理,获得集成对码分值;将药品主数据库中与待对码的药品信息的集成对码分值最高的药品,作为待对码的药品信息的对码结果,输出给用户。本申请有效提高了药品对码的效率和准确率,提升药品流通过程中的效率。

权利要求 :

1.一种药品信息对码方法,其特征在于,包含:

获取待对码的药品信息;

通过将所述待对码的药品信息与预先设置的药品主数据库中的每个药品的药品信息,分别进行基于药品信息规则的规则对码、基于用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值、行为对码分值和模型对码分值;

通过对所述待对码的药品信息与所述药品主数据库中的每个药品的规则对码分值、行为对码分值和模型对码分值进行集成处理,获得集成对码分值;

将所述药品主数据库中与所述待对码的药品信息的集成对码分值最高的药品,作为所述待对码的药品信息的对码结果,输出给所述用户。

2.如权利要求1所述的药品信息对码方法,其特征在于,所述通过将所述待对码的药品信息与预先设置的药品主数据库中的每个药品的药品信息,分别进行基于药品信息规则的规则对码、基于所述用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值、行为对码分值和模型对码分值,包含:利用预先建立的药品信息规则引擎,将所述待对码的药品信息与所述药品主数据库中的每个药品的药品信息进行药品信息规则对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品的药品信息基于所述药品信息规则的规则对码分值。

3.如权利要求2所述的药品信息对码方法,其特征在于,所述利用预先建立的药品信息规则引擎,将所述待对码的药品信息与所述药品主数据库中的每个药品的药品信息进行药品信息规则对码,包含:预先建立药品主数据库,所述药品主数据库中包含一个或多个药品属性信息的字段;分别对所述药品主数据库中的药品信息和所述待对码的药品信息中的药品属性信息的字段进行分词,获得所述药品主数据库和所述待对码的药品信息相应的药品专有术语和常规文本分词词条;对所述待对码的药品信息中的药品规格的数量词进行规整化;利用预先建立的药品信息规则引擎,将经分词和数词量词规整化的待对码的药品信息与所述药品主数据库中的药品进行药品信息规则对码,并赋予所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值。

4.如权利要求3所述的药品信息对码方法,其特征在于,所述药品主数据库中的药品属性信息的字段包含以下之一或其任意组合:国药准字、药品通用名、药品规格、药品商品名、生产企业、条形码。

5.如权利要求1所述的药品信息对码方法,其特征在于,所述通过将所述待对码的药品信息与预先设置的药品主数据库中的每个药品的药品信息,分别进行基于药品信息规则的规则对码、基于所述用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值、行为对码分值和模型对码分值,包含:利用所述用户已有的购药历史行为记录,对所述待对码的药品信息进行行为对码,获得所述待对码的药品信息与所述药品主数据库中的药品基于所述用户已有的购药历史行为的行为对码分值。

6.如权利要求5所述的药品信息对码方法,其特征在于,所述用户已有的购药历史行为记录包含以下之一或其任意组合:用户浏览的次数、浏览的时间、购买药品的次数、购买药品的时间。

7.如权利要求1所述的药品信息对码方法,其特征在于,所述通过将所述待对码的药品信息与预先设置的药品主数据库中的每个药品的药品信息,分别进行基于药品信息规则的规则对码、基于所述用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值、行为对码分值和模型对码分值,包含:预先根据已有的待对码的药品信息中已完成对码的药品信息的对码结果,对药品信息对码模型进行训练;在需要对码时,利用经训练的药品信息对码模型,根据所述待对码的药品信息,获得所述待对码的药品信息与所述药品主数据库中的每个药品的模型对码分值。

8.如权利要求7所述的药品信息对码方法,其特征在于,所述根据已有的待对码的药品信息中已完成对码的药品信息的对码结果,对药品信息对码模型进行训练,包含:先根据已有的待对码的药品信息中已完成对码的药品信息,生成包含所述待对码的药品信息和相应的对码结果的药品信息对码序列组,再利用所述药品信息对码序列组,对药品信息对码模型进行训练,其中,药品信息对码序列组包含:所述待对码的药品信息中的药品属性信息、所述药品主数据库中药品的药品属性信息,和所述待对码的药品信息与所述药品主数据库中药品的药品属性信息的对码结果分值。

9.如权利要求1所述的药品信息对码方法,其特征在于,所述通过对所述待对码的药品信息与所述药品主数据库中的每个药品的规则对码分值、行为对码分值和模型对码分值进行集成处理,获得集成对码分值的步骤中,通过以下集成处理获得所述集成对码分值:W= F*Wi+H*Wj+I*Wk

其中,W是所述集成对码分值,F是所述规则对码分值,H是所述模型对码分值,I是所述行为对码分值,Wi是规则对码分值权重,Wj是模型对码分值权重,Wk是行为对码分值权重。

10.如权利要求9所述的药品信息对码方法,其特征在于,所述规则对码分值权重>所述模型对码分值权重>所述行为对码分值权重。

11.一种药品信息对码系统,其特征在于,包含:

药品信息获取模块,用于获取待对码的药品信息;

药品信息对码模块,用于通过将所述待对码的药品信息与预先设置的药品主数据库中的每个药品的药品信息,分别进行基于药品信息规则的规则对码、基于用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值、行为对码分值和模型对码分值;

药品信息对码分值集成模块,用于通过对所述待对码的药品信息与所述药品主数据库中的每个药品的规则对码分值、行为对码分值和模型对码分值进行集成处理,获得集成对码分值;

药品信息对码结果输出模块,用于将所述药品主数据库中与所述待对码的药品信息的集成对码分值最高的药品,作为所述待对码的药品信息的对码结果,输出给所述用户。

12.一种药品信息对码系统,其特征在于,包括:

存储器,用于存储计算机可执行指令;以及,

处理器,用于在执行所述计算机可执行指令时实现如权利要求1至10中任意一项所述的方法中的步骤。

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至10中任意一项所述的方法中的步骤。

说明书 :

药品信息对码方法及系统

技术领域

[0001] 本申请涉及互联网领域,特别涉及药品信息的对码技术领域。

背景技术

[0002] 目前,药品行业有严格的票货同行和追溯机制,在药品流通过程中需要确保上下游企业在药品信息上的一致性。
[0003] 然而,由于不同企业采用的ERP(Enterprise Resource Planning,企业资源计划)系统不同、不同企业维护药品信息的要求和方法不同,导致药品信息在不同企业之间存在差异。此时,如何确定信息可能存在差异的药品是否同一个药品,就需要用到药品信息的对码技术。
[0004] 简单地说,药品信息的对码就是用输入的一个药品信息与药品主数据库中已有的众多药品信息相匹配,如果主数据库中只有唯一一个药品信息和输入的药品信息相匹配,则对码成功,如果输入的药品信息无法匹配到主数据库中任何药品信息,或者药品主数据库中有多个药品信息与输入的药品信息相似但不相同,则对码失败。所以药品信息的对码技术就是药品信息的匹配技术,或者药品信息的搜索技术。
[0005] 目前的药品信息对码技术主要是对所有的信息进行匹配,如果有任何不一致的就交给人工核对。在这种情况下,如果在交易过程中需要通过人工核对几百、几千、甚至上万个药品信息的一致性,那么不仅效率比较低,也无法避免人为失误。

发明内容

[0006] 本申请的目的在于提供一种药品信息对码方法及系统,能有效提高药品对码的效率和准确率,节省人力,提升药品流通过程中的效率。
[0007] 本申请公开了一种药品信息对码方法,包含:
[0008] 获取待对码的药品信息;
[0009] 通过将所述待对码的药品信息与预先设置的药品主数据库中的每个药品的药品信息,分别进行基于药品信息规则的规则对码、基于用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值、行为对码分值和模型对码分值;
[0010] 通过对所述待对码的药品信息与所述药品主数据库中的每个药品的规则对码分值、行为对码分值和模型对码分值进行集成处理,获得集成对码分值;
[0011] 将所述药品主数据库中与所述待对码的药品信息的集成对码分值最高的药品,作为所述待对码的药品信息的对码结果,输出给所述用户。
[0012] 在一个优选例中,所述通过将所述待对码的药品信息与预先设置的药品主数据库中的每个药品的药品信息,分别进行基于药品信息规则的规则对码、基于所述用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值、行为对码分值和模型对码分值,包含:
[0013] 利用预先建立的药品信息规则引擎,将所述待对码的药品信息与所述药品主数据库中的每个药品的药品信息进行药品信息规则对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品的药品信息基于所述药品信息规则的规则对码分值。
[0014] 在一个优选例中,所述利用预先建立的药品信息规则引擎,将所述待对码的药品信息与所述药品主数据库中的每个药品的药品信息进行药品信息规则对码,包含:预先建立药品主数据库,所述药品主数据库中包含一个或多个药品属性信息的字段;分别对所述药品主数据库中的药品信息和所述待对码的药品信息中的药品属性信息的字段进行分词,获得所述药品主数据库和所述待对码的药品信息相应的药品专有术语和常规文本分词词条;对所述待对码的药品信息中的药品规格的数量词进行规整化;利用预先建立的药品信息规则引擎,将经分词和数词量词规整化的待对码的药品信息与所述药品主数据库中的药品进行药品信息规则对码,并赋予所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值。
[0015] 在一个优选例中,所述药品主数据库中的药品属性信息的字段包含以下之一或其任意组合:国药准字、药品通用名、药品规格、药品商品名、生产企业、条形码。
[0016] 在一个优选例中,所述通过将所述待对码的药品信息与预先设置的药品主数据库中的每个药品的药品信息,分别进行基于药品信息规则的规则对码、基于所述用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值、行为对码分值和模型对码分值,包含:
[0017] 利用所述用户已有的购药历史行为记录,对所述待对码的药品信息进行行为对码,获得所述待对码的药品信息与所述药品主数据库中的药品基于所述用户已有的购药历史行为的行为对码分值。
[0018] 在一个优选例中,所述用户已有的购药历史行为记录包含以下之一或其任意组合:用户浏览的次数、浏览的时间、购买药品的次数、购买药品的时间。
[0019] 在一个优选例中,所述通过将所述待对码的药品信息与预先设置的药品主数据库中的每个药品的药品信息,分别进行基于药品信息规则的规则对码、基于所述用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值、行为对码分值和模型对码分值,包含:
[0020] 预先根据已有的待对码的药品信息中已完成对码的药品信息的对码结果,对药品信息对码模型进行训练;在需要对码时,利用经训练的药品信息对码模型,根据所述待对码的药品信息,获得所述待对码的药品信息与所述药品主数据库中的每个药品的模型对码分值。
[0021] 在一个优选例中,所述根据已有的待对码的药品信息中已完成对码的药品信息的对码结果,对药品信息对码模型进行训练,包含:
[0022] 先根据已有的待对码的药品信息中已完成对码的药品信息,生成包含所述待对码的药品信息和相应的对码结果的药品信息对码序列组,再利用所述药品信息对码序列组,对药品信息对码模型进行训练,其中,药品信息对码序列组包含:所述待对码的药品信息中的药品属性信息、所述药品主数据库中药品的药品属性信息,和所述待对码的药品信息与所述药品主数据库中药品的药品属性信息的对码结果分值。
[0023] 在一个优选例中,所述通过对所述待对码的药品信息与所述药品主数据库中的每个药品的规则对码分值、行为对码分值和模型对码分值进行集成处理,获得集成对码分值的步骤中,通过以下集成处理获得所述集成对码分值:
[0024] W= F*Wi+H*Wj+I*Wk
[0025] 其中,W是所述集成对码分值,F是所述规则对码分值,H是所述模型对码分值,I是所述行为对码分值,Wi是规则对码分值权重,Wj是模型对码分值权重,Wk是行为对码分值权重。
[0026] 在一个优选例中,所述规则对码分值权重>所述模型对码分值权重>所述行为对码分值权重。
[0027] 本申请还公开了一种药品信息对码系统包含:
[0028] 药品信息获取模块,用于获取待对码的药品信息;
[0029] 药品信息对码模块,用于通过将所述待对码的药品信息与预先设置的药品主数据库中的每个药品的药品信息,分别进行基于药品信息规则的规则对码、基于用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值、行为对码分值和模型对码分值;
[0030] 药品信息对码分值集成模块,用于通过对所述待对码的药品信息与所述药品主数据库中的每个药品的规则对码分值、行为对码分值和模型对码分值进行集成处理,获得集成对码分值;
[0031] 药品信息对码结果输出模块,用于将所述药品主数据库中与所述待对码的药品信息的集成对码分值最高的药品,作为所述待对码的药品信息的对码结果,输出给所述用户。
[0032] 本申请还公开了一种药品信息对码系统包括:
[0033] 存储器,用于存储计算机可执行指令;以及,
[0034] 处理器,用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。
[0035] 本申请还公开了一种计算机可读存储介质所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
[0036] 本申请实施方式中,实现了在药品交易流通过程中,能基于药品属性的文本信息,通过规则对码、行为对码和模型对码的集成对码,实现不同药品信息的对码。此方法和系统涉及药品主数据库、待对码的药品信息、已经成功的对码组、分词索引、基于药品信息规则的对码、模型训练、基于模型的对码、基于行为的对码、集成对码和对码输出服务等模块,即综合了强规则的对码、其它用户的对码结果的影响以及历史行为的对码结果,有效提高了药品对码的效率和准确率,节省人力,提升药品流通过程中的效率。
[0037] 本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。

附图说明

[0038] 图1是根据本申请第一实施方式的药品信息对码方法的流程示意图;
[0039] 图2是根据本申请第一实施方式的药品信息对码方法的原理示意图;
[0040] 图3是根据本申请第二实施方式的药品信息对码系统的结构示意图。

具体实施方式

[0041] 在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
[0042] 为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
[0043] 本申请的第一实施方式涉及一种药品信息对码方法,其流程如图1-2所示,该方法包括以下步骤:
[0044] 步骤110:获取待对码的药品信息。
[0045] 具体的,本说明书的实施例中的对码,是指通过对来自不同系统的药品信息的比对,完成虽然具体信息内容不同但实际上表示同一个药品的多个药品信息的匹配。
[0046] 具体的,待对码的药品信息,是指由用户提供的药品信息,优选的,该药品信息可来自ERP系统或者Excel文件,等等。
[0047] 需指出,由于用户的不同,待对码的药品信息可能出信息缺陷,其中,典型的缺陷有:1)药品属性信息的字段不全,例如,缺少以下一个或多个属性字段:国药准字、药品通用名、药品规格、药品商品名、生产企业、条形码,等等。2)药品信息本身不完善,例如,批文号只有后缀、药品规格虽然易读但非规范、生产企业名称只有部分信息,等等。这容易导致药品信息的对码不够高效和准确。
[0048] 步骤120:通过将所述待对码的药品信息分别与预先设置的药品主数据库中的每个药品的药品信息进行基于药品信息规则的规则对码、基于所述用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品的规则对码分值、行为对码分值和模型对码分值。
[0049] 优选的,本步骤可通过以下子步骤具体实现:
[0050] 子步骤1201:利用预先建立的药品信息规则引擎,将所述待对码的药品信息与所述药品主数据库中的每个药品的药品信息进行药品信息规则对码,下文中可简称为规则对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品的药品信息基于所述药品信息规则的规则对码分值。
[0051] 优选的,规则对码可通过以下方式具体实现:
[0052] 子步骤1201a:预先建立药品主数据库,所述药品主数据库中包含一个或多个药品属性信息的字段。
[0053] 具体的,所述药品主数据库可以是为实现药品对码所需要的全量药品主数据库,即药品主数据库中存储了所有可以用于对码的药品的药品信息。
[0054] 优选的,所述药品主数据库中的药品属性信息的字段可包含以下之一或其任意组合:国药准字、药品通用名、药品规格、药品商品名、生产企业、条形码,等等。
[0055] 举例来说,如“润众 恩替卡韦分散片 0.5mg*28片”,在药品主数据库会被存储为“批准文号=国药准字H20100019,商品名=润众, 通用名=恩替卡韦分散片, 药品规格=0.5mg, 包装规格=7片*4板, 生产企业=正大天晴药业集团股份有限公司, 条形码= 
6922096210191”
[0056] 子步骤1201b:通过文本分词创建索引D
[0057] 具体的,分别对所述药品主数据库中的药品信息和所述待对码的药品信息中的药品属性信息的字段进行分词,获得所述药品主数据库和所述待对码的药品信息相应的药品专有术语和常规文本分词词条。
[0058] 举例来说,若药品通用名是“富马酸替诺福韦二吡呋酯片”,则基于上述药品主数据库,在索引中分词会保留“富马酸替诺福韦二吡呋酯片”、“富马酸”、“替诺福韦”、“二吡呋酯”、“片”。分词结果将来会使用在文本相似度的判断中,原则上分词结果匹配多,文本的相似度越高。
[0059] 子步骤1201c:对所述待对码的药品信息中的药品规格的数量词进行规整化。
[0060] 举例来说,对于“甘草酸二铵肠溶胶囊 50mg*12粒*2板”,用户提供的待对码的药品信息中的药品规格信息可能是多样化的,例如:“50mg*24粒”、“50毫克*24s”、“0.05g*24p”,等等。
[0061] 针对这种数词量词的多样化,可通过以下方式进行规整:1)量词规整化,优选的,可通过同义词将mg和毫克都转换成统一的单位,如mg,也可将“粒、s、p”等规整为“粒”,优选的,可基于已有数据的概率分布和药品主数据规范进行规整。2)量词转换,即,将大单位规整到小单位,例如,将0.05g转换成50mg。3)数词乘积,可针对整个药品规格信息,先基于药品主数据排除“药品规格”字段信息,再将剩余的数词和量词进行乘积处理,例如:将“12粒*2板”乘积为“24粒”或“24板”。
[0062] 可以理解,对药品规格的数量词进行规整化的具体方式有很多种,上述说明仅是示例性的,并非限定,在具体情况下,规整方式可以不同,在此不做赘述。
[0063] 子步骤1201d:利用预先建立的药品信息规则引擎,将经分词和数词量词规整化的待对码的药品信息与所述药品主数据库中的药品进行药品信息规则对码,并赋予所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值,即,所述待对码的药品信息与所述药品主数据库中的每个药品基于药品信息规则的规则对码分值。
[0064] 具体的,预先建立药品信息规则引擎,并利用该药品信息规则引擎对经数次量词规整化的待对码的药品信息,进行每个字段的完全匹配的规则对码,并赋予相应的规则对码分值,优选的,如果完全匹配成功,则规则对码分值为1,否则为0。
[0065] 举例来说:
[0066] 待对码的药品信息为:“国药准字J20150045 琥珀酸美托洛尔缓释片 倍他乐克 95mg*7片*4板 阿斯利康制药有限公司”
[0067] 假如药品主数据库中的药品信息有2个,第1个是:“国药准字J20150045 琥珀酸美托洛尔缓释片 倍他乐克  95mg*7片*4板 阿斯利康制药有限公司”,第2个是:“国准J20150045 琥珀酸美托洛尔缓释片 倍他乐克 0.095mg*28片阿斯利康”。可见,待对码药品的每个字段和第1个主数据库的药品信息完全匹配,则规则对码分值为1;待对码药品的每个字段和第2个主数据库的药品信息中的批准文号、规格、生产企业不是完全匹配,则规则对码分值为0。因为规则对码完全匹配时规则对码分值为1,而规则对码的权重最高,所以规则对码完全匹配的药品会最终胜出,成为最终的对码结果,而不受其他两种因素(行为对码分值和模型对码分值)的影响。因为在规则对码非完全匹配时规则对码分值为0,这意味着此时完全不考虑规则对码的影响,所以此时最终的对码结果只取决于行为对码分值和模型对码分值。
[0068] 子步骤1202:利用所述用户已有的购药历史行为记录,对所述待对码的药品信息进行行为对码,获得所述待对码的药品信息与所述药品主数据库中的药品基于所述用户已有的购药历史行为的行为对码分值。
[0069] 其中,所述购药历史行为记录可包含,例如:用户浏览的次数、浏览的时间、购买药品的次数、购买药品的时间,等等。用户浏览的次数越多行为对码分值越高,浏览的时间越长行为对码分值越高,购买药品的次数越多行为对码分值越高,购买药品的时间越近行为对码分值越高,等等。
[0070] 举例来说:
[0071] 待对码的药品信息为:“香砂养胃丸 9g*100粒 雷允上”,这里用户提供的信息即没有批准文号,也没有完整的生产企业信息,而在药品主数据库中有相似的2个药品信息(换句话说,这两个药品的模型对码分值相近且明显高于其他药品):
[0072] 1)香砂养胃丸(86900716000458上海雷允上药业有限公司 国药准字Z31020425);2)香砂养胃丸(86900365001455 广东雷允上药业有限公司 国药准字Z44022082)。可见,仅从文本信息的对码,能匹配到这2个药品。
[0073] 而根据用户的已有的购药历史行为,该用户最近买过的、曾经购买次数最多的、曾在网页上查看点击查看的均是上海雷允上药业有限公司的这个药品,即第1个药品的行为对码分值会明显高于第2个药品。因此综合考虑规则对码分值(所有的药品都是0)、模型对码分值(第1和第2个药品明显高于其他药品)和行为对码分值(第1个药品明显高于第2个药品),则第1个药品会最终胜出,成为最终的对码结果。
[0074] 进一步的,如果用户购既买过上海雷允上药业有限公司的这个药品,也购买过广东雷允上药业有限公司的这个药品,则可以根据RFM(Recency Frequency Monetary,最近一次消费,消费频率,消费金额)模型来计算行为对码分值,也就是最近购买的、经常购买的、购买最多的药品的行为对码分值会更高。
[0075] 子步骤1203:预先根据已有的待对码的药品信息中已完成对码的药品信息的对码结果,对药品信息对码模型(例如深度神经网络模型)进行训练;在需要对码时,利用经训练的药品信息对码模型,根据所述待对码的药品信息,获得所述待对码的药品信息与所述药品主数据库中的每个药品的模型对码分值,即,相似度分值。
[0076] 具体的,本步骤可进一步包含以下子步骤:
[0077] 子步骤1203a:先根据已有的待对码的药品信息中已完成对码的药品信息,生成包含所述待对码的药品信息和相应的对码结果的药品信息对码序列组,再利用所述药品信息对码序列组,对药品信息对码模型进行训练。
[0078] 本步骤可通过以下方式具体实现:
[0079] 1. 生成药品信息对码序列组
[0080] 根据已有的待对码的药品信息中已完成对码的药品信息,生成包含所述待对码的药品信息和相应的对码结果的药品信息对码序列组。
[0081] 进一步的,所述药品信息对码序列组用于为后续的药品信息对码模型的模型训练提供对码结果的标注信息。
[0082] 优选的,所述药品信息对码序列组的格式可以是,例如:
[0083] <对码标识,国药准字X,通用名X,商品名X,药品规格X,生产企业X,条形码X,国药准字Y,通用名Y,商品名Y,药品规格Y,生产企业Y,条形码Y>
[0084] 其中,“对码标识”就是对码结果的标注信息,优选的,对码标识有2个状态:正确和错误;X序列表示的用户的需求列表,即,用户的待对码的药品信息中的药品属性信息;Y序列表示药品主数据库的信息列表,即,药品主数据库中药品的药品信息中的药品属性信息。
[0085] 可以理解,上述药品信息对码序列组中包含:用户的待对码的药品信息中的药品属性信息、药品主数据库中药品的药品属性信息,和两者的对码结果分值。
[0086] 例如:
[0087] <1, H20100019, 恩替卡韦分散片, 润众, 0.5mg*28片, 正大天晴,,国药准字H20100019, 恩替卡韦分散片, 润众, 0.5mg*7片*4板, 正大天晴药业集团股份有限公司, 6922096210191,>
[0088] <1,  , 恩替卡韦分散片, 润众, 0.5mg*28片, 正大天晴药业,,国药准字H20100019, 恩替卡韦分散片, 润众, 0.5mg*7片*4板, 正大天晴药业集团股份有限公司, 6922096210191,>
[0089] <0,  , 恩替卡韦分散片, 润众, 28片, 正大天晴,,国药准字H20100019, 恩替卡韦分散片, 润众, 0.5mg*7片*4板, 正大天晴药业集团股份有限公司, ,>
[0090] 优选的,如果某个字段没有提供,则该字段可默认为空。
[0091] 优选的,在已经完成对码的对码序列组中,如果对码组没有经过调整就完成下单,则默认为“正确”,相应的对码标识为1;如果被调整过,则将调整前的对码组的对码结果默认为“错误”,对码标识为0;而将调整后的对码组的对码结果默认为“正确”,对码标识为1。
[0092] 可以理解,通过上述方式,随着已有的待对码的药品信息中已完成对码的数量的增加,药品信息对码序列组中的对码组的数量也越来越多。已完成对码的对码序列组可以用于对药品信息对码模型训练,一般来说对码序列组数据越多,模型训练的效果越好。
[0093] 2. 模型训练
[0094] 利用所述药品信息对码序列组,对药品信息对码模型进行训练。
[0095] 优选的,所述药品信息对码模型可采用DSSM(Deep Structured  Semantic Models,深层结构语义模型),其中,经过embedding层(即,嵌入层)的term vector(项向量),特征提取层的全连接网络、语义特征和相似度计算,最终输出< Xi,Yj>之间的相似度得分,其中,X和Y分别代表对码序列组的后缀,i和j分别代表对码序列组中的具体位置,例如,X1代表后缀为X的第一个字段,即,国药准字X,Y2代表后缀为Y的第2个字段,即,通用名Y。
[0096] 子步骤1203b:利用经训练的药品信息对码模型,根据所述待对码的药品信息,获得所述待对码的药品信息与所述药品主数据库中的每个药品的模型对码分值,即,相似度分值。
[0097] 具体的,本步骤将所述待对码的药品信息输入所述经训练的药品信息对码模型,输出所述待对码的药品信息与药品主数据库中的药品信息的模型对码分值,即,相似度分值。
[0098] 这样做的好处在于,能够在对码处理中进一步结合其他用户的已完成对码的对码结果,使本次用户的对码处理准确度更高。
[0099] 步骤130:通过对所述待对码的药品信息与所述药品主数据库中的每个药品的规则对码分值、行为对码分值和模型对码分值进行集成处理,获得集成对码分值。
[0100] 在本步骤中,对上述通过不同方式获得的规则对码分值、行为对码分值和模型对码分值进行集成处理。
[0101] 优选的,所述集成处理,是指,通过例如基于权重的线性计算,或者通过模型直接训练,根据上述通过不同方式获得的规则对码分值、行为对码分值和模型对码分值,生成集成对码分值。
[0102] 可选地,在一个实施例中,集成对码分值可通过以下方式计算:
[0103] W= F*Wi+H*Wj+I*Wk
[0104] 其中,W是集成对码分值,F是所述规则对码分值,H是所述模型对码分值,I是所述行为对码分值,Wi是规则对码分值权重,Wj是模型对码分值权重,Wk是行为对码分值权重。优选的,规则对码分值权重,模型对码分值权重和行为对码分值权重可预先设置,并且,规则对码分值权重>模型对码分值权重>行为对码分值权重,本申请的发明人认为,药品信息规则引擎是最可靠的,在一个优选的实施例中,规则对码分值权重可设置为0.6,然后依次是模型对码分值权重可设置为0.4,行为对码分值权重可设置为0.1。
[0105] 举例来说,如果上述步骤中输出的待对码的药品信息与药品主数据库中的一个药品信息的规则对码分值为0分,模型对码分值为0.8分,行为对码分值为0.9分,则集成对码分值为:
[0106] W=0.6*0+0.4*0.8+0.1*0.9=0.41
[0107] 其中,W为集成对码分值。
[0108] 可以理解,上述规则对码分值权重,模型对码分值权重和行为对码分值权重的具体数值是示例性的,在本说明书的其它实施例中,可根据具体情况进行设置和调整,在此不做赘述。
[0109] 需指出,按照类似的处理过程,获得所述待对码的药品信息与所述药品主数据库中的每个药品信息的集成对码分值。
[0110] 可选地,在一个实施例中,集成对码分值可通过机器学习的模型实现。设置一个神经网络,输入是规则对码分值、行为对码分值和模型对码分值,输出是集成对码分值。预先标定训练数据集合,该集合中的每一条数据包括规则对码分值、行为对码分值和模型对码分值和标定的集成对码分值,例如完全匹配时集成对码分值就是1,完全不匹配时集成对码分值就是0。使用训练数据集合对神经网络进行训练(例如可以使用BP算法),训练得到的神经网络就是用于计算集成对码分值的模型。
[0111] 步骤140:将所述药品主数据库中与所述待对码的药品信息的集成对码分值最高的那个药品,作为所述待对码的药品信息的对码结果,输出给所述用户。
[0112] 优选的,在本说明书的其它实施例中,可预先设置集成对码分值的阈值,所述集成对码分值如果满足所述阈值条件,则将药品主数据库中相信的药品作为对码结果,输出给所述用户。
[0113] 在上述实施例中,实现了在药品交易流通过程中,能基于药品属性的文本信息,通过规则对码、行为对码和模型对码的集成对码,实现不同药品信息的对码。此方法和系统涉及药品主数据库、待对码的药品信息、已经成功的对码组、分词索引、基于药品信息规则的对码、模型训练、基于模型的对码、基于行为的对码、集成对码和对码输出服务等模块,即综合了强规则的对码、其它用户的对码结果的影响以及历史行为的对码结果,有效提高了药品对码的效率和准确率,节省人力,提升药品流通过程中的效率。
[0114] 本申请的第二实施方式涉及一种药品信息对码系统,其结构如图3所示,该药品信息对码系统包括:
[0115] 药品信息获取模块,用于获取待对码的药品信息;
[0116] 药品信息对码模块,用于通过将所述待对码的药品信息与预先设置的药品主数据库中的每个药品的药品信息,分别进行基于药品信息规则的规则对码、基于所述用户已有的购药历史行为的行为对码,和基于已完成的药品信息对码结果的模型对码,获得所述待对码的药品信息与所述药品主数据库中的每个药品相应的规则对码分值、行为对码分值和模型对码分值;
[0117] 药品信息对码分值集成模块,用于通过对所述待对码的药品信息与所述药品主数据库中的每个药品的规则对码分值、行为对码分值和模型对码分值进行集成处理,获得集成对码分值;
[0118] 药品信息对码结果输出模块,用于将所述药品主数据库中与所述待对码的药品信息的集成对码分值最高的药品,作为所述待对码的药品信息的对码结果,输出给所述用户。
[0119] 第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
[0120] 需要说明的是,本领域技术人员应当理解,上述药品信息对码系统的实施方式中所示的各模块的实现功能可参照前述药品信息对码方法的相关描述而理解。上述药品信息对码系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本申请实施例上述药品信息对码系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
[0121] 相应地,本申请实施方式还提供一种计算机存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。
[0122] 此外,本申请实施方式还提供一种药品信息对码系统,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该处理器可以是中央处理单元(Central Processing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称“DSP”)、专用集成电路(Application Specific Integrated Circuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(random access memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0123] 需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
[0124] 在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中,以便在必要时可以作为修改的依据。此外应理解,在阅读了本申请的上述公开内容之后,本领域技术人员可以对本申请作各种改动或修改,这些等价形式同样落于本申请所要求保护的范围。