面向多数据源的药品类实体识别方法及装置转让专利
申请号 : CN201710101841.5
文献号 : CN106919794B
文献日 : 2019-12-06
发明人 : 黄玉丽 , 李雪莉 , 关毅
申请人 : 黑龙江特士信息技术有限公司 , 哈尔滨工业大学
摘要 :
权利要求 :
1.一种面向多数据源的药品类实体识别方法,其特征在于,包括:
获取原始数据中的待处理语句;
将所述待处理语句进行单字切分,确定待处理语句中的每个文字;
根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;
根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;
根据预先设置的药品类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;
根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组药品类候选实体和第二组药品类候选实体;
若第一组药品类候选实体和第二组药品类候选实体不相同,根据预先设置的判断策略从第一组药品类候选实体和第二组药品类候选实体中确定药品类实体结果;
所述根据预先设置的判断策略从第一组药品类候选实体和第二组药品类候选实体中确定药品类实体结果,包括:确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;
若待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组药品类候选实体中的候选实体作为药品类实体结果;
若待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组药品类候选实体中的候选实体作为药品类实体结果;
或者,确定来源于相同待处理语句的原始字符串的第一组药品类候选实体和第二组药品类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为药品类实体结果;
根据预先设置的药品类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体,包括:将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;
调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句;
将预处理后的待处理语句采用逆向最大匹配原则与预先设置的药品规格数据库和包装规格数据库进行匹配,将从药品规格数据库中匹配到的待处理语句的字符串确定为规格实体,将从包装规格数据库中匹配到的待处理语句的字符串确定为包装规格实体;
或者,识别预处理后的待处理语句中的数字组合;判断预处理后的待处理语句中所述数字组合后的字符串是否为计量单位;若预处理后的待处理语句中所述数字组合后的字符串为计量单位,则根据计量单位类型,将所述数字组合和计量单位作为整体抽出,形成规格实体或者包装规格实体;
将预处理后的待处理语句中规格实体和包装规格实体之外的其他字符串,采用逆向最大匹配原则与预先设置的药品名称数据库、剂型数据库以及包材数据库进行匹配;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为产品名的待处理语句的字符串确定为药品产品名实体;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为通用名的待处理语句的字符串确定为药品通用名实体;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为商品名的待处理语句的字符串确定为药品商品名实体;将从剂型数据库中匹配到的待处理语句的字符串确定为剂型实体;将从包材数据库中匹配到的待处理语句的字符串确定为包材实体;
根据一预先设置的酸根碱根数据表,在预处理后的待处理语句中确定切分出的药品通用名实体或药品产品名实体之前是否存在分别与药品通用名实体或药品产品名实体连续的酸根词;并在预处理后的待处理语句中确定切分出的药品通用名实体或药品产品名实体之后是否存在分别与药品通用名实体或药品产品名实体连续的碱根词;
将与药品通用名实体或药品产品名实体连续的酸根词抽出,并加入到其对应的药品通用名实体或药品产品名实体中,且实体类型不变;将与药品通用名实体或药品产品名实体连续的碱根词抽出,并加入到其对应的药品通用名实体或药品产品名实体中,且实体类型不变;
若在预处理后的待处理语句中药品通用名实体与剂型实体相邻,则将药品通用名实体与剂型实体作为整体抽出,形成药品产品名实体;
若在预处理后的待处理语句中药品通用名实体之后与预先设置的表示剂型的单字相邻,则将药品通用名实体与所述表示剂型的单字作为整体抽出,形成药品产品名实体;
判断预处理后的待处理语句中是否存在药品名相关实体;所述药品名相关实体包括药品通用名实体、药品产品名实体和药品商品名实体;
若预处理后的待处理语句中存在药品名相关实体,则将预处理后的待处理语句中抽取出的规格实体、包装规格实体、剂型实体、包材实体中的一个或多个实体与所述药品名相关实体作为所述第二组候选实体;
若预处理后的待处理语句中不存在药品名相关实体,则将预处理后的待处理语句中抽取出的规格实体、包装规格实体、剂型实体、包材实体舍弃。
2.根据权利要求1所述的面向多数据源的药品类实体识别方法,其特征在于,所述原始数据包括结构化数据;所述结构化数据包括结算单数据、门诊处方数据、住院医嘱数据、医药企业药品试验数据、医药企业销售数据、医疗知识库及文献库数据、药品说明书数据。
3.根据权利要求2所述的面向多数据源的药品类实体识别方法,其特征在于,根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列,包括:从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;
根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
根据所述训练模型,计算待处理语句中的每个文字的实体标记yj;
将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
4.根据权利要求3所述的面向多数据源的药品类实体识别方法,其特征在于,根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体,包括:在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
5.根据权利要求4所述的面向多数据源的药品类实体识别方法,其特征在于,还包括:在所 述待处 理语 句未 在预 先设置 的语 料库中 被标 注 ,根据 公式 :确定待处理语句中各实体的不确定值;其中,
IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置; 为待处理语句中s位置的文字对应第j个实体标记的概率;
将待处理语句中不确定值为1的实体与预先设置的药品本体库匹配,若匹配成功,则将匹配成功的实体的实体标记进行保存;
确定待处理语句的预测置信度和字典匹配标记的实体比例;
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;
所述字典匹配标记的实体比例为: 其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
6.根据权利要求1所述的面向多数据源的药品类实体识别方法,其特征在于,根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组药品类候选实体和第二组药品类候选实体,包括:判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非药品术语字符;
若各候选实体的末尾字符为预先设置的非药品术语字符,将所述候选实体舍弃。
7.一种面向多数据源的药品类实体识别装置,其特征在于,包括:
待处理语句获取单元,用于获取原始数据中的待处理语句;
单字切分单元,用于将所述待处理语句进行单字切分,确定待处理语句中的每个文字;
实体标记序列确定单元,用于根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;
第一组候选实体确定单元,用于根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;
第二组候选实体确定单元,用于根据预先设置的药品类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;
候选实体筛选单元,用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组药品类候选实体和第二组药品类候选实体;
药品类实体结果确定单元,用于在第一组药品类候选实体和第二组药品类候选实体不相同时,根据预先设置的判断策略从第一组药品类候选实体和第二组药品类候选实体中确定药品类实体结果;
所述药品类实体结果确定单元,包括:
术语切分判断模块,用于确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;
药品类实体结果确定模块,用于在待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组药品类候选实体中的候选实体作为药品类实体结果;
在待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组药品类候选实体中的候选实体作为药品类实体结果;
所述药品类实体结果确定模块,还用于确定来源于相同待处理语句的原始字符串的第一组药品类候选实体和第二组药品类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为药品类实体结果;
所述第二组候选实体确定单元,包括:
预处理模块,用于将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句;
规格和包装规格实体识别模块,用于将预处理后的待处理语句采用逆向最大匹配原则与预先设置的药品规格数据库和包装规格数据库进行匹配,将从药品规格数据库中匹配到的待处理语句的字符串确定为规格实体,将从包装规格数据库中匹配到的待处理语句的字符串确定为包装规格实体;或者,识别预处理后的待处理语句中的数字组合;判断预处理后的待处理语句中所述数字组合后的字符串是否为计量单位;若预处理后的待处理语句中所述数字组合后的字符串为计量单位,则根据计量单位类型,将所述数字组合和计量单位作为整体抽出,形成规格实体或者包装规格实体;
其他实体识别模块,用于将预处理后的待处理语句中规格实体和包装规格实体之外的其他字符串,采用逆向最大匹配原则与预先设置的药品名称数据库、剂型数据库以及包材数据库进行匹配;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为产品名的待处理语句的字符串确定为药品产品名实体;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为通用名的待处理语句的字符串确定为药品通用名实体;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为商品名的待处理语句的字符串确定为药品商品名实体;将从剂型数据库中匹配到的待处理语句的字符串确定为剂型实体;将从包材数据库中匹配到的待处理语句的字符串确定为包材实体;
酸根碱根词判断模块,用于根据一预先设置的酸根碱根数据表,在预处理后的待处理语句中确定切分出的药品通用名实体或药品产品名实体之前是否存在分别与药品通用名实体或药品产品名实体连续的酸根词;并在预处理后的待处理语句中确定切分出的药品通用名实体或药品产品名实体之后是否存在分别与药品通用名实体或药品产品名实体连续的碱根词;
实体调整模块,用于将与药品通用名实体或药品产品名实体连续的酸根词抽出,并加入到其对应的药品通用名实体或药品产品名实体中,且实体类型不变;将与药品通用名实体或药品产品名实体连续的碱根词抽出,并加入到其对应的药品通用名实体或药品产品名实体中,且实体类型不变;
所述实体调整模块,还用于在预处理后的待处理语句中药品通用名实体与剂型实体相邻时,将药品通用名实体与剂型实体作为整体抽出,形成药品产品名实体;在预处理后的待处理语句中药品通用名实体之后与预先设置的表示剂型的单字相邻时,将药品通用名实体与所述表示剂型的单字作为整体抽出,形成药品产品名实体;
第二组候选实体形成模块,用于判断预处理后的待处理语句中是否存在药品名相关实体;所述药品名相关实体包括药品通用名实体、药品产品名实体和药品商品名实体;在预处理后的待处理语句中存在药品名相关实体时,将预处理后的待处理语句中抽取出的规格实体、包装规格实体、剂型实体、包材实体中的一个或多个实体与所述药品名相关实体作为所述第二组候选实体;在预处理后的待处理语句中不存在药品名相关实体时,将预处理后的待处理语句中抽取出的规格实体、包装规格实体、剂型实体、包材实体舍弃。
8.根据权利要求7所述的面向多数据源的药品类实体识别装置,其特征在于,所述待处理语句获取单元中的原始数据包括结构化数据;所述结构化数据包括结算单数据、门诊处方数据、住院医嘱数据、医药企业药品试验数据、医药企业销售数据、医疗知识库及文献库数据、药品说明书数据。
9.根据权利要求8所述的面向多数据源的药品类实体识别装置,其特征在于,所述实体标记序列确定单元,包括:CRF统计特征值提取模块,用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;
训练模型确定模块,用于根据每个字在各语句中的CRF统计特征值,确定一训练模型;
所述训练模型为:
实体标记计算模块,用于根据所述训练模型,计算待处理语句中的每个文字的实体标记yj;
实体标记序列确定模块,用于将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
10.根据权利要求9所述的面向多数据源的药品类实体识别装置,其特征在于,所述第一组候选实体确定单元,具体用于:在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
11.根据权利要求10所述的面向多数据源的药品类实体识别装置,其特征在于,还包括语料库更新单元,用于:在所 述待处 理语 句未 在预 先设置 的语 料库中 被标 注 ,根据 公式 :确定待处理语句中各实体的不确定值;其中,
IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置; 为待处理语句中s位置的文字对应第j个实体标记的概率;
将待处理语句中不确定值为1的实体与预先设置的药品本体库匹配,在匹配成功时,将匹配成功的实体的实体标记进行保存;
确定待处理语句的预测置信度和字典匹配标记的实体比例;
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;
所述字典匹配标记的实体比例为: 其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
12.根据权利要求7所述的面向多数据源的药品类实体识别装置,其特征在于,所述候选实体筛选单元,包括:非药品术语字符判断模块,用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非药品术语字符;
候选实体舍弃模块,用于在各候选实体的末尾字符为预先设置的非药品术语字符时,将所述候选实体舍弃。
说明书 :
面向多数据源的药品类实体识别方法及装置
技术领域
背景技术
药行业人士的兴趣和关注。人们开始探讨和学习如何利用大数据提高医药行业经营管理服
务,如通过药品销售大数据分析得到药品品牌、消费人群、消费途径等营销策略;提高临床
医疗服务质量,如通过疗效对比得到最佳治疗路径;提高医学科研水平,如分析临床试验数
据和病人记录,确定药品更多的适应症和发现副作用等。而医药大数据的利用分析和挖掘
的前提和基础之一是药品类实体的识别,药品相关实体的识别是医疗大数据应用的基础工
作。
实体识别)可以抽取出相关文本中存在的医疗术语,对后续研究的性能起到重要的作用。目
前常见的实体识别技术有基于词表的医学实体识别和基于条件随机场(Conditional
Random Fields,简称CRF)的医学实体识别,然而基于词表的医学实体识别仅仅依靠术语库
匹配,缺少上下文语境识别,且术语库匹配存在较大局限性,比如对于药品来说,药品的厂
家数量繁多,术语库可能难以一一涵盖。而基于CRF的医学实体识别技术,缺少大数据语料
库和语言规则的应用,语料均为人工标注后的语料,而没有利用半监督学习等方法,增加对
数量更庞大的未标注数据的使用,使得模型不够完善,缺少基于语言学与医疗信息的规则,
仅仅依靠模型,对数据的针对性不够强。可见,当前的实体识别方案并不能准确进行药品类
实体识别。
发明内容
果。
数据、药品说明书数据。
语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、
词性特征值、字符特征值、上下文特征值以及术语表特征值;
处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句
中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的
实体标记的尾部位置; 为待处理语句中s位置的文字对应第j个实体标记的概率;
待处理语句;
规格实体,将从包装规格数据库中匹配到的待处理语句的字符串确定为包装规格实体;
字符串为计量单位,则根据计量单位类型,将所述数字组合和计量单位作为整体抽出,形成
规格实体或者包装规格实体;
从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为产品名的待处理语
句的字符串确定为药品产品名实体;将从药品名称数据库中匹配到的,且对应药品名称数
据库中的词语类型为通用名的待处理语句的字符串确定为药品通用名实体;将从药品名称
数据库中匹配到的,且对应药品名称数据库中的词语类型为商品名的待处理语句的字符串
确定为药品商品名实体;将从剂型数据库中匹配到的待处理语句的字符串确定为剂型实
体;将从包材数据库中匹配到的待处理语句的字符串确定为包材实体;
连续的酸根词;并在预处理后的待处理语句中确定切分出的药品通用名实体或药品产品名
实体之后是否存在分别与药品通用名实体或药品产品名实体连续的碱根词;
实体连续的碱根词抽出,并加入到其对应的药品通用名实体或药品产品名实体中,且实体
类型不变;
相关实体作为所述第二组候选实体;
实体;
中确定药品类实体结果。
果;在待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第
一组药品类候选实体中的候选实体作为药品类实体结果;
多的一组实体作为药品类实体结果。
数据、医疗知识库及文献库数据、药品说明书数据。
体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文
字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;
体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特
征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在
待处理语句中的标记概率。
IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的
实体标记的尾部位置; 为待处理语句中s位置的文字对应第j个实体标记的概率;
非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处
理后的待处理语句;
配到的待处理语句的字符串确定为规格实体,将从包装规格数据库中匹配到的待处理语句
的字符串确定为包装规格实体;或者,识别预处理后的待处理语句中的数字组合;判断预处
理后的待处理语句中所述数字组合后的字符串是否为计量单位;若预处理后的待处理语句
中所述数字组合后的字符串为计量单位,则根据计量单位类型,将所述数字组合和计量单
位作为整体抽出,形成规格实体或者包装规格实体;
包材数据库进行匹配;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语
类型为产品名的待处理语句的字符串确定为药品产品名实体;将从药品名称数据库中匹配
到的,且对应药品名称数据库中的词语类型为通用名的待处理语句的字符串确定为药品通
用名实体;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为商品
名的待处理语句的字符串确定为药品商品名实体;将从剂型数据库中匹配到的待处理语句
的字符串确定为剂型实体;将从包材数据库中匹配到的待处理语句的字符串确定为包材实
体;
用名实体或药品产品名实体连续的酸根词;并在预处理后的待处理语句中确定切分出的药
品通用名实体或药品产品名实体之后是否存在分别与药品通用名实体或药品产品名实体
连续的碱根词;
名实体或药品产品名实体连续的碱根词抽出,并加入到其对应的药品通用名实体或药品产
品名实体中,且实体类型不变;
的待处理语句中药品通用名实体之后与预先设置的表示剂型的单字相邻时,将药品通用名
实体与所述表示剂型的单字作为整体抽出,形成药品产品名实体;
预处理后的待处理语句中存在药品名相关实体时,将预处理后的待处理语句中抽取出的规
格实体、包装规格实体、剂型实体、包材实体中的一个或多个实体与所述药品名相关实体作
为所述第二组候选实体;在预处理后的待处理语句中不存在药品名相关实体时,将预处理
后的待处理语句中抽取出的规格实体、包装规格实体、剂型实体、包材实体舍弃。
文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的
实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处
理语句的第一组候选实体;然后,根据预先设置的药品类术语切分策略,对所述待处理语句
进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实
体的末尾字符,对各候选实体进行筛选,分别形成第一组药品类候选实体和第二组药品类
候选实体;若第一组药品类候选实体和第二组药品类候选实体不相同,根据预先设置的判
断策略从第一组药品类候选实体和第二组药品类候选实体中确定药品类实体结果。本发明
将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别药品类实体,克
服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
附图说明
发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可
以根据这些附图获得其他的附图。
具体实施方式
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标
记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句
的第一组候选实体;然后,根据预先设置的药品类术语切分策略,对所述待处理语句进行术
语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末
尾字符,对各候选实体进行筛选,分别形成第一组药品类候选实体和第二组药品类候选实
体;若第一组药品类候选实体和第二组药品类候选实体不相同,根据预先设置的判断策略
从第一组药品类候选实体和第二组药品类候选实体中确定药品类实体结果。本发明将条件
随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别药品类实体,克服了当
前的实体识别的数据源较为单一,实体识别不准确的问题。
一种面向多数据源的药品类实体识别方法的B部分,此处分为A、B部分是由于本发明实施例
的步骤较多,并非表示实际意义上的区别,A部分与B部分形成整个步骤201至步骤225,其中
图2示出了步骤201至步骤213,图3示出了步骤214至步骤225。),本发明实施例提供一种面
向多数据源的药品类实体识别方法,包括:
数据、药品说明书数据等。可见,本发明实施例所能处理的原始数据多样,不仅仅局限于单
一数据源。
中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。
体、药品商品名实体、剂型实体、规格实体、包装规格实体)。
明如下表1所示:
可使句子的训练模型p(y|x)的和达到最大;m表示分词特征的个数;n表示待处理语句中的
文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
处理后的待处理语句。
串确定为规格实体,将从包装规格数据库中匹配到的待处理语句的字符串确定为包装规格
实体。
24片/盒 12片/板*2板/盒
24片/盒 6片*4板/盒
1片/盒 1只/盒
的字符串为计量单位,则根据计量单位类型(可分为规格和包装规格),将所述数字组合和
计量单位作为整体抽出,形成规格实体或者包装规格实体。
出。
mg 毫克 规格
袋 代 包装规格
盒 合 包装规格
支 只 包装规格
行匹配;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为产品名
的待处理语句的字符串确定为药品产品名实体;将从药品名称数据库中匹配到的,且对应
药品名称数据库中的词语类型为通用名的待处理语句的字符串确定为药品通用名实体;将
从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为商品名的待处理语
句的字符串确定为药品商品名实体;将从剂型数据库中匹配到的待处理语句的字符串确定
为剂型实体;将从包材数据库中匹配到的待处理语句的字符串确定为包材实体。
的内容为“乳酸左氧氟沙星滴眼液”。
片剂
舌下片
咀嚼片
分散片
肠溶片 片剂(肠溶片)
非PVC软袋
玻璃瓶 玻瓶
塑料瓶 塑瓶
品名实体连续的酸根词;并在预处理后的待处理语句中确定切分出的药品通用名实体或药
品产品名实体之后是否存在分别与药品通用名实体或药品产品名实体连续的碱根词。
乳酸
硫酸
钾
钠
品产品名实体连续的碱根词抽出,并加入到其对应的药品通用名实体或药品产品名实体
中,且实体类型不变。
星”,实体类型为药品通用名,即实体类型不变。
为“乳酸左氧氟沙星滴眼液”,实体类型为药品产品名实体。
品名实体。
感冒灵片”,实体类别为药品产品名。
实体、剂型实体、包材实体不能单独存在,即在有药品名相关实体存在的情况下,规格实体、
包装规格实体、剂型实体、包材实体一般才有效。
体个数少,且实体包含的字符数多的一组实体作为药品类实体结果。
菌多维颗粒【产品名】”,则最终结果为“枯草杆菌、肠球菌二联活菌多维颗粒【产品名】”。
公式: 确定待处理语句中各实体的不确定值;
其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个
实体的实体标记的尾部位置; 为待处理语句中s位置的文字对应第j个实体标记的概率。
沙星滴眼液,位置为“2 3 4 5 6 7 8 9”,因此,Kstart为2,Kend为9。
据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标
记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句
的第一组候选实体;然后,根据预先设置的药品类术语切分策略,对所述待处理语句进行术
语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末
尾字符,对各候选实体进行筛选,分别形成第一组药品类候选实体和第二组药品类候选实
体;若第一组药品类候选实体和第二组药品类候选实体不相同,根据预先设置的判断策略
从第一组药品类候选实体和第二组药品类候选实体中确定药品类实体结果。本发明将条件
随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别药品类实体,克服了当
前的实体识别的数据源较为单一,实体识别不准确的问题。
选实体。
体中确定药品类实体结果。
结果;在待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述
第一组药品类候选实体中的候选实体作为药品类实体结果。
符数多的一组实体作为药品类实体结果。
售数据、医疗知识库及文献库数据、药品说明书数据。
实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个
文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征
值。
实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词
特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字
在待处理语句中的标记概率。
IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的
实体标记的尾部位置; 为待处理语句中s位置的文字对应第j个实体标记的概率。
在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预
处理后的待处理语句。
中匹配到的待处理语句的字符串确定为规格实体,将从包装规格数据库中匹配到的待处理
语句的字符串确定为包装规格实体;或者,识别预处理后的待处理语句中的数字组合;判断
预处理后的待处理语句中所述数字组合后的字符串是否为计量单位;若预处理后的待处理
语句中所述数字组合后的字符串为计量单位,则根据计量单位类型,将所述数字组合和计
量单位作为整体抽出,形成规格实体或者包装规格实体。
以及包材数据库进行匹配;将从药品名称数据库中匹配到的,且对应药品名称数据库中的
词语类型为产品名的待处理语句的字符串确定为药品产品名实体;将从药品名称数据库中
匹配到的,且对应药品名称数据库中的词语类型为通用名的待处理语句的字符串确定为药
品通用名实体;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为
商品名的待处理语句的字符串确定为药品商品名实体;将从剂型数据库中匹配到的待处理
语句的字符串确定为剂型实体;将从包材数据库中匹配到的待处理语句的字符串确定为包
材实体。
通用名实体或药品产品名实体连续的酸根词;并在预处理后的待处理语句中确定切分出的
药品通用名实体或药品产品名实体之后是否存在分别与药品通用名实体或药品产品名实
体连续的碱根词。
用名实体或药品产品名实体连续的碱根词抽出,并加入到其对应的药品通用名实体或药品
产品名实体中,且实体类型不变。
理后的待处理语句中药品通用名实体之后与预先设置的表示剂型的单字相邻时,将药品通
用名实体与所述表示剂型的单字作为整体抽出,形成药品产品名实体。
体;在预处理后的待处理语句中存在药品名相关实体时,将预处理后的待处理语句中抽取
出的规格实体、包装规格实体、剂型实体、包材实体中的一个或多个实体与所述药品名相关
实体作为所述第二组候选实体;在预处理后的待处理语句中不存在药品名相关实体时,将
预处理后的待处理语句中抽取出的规格实体、包装规格实体、剂型实体、包材实体舍弃。
据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标
记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句
的第一组候选实体;然后,根据预先设置的药品类术语切分策略,对所述待处理语句进行术
语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末
尾字符,对各候选实体进行筛选,分别形成第一组药品类候选实体和第二组药品类候选实
体;若第一组药品类候选实体和第二组药品类候选实体不相同,根据预先设置的判断策略
从第一组药品类候选实体和第二组药品类候选实体中确定药品类实体结果。本发明将条件
随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别药品类实体,克服了当
前的实体识别的数据源较为单一,实体识别不准确的问题。
施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产
品的形式。
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内
容不应理解为对本发明的限制。