寄递物品识别方法及装置转让专利

申请号 : CN202210099289.1

文献号 : CN114116988B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 许良锋王丰陈嵩王红亮张彬杨睿林杉张竹友

申请人 : 国家邮政局邮政业安全中心

摘要 :

本公开实施例公开了一种寄递物品识别方法及装置。其中,寄递物品识别方法,包括:获取寄递物品的品名信息;对所述品名信息进行词语解析,得到所述品名的分词信息;将所述分词信息的词语与预构建的特征词库进行对比,得到品名关联信息;基于所述关联信息识别寄递物品的风险等级。通过对品名信息进行词语解析,将解析结果与预构建的特征词库进行对比,根据对比结果识别寄递物品的风险等级,替代原有的人工排查方式,从而达到提高排查效率,缩短排查时间的目的。而采用寄递物品识别方法对品名信息进行解析和对比,得到风险等级,数据化的排查方式,实现采集规范化的违禁物品数据的目的。

权利要求 :

1.一种寄递物品识别方法,其特征在于,包括:获取寄递物品的品名信息;

对所述品名信息进行词语解析,得到所述品名的分词信息;

将所述分词信息的词语与预构建的特征词库进行对比,得到品名关联信息;

基于所述关联信息识别寄递物品的风险等级;

对所述品名信息进行词语解析,得到所述品名的分词信息,包括:基于字符串匹配的分词方法对所述品名信息进行词语解析;

采用基于统计的分词方法对新增所述品名信息进行扩展;

所述基于字符串匹配的分词方法对所述品名信息进行词语解析,包括:以正向最大匹配算法对所述品名信息进行词语解析,得到所述品名的分词信息;

使用逆向最大匹配算法和双向最大匹配算法对所述品名的分词信息进行校验;

所述将所述分词信息的词语与预构建的特征词库进行对比的步骤之前,还包括:对分词信息进行归一化处理的步骤;

所述对分词信息进行归一化处理,包括:物品相似度处理和文本相似度处理;

所述文本相似度处理,计算公式如下:,

其中, 表示文本字段  和 的相似度函数, 表示字段和 的分词结果共同出现的次数, 表示为字段 的词语的总数, 为相似度参数,其中 i = 1, 2, … , n;

所述特征词库,包括掩饰物特征词库,掩饰物特征词库需要动态更新,将新出现的掩饰物特征添加到特征库内。

2.根据权利要求1 所述的寄递物品识别方法,其特征在于,所述特征词库,包括基本特征词库。

3.根据权利要求1所述的寄递物品识别方法,其特征在于,所述物品相似度处理,包括基于相关性系数判断两个物品的相似度;

,其中 为相关性系数,X,Y为两个物品的变量, 为X的标准差, 为Y的标准差。

4.根据权利要求1所述的寄递物品识别方法,其特征在于,所述基于所述关联信息识别寄递物品的风险等级,包括:基于所述分词信息对寄递物品进行归类,判断不同类别寄递物品的关联性;

获取邮寄相关人的历史风险等级;

基于所述邮寄相关人和不同类别寄递物品的关联性识别寄递物品的风险等级,所述邮寄相关人,包括邮寄人或邮寄人的关联关系人。

5.根据权利要求4所述的寄递物品识别方法,其特征在于,所述判断不同类别寄递物品的关联性,包括:

计算数据集中所有物品特征值的平均数;

计算不同物品出现相同特征的次数;

基于所述平均数和次数得到相似度,基于所述相似度判断不同类别寄递物品的关联性。

6.根据权利要求4所述的寄递物品识别方法,其特征在于,所述基于所述邮寄相关人和不同类别寄递物品的关联性识别寄递物品的风险等级,包括:计算整个测试集的寄递风险物 品概率CA,,

其中, ,

表示寄递物品集 A 中物品的全部用户, 表示所有寄递物品集 B 中物品的用户, 表示为同时寄递物品集 A 中的物品又寄递了物品集 B 中的物品的用户的数量, 表示所有寄递了物品集 A 中的物品的用户的总数, 表示某寄递面单寄递风险物 品的概率。

7.一种寄递物品识别装置,其特征在于,包括:品名信息模块,用于获取寄递物品的品名信息;

解析模块,用于对所述品名信息进行词语解析,得到所述品名的分词信息;

对比模块,用于将所述分词信息的词语与预构建的特征词库进行对比,得到品名关联信息;

识别模块,基于所述关联信息识别寄递物品的风险等级;

对所述品名信息进行词语解析,得到所述品名的分词信息,包括:基于字符串匹配的分词方法对所述品名信息进行词语解析;

采用基于统计的分词方法对新增所述品名信息进行扩展;

所述基于字符串匹配的分词方法对所述品名信息进行词语解析,包括:以正向最大匹配算法对所述品名信息进行词语解析,得到所述品名的分词信息;

使用逆向最大匹配算法和双向最大匹配算法对所述品名的分词信息进行校验;

所述将所述分词信息的词语与预构建的特征词库进行对比之前,还包括:对分词信息进行归一化处理的步骤;

所述对分词信息进行归一化处理,包括:物品相似度处理和文本相似度处理;

所述文本相似度处理,计算公式如下:,

其中, 表示文本字段  和  的相似度函数, 表示字段 和  的分词结果共同出现的次数, 表示为字段 的词语的总数, 为相似度参数,其中 i = 1, 2, … , n;

所述特征词库,包括掩饰物特征词库,掩饰物特征词库需要动态更新,将新出现的掩饰物特征添加到特征库内。

说明书 :

寄递物品识别方法及装置

技术领域

[0001] 本公开涉及物流数据处理领域,尤其涉及一种寄递物品识别方法和装置。

背景技术

[0002] 根据相关规定,在邮寄物品时对于相关违禁物要严加整治,现有违禁物查处主要通过与当地相关单位,如学校、公路收费站、危爆物品从业单位、水电油气热重点单位、物流
寄递等相关单位合作,组织定期或不定期违禁物品专项整治行动。通过制定有针对性的排
查行动方案,采用组织大量人力与相关单位通力合作的方式,在每次行动中,进行有针对性
的违禁物品排查,如安全隐患物品、涉毒类相关物品、管制刀具类相关物品、非法出版物等
各类相关违禁物品排查整治。综上所述目前快递行业对快递风险物品的检查和识别手段主
要以人工方式为主。
[0003] 在发明人实施本公开实施例的过程中发现现有技术采用人工对寄递物品进行违禁物排除,存在排查时间周期长、排查效率低、不能形成固定周期频次的定期排查,无法采
集规范化的违禁物品数据的问题。

发明内容

[0004] 有鉴于此,本公开实施例提供了一种寄递物品识别方法及装置,至少部分的解决现有技术中存在的排查效率低问题。
[0005] 第一方面,本公开实施例提供了一种寄递物品识别方法,包括:
[0006] 获取寄递物品的品名信息;
[0007] 对所述品名信息进行词语解析,得到所述品名的分词信息;
[0008] 将所述分词信息的词语与预构建的特征词库进行对比,得到品名关联信息;
[0009] 基于所述关联信息识别寄递物品的风险等级。
[0010] 可选的, 所述将所述分词信息的词语与预构建的特征词库进行对比的步骤之前,还包括:对分词信息进行归一化处理的步骤。
[0011] 可选的,所述特征词库,包括基本特征词库和掩饰物特征词库。
[0012] 可选的,对所述品名信息进行词语解析,得到所述品名的分词信息,包括:
[0013] 基于字符串匹配的分词方法对对所述品名信息进行词语解析;
[0014] 采用基于统计的分词方法对新增所述品名信息进行扩展。
[0015] 可选的,所述基于字符串匹配的分词方法对对所述品名信息进行词语解析,包括:
[0016] 以正向最大匹配算法对所述品名信息进行词语解析,得到所述品名的分词信息;
[0017] 使用逆向最大匹配算法和双向最大匹配算法对所述品名的分词信息进行校验。
[0018] 可选的,所述对分词信息进行归一化处理,包括:
[0019] 物品相似度处理和文本相似度处理;
[0020] 所述物品相似度处理,包括基于相关性系数判断两个物品的相似度;
[0021] ,其中 为相关性系数,X,Y为两个物品的变量, 为X的标准差,为Y的标准差;
[0022] 所述文本相似度处理,计算公式如下:
[0023] ,
[0024] 其中, 表示文本字段   和   的相似度函数,表示字段  和   的分词结果共同出现的次数, 表示为字段  的词语的总数, 为
相似度参数,其中 i = 1, 2, … , n。
[0025] 可选的,所述基于所述关联信息识别寄递物品的风险等级,包括:
[0026] 基于所述分词信息对寄递物品进行归类,判断不同类别寄递物品的关联性;
[0027] 获取邮寄相关人的历史风险等级;
[0028] 基于所述邮寄相关人和不同类别寄递物品的关联性识别寄递物品的风险等级,所述邮寄相关人,包括邮寄人或邮寄人的关联关系人。
[0029] 可选的,所述判断不同类别寄递物品的关联性,包括:
[0030] 计算数据集中所有物品特征值的平均数;
[0031] 计算不同物品出现相同特征的次数;
[0032] 基于所述平均数和次数得到相似度,基于所述相似度判断不同类别寄递物品的关联性。
[0033] 可选的,所述基于所述邮寄相关人和不同类别寄递物品的关联性识别寄递物品的风险等级,包括:
[0034] 计算整个测试集的寄递风险内品概率CA,
[0035] ,
[0036] 其中, ,
[0037] 表示寄递物品集 A 中物品的全部用户,  表示所有寄递物品集 B 中物品的用户, 表示为同时寄递物品集 A 中的物品又寄递了物品集 B 中的物品的用
户的数量, 表示所有寄递了物品集 A 中的物品的用户的总数, 表示某寄递面
单寄递风险内品的概率。
[0038] 第二方面,本公开实施例还提供了一种寄递物品识别装置,包括:
[0039] 品名信息模块,用于获取寄递物品的品名信息;
[0040] 解析模块,用于对所述品名信息进行词语解析,得到所述品名的分词信息;
[0041] 对比模块,用于将所述分词信息的词语与预构建的特征词库进行对比,得到品名关联信息;
[0042] 识别模块,基于所述关联信息识别寄递物品的风险等级。
[0043] 本公开实施例提供的寄递物品识别方法及装置,其中该寄递物品识别方法,通过对品名信息进行词语解析,将解析结果与预构建的特征词库进行对比,根据对比结果识别
寄递物品的风险等级,替代原有的人工排查方式,从而达到提高排查效率,缩短排查时间的
目的。而采用寄递物品识别方法对品名信息进行解析和对比,得到风险等级,数据化的排查
方式,实现采集规范化的违禁物品数据的目的。
[0044] 上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明
显易懂,以下特举较佳实施例,并配合附图,详细说明如下。

附图说明

[0045] 为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域
普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0046] 图1为本公开实施例提供的一种寄递物品识别方法的流程图;
[0047] 图2为本公开实施例提供的一种基于字符串匹配的分词方法
[0048] 的流程图;
[0049] 图3为本公开实施例提供的有向无环图;
[0050] 图4为公开实施例提供的另一种寄递物品识别的流程图;
[0051] 图5为公开实施例提供的一种寄递物品识别装置的原来框图。

具体实施方式

[0052] 下面结合附图对本公开实施例进行详细描述。
[0053] 应当明确,以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅
仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施
方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本
公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例
中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性
劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0054] 需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构
及/ 或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个
方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。
举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使
用除了本文中所阐述的方面中的一或多者之外的其它结构及/ 或功能性实施此设备及/ 
或实践此方法。
[0055] 还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘
制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可
能更为复杂。
[0056] 另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
[0057] 内件品名即为寄递包装内物品的名称,即寄递物品名称。
[0058] 为了便于理解,如图1所示,本实施例公开了一种寄递物品识别方法,包括:
[0059] 步骤S101:获取寄递物品的品名信息;
[0060] 寄递物品的品名信息一般有寄递人填写,寄递人可以在终端系数上填写后直接上传至寄递公司的服务器,或者扫描寄递人手工填写的面单,并将扫描结果上传至寄递公司
的服务器,从而获得寄递物品的品名信息,品名信息如减肥药等。
[0061] 步骤S102:对所述品名信息进行词语解析,得到所述品名的分词信息;
[0062] 在寄递面单中,内件品名由用户自主填写,内容多变且无规律性,因此在与特征词库进行关联分析前,必须使用适当的中文分词算法对内件品名进行解析。中文分词技术属
于自然语言处理技术范畴,现有的分词算法可分为三大类:基于字符串匹配的分词方法、基
于理解的分词方法和基于统计的分词方法。结合内件品名的特征,多为单个汉字或短语组
合,基本不涉及主谓宾语相关的句型类结构,本实施例选择以基于字符串匹配的分词方法
为主的分词方法,辅助采用基于统计的分词方法用于新增内件品名扩展。
[0063] 步骤S103:将所述分词信息的词语与预构建的特征词库进行对比,得到品名关联信息;
[0064] 可选的,所述特征词库,包括基本特征词库和掩饰物特征词库。
[0065] 建立特征词库的目的是对违禁品识别进行知识积累,通过已有业务经验和侦破案件进行标识,用于关联寄递面单中的内件品名进行归类分析。特征词库需要不断更新,以适
应日益变化的犯罪形式,属于长期维护的过程。以下特征词库主要适用于涉毒违禁品和管
制药品。
[0066] (1)涉毒违禁品:
[0067] 1.毒品、麻醉药品和精神药品:如鸦片(包括罂粟壳、花、苞、叶)、吗啡、海洛因、可卡因、大麻、甲基苯丙胺(冰毒)、氯胺酮、甲卡西酮、苯丙胺、安钠咖等。
[0068] 2.易制毒化学品:如胡椒醛、黄樟素、黄樟油、麻黄素、伪麻黄素、羟亚胺、邻酮、苯乙酸、溴代苯丙酮、醋酸酐、甲苯、丙酮等。
[0069] 3.吸毒工具:如冰壶等。”
[0070] 对涉毒违禁品进行分类,结合中国禁毒局介绍的毒品类型,涉毒违禁品特征词库分为传统毒品、新型毒品,对于每种毒品的官方名称、俗称进行标注。
[0071] 传统毒品目录如表1所示,
[0072] 表1、传统毒品目录表
[0073] 序号 类型 毒品名称 俗称1 传统毒品 海洛因 白面、白粉
[0074] 新型毒品目录如表2所示,
[0075] 表2、新型毒品目录表
[0076] 序号 类型 毒品名称 俗称1 新型毒品 麻古 溜麻古、麻果
[0077] (2)管制药品:
[0078] 通过从国家食品药品监督管理局、公安部、卫生部联合公布的《麻醉、精一类药品目录》、《精神药品品种目录》进行筛选录入,形成管制药品特征词库,包括中文名、英文名。
其中管制药品通常以药片、药剂形式存在。
[0079] 麻醉、精一类药品目录如表3所示,
[0080] 表3、麻醉、精一类药品目录表
[0081]序号 中文名 英文名
1 醋托啡 Acetorphine
[0082] 精神药品目录如表4所示,
[0083] 表4、精神药品目录表
[0084] 序号 中文名称 英文名称1 异戊巴比妥 Amobarbital
[0085] 掩饰物特征词库
[0086] 掩饰物是用于描述在寄递过程中的用于夹带涉毒违禁品和药品的正常物品,主要通过已发现的特征进行定义。此处需要说明的是,由于掩饰物不断变化,可用于作为演示物
的寄递物品类型众多,掩饰物特征词库需要动态更新,将新出现的掩饰物特征添加到特征
库内。
[0087] 常见掩饰物目录如表5所示,
[0088] 表5、常见掩饰物目录表
[0089] 序号 类别 中文名称 用途1 药品 减肥药 通常用于掩饰摇头丸等片剂类毒品或管制药品
[0090] 步骤S104:基于所述关联信息识别寄递物品的风险等级。
[0091] 在内件品名完成匹配后,通过与真实样本的对比,形成内件品名的评分结果。
[0092] 当内件品名直接命中风险特征词库(基本特征词库),风险特征词库为预先设定的涉毒违禁品或管制药品,当内件品名直接命中此类关键词时,在假设寄递者和寄递区域的
对内件品名无直接影响的情况下,此类寄递内件品名被标识为高风险。
[0093] 在实际处理过程中,通常会结合业务分析的需求,将内件品名模型与重点人、重点区域、寄递链路等相关模型组合使用,以便更精准的进行风险评分。
[0094] 当内件品名命中掩饰物特征词库,可将寄递物品标记为中风险,已在后续工艺中对该寄递物再次识别。
[0095] 内件品名未命中风险特征词库或掩饰物特征词库,当内件品名未命中两类预设的特征词库时,在假设寄递者和寄递区域的对内件品名无直接影响的情况下,此类寄递内件
品名被标识为低风险。在实际处理过程中,通常会结合业务分析的需求,将内件品名模型与
重点人、重点区域、寄递链路等相关模型组合使用,以便更精准的进行风险评分。
[0096] 可选的, 所述将所述分词信息的词语与预构建的特征词库进行对比的步骤之前,还包括:对分词信息进行归一化处理的步骤。
[0097] 因在填写过程中物品名称填写不统一,因此应将物品名称进行统一,如电饭锅有的填写电饭煲有的填写电饭锅。
[0098] 可选的,所述对分词信息进行归一化处理,包括:
[0099] 物品相似度处理和文本相似度处理;
[0100] 所述物品相似度处理,包括基于相关性系数判断两个物品的相似度;
[0101] ,其中 为相关性系数,X,Y为两个物品的变量, 为X的标准差,为Y的标准差;
[0102] 因此基于物品相似度识别对物品名称进行统一。
[0103] 物品相似度识别
[0104] 在进行内件品名关联研判时,通常会涉及相似度理论及计算,相似度可以用来衡量不同内件品名之间的相似或相关程度。在本实施例中,为了将不同的物品关联起来而使
用的相似度有物品相似度和用户相似度,物品相似度是用来衡量物品之间的相似度大小,
而用户相似度衡量的是不同用户之间的相似度值,需要说明的是,用户相似度用于辅助物
品相似度判断,举例为:历史寄递行为较接近用户之间所寄递的物品有概率进行相互替换。
[0105] (1)物品相似度
[0106] 物品相似度是用来衡量不同的个体之间相似性的方法,其计算方法是通过计算个体特征值之间的相似度来完成的。在本 中,个体主要指寄递物品。对于不同的个体,通过特
征值的形式就可以完成对个体特征的描述。物品相似度就是通过比较不同物品特征值之间
的差异性或者相似性,来完成对异构项目的关联。为了度量相似性,最常用的两种度量方法
分别是基于相关性和基于余弦值的相似性度量方法,即皮尔森相似度和余弦相似度。
[0107] 考察两个物品(在数据里称之为变量)之间的相关程度。如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:
[0108] (1)、当相关系数为0时,X和Y两变量无关系。
[0109] (2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
[0110] (3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在‑1.00与0.00之间。
[0111] 公式定义为: 两个连续变量(X,Y)的pearson相关性系数( )等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积( )。系数的取值总是在‑1.0到1.0之间,接近0
的变量被成为无相关性,接近1或者‑1被称为具有强相关性。公式如下:
[0112] ,
[0113] 根据以上公式,使用python3实现代码如下:
[0114] def pearson(vector1, vector2):
[0115]     n = len(vector1)
[0116]     #simple sums
[0117]     sum1 = sum(float(vector1[i]) for i in range(n))
[0118]     sum2 = sum(float(vector2[i]) for i in range(n))
[0119]     #sum up the squares
[0120]     sum1_pow = sum([pow(v, 2.0) for v in vector1])
[0121]     sum2_pow = sum([pow(v, 2.0) for v in vector2])
[0122]     #sum up the products
[0123]     p_sum = sum([vector1[i]*vector2[i] for i in range(n)])
[0124]     #分子num,分母den
[0125]     num = p_sum ‑ (sum1*sum2/n)
[0126]     den = math.sqrt((sum1_pow‑pow(sum1, 2)/n)*(sum2_pow‑pow(sum2, 2)/n))
[0127]     if den == 0:
[0128]         return 0.0
[0129]     return num/den
[0130] 示例:用两个向量进行测试,其中vector1、vector2可代表内件品名相似的物品,如糕点、点心等。
[0131] vector1 = [2,7,18,88,157,90,177,570]
[0132] vector2 = [3,5,15,90,180, 88,160,580]
[0133] 运行结果为0.998,可见这两组数是高度正相关的。
[0134] 文本相似度
[0135] 由于所使用物品数据集具有一定特殊性,当物品名称相对复杂时,每个物品的特征值是通过特定方式给出,首先对物品名称进行分词,分词后的词语以 ID 类的形式标识。
因此,在本发明的研究中,在衡量不同物品的相似度时,因为特征值的形式类似于文本的形
式,可使用文本相似度来衡量不同类别物品之间的相似度。
[0136] 文本相似度的计算步骤表述如下:
[0137]
[0138] 文本相似度的计算公式如下:
[0139] ,
[0140] 其中, 表示文本字段   和   的相似度函数,表示字段  和   的分词结果共同出现的次数, 表示为字段  的词语的总数, 为
相似度参数,其中 i = 1, 2, … , n。
[0141] 示例:内件品名“电脑用中央处理器”、“中央处理器”的文本相似度计算结果为0.986,为较高相关性,可以进行相互替换。
[0142] 通过两种相似度计算方法,可以识别大部分内件品名,并进行标准化替换,提升整体研判模型的研判效果。
[0143] 可选的,对所述品名信息进行词语解析,得到所述品名的分词信息,包括:
[0144] 基于字符串匹配的分词方法对对所述品名信息进行词语解析;
[0145] 采用基于统计的分词方法对新增所述品名信息进行扩展。
[0146] 可选的,所述基于字符串匹配的分词方法对对所述品名信息进行词语解析,包括:
[0147] 以正向最大匹配算法对所述品名信息进行词语解析,得到所述品名的分词信息;
[0148] 使用逆向最大匹配算法和双向最大匹配算法对所述品名的分词信息进行校验。
[0149] 基于字符串匹配的分词方法如图2所示,
[0150] 本实施例中指按照一定策略将待分析的汉字串与一个特征词库中的词条进行匹配,若在特征词库中找到该字符串,则匹配成功。其中最大匹配法 (Maximum Matching, 
MM)通常分为以下3种:正向最大匹配算法(Forward  MM, FMM)、逆向最大匹配算法 
(Backward MM, BMM)、双向最大匹配算法 (Bi‑directional MM)。结合内件品名语境考虑,
当前用户主要使用从左至右依次填写的书写习惯,汉字或短语中间以标点(逗号、顿号等)
或中文连接词(和、或等)进行关联,较为符合正向最大匹配算法,因此本实施例中以正向最
大匹配算法为主结合特征词库进行专有名词的分词,使用逆向最大匹配算法和双向最大匹
配算法辅助进行校验。
[0151] 正向最大匹配算法:从左到右将待分词文本中的几个连续字符与特征词库匹配,如果匹配上,则切分出一个词,直至特征词库中全部命中或剩下1个单字。
[0152] 首先使用专用特征词库(涉毒违禁品、管制药品)进行匹配,将直接命中的结果进行标识,此项为直接命中高风险关键词,后续将进行风险度较高的提示。
[0153] 对于在特征词库中未直接找到相同词语,采用最短路径分词方法,找到意思相近、出现次数较多的词语进行替换,
[0154] 最短路径法的基本思想:设待切分字串 ,其中  (i =1, 2, …, n)为单个的字, n 为串的长度,n>=1 。建立一个节点数为n+1 的切分有向无环图G 如图3
所示,各节点编号依次为 。在一个具体的应用场景中,输入内件品名示例:
保济堂膏药贴金门一条根精油酸痛外用贴布12片。
[0155] 可能输出结果:
[0156] 保济堂/膏药/贴/金门/一条/根/精油/酸痛/外用贴布/12片。(10个分词)
[0157] 保济堂/膏药贴/金门/一条/根/精油/酸痛/外用贴布/12片。(9个分词)
[0158] …
[0159] 最终结果:保济堂膏药贴/金门一条根/精油/酸痛/外用贴布/12片。(6个分词)。
[0160] 基于统计的分词方法:
[0161] 基于统计的分词方法原理为:相邻的字同时出现的次数越多,就越有可能构成一个词。主要分为生成式统计分词和判别式统计分词,其中生成式统计分词因在训练语料规
模足够大和覆盖领域足够多的情况下,可以获得较高的切分正确率(>=95%)。判别式统计分
词的训练速度较生成式分词相对更慢、且需要高配置的机器训练。
[0162] 生成式统计分词方法如下:
[0163] 因寄递数据量较大(日均亿级),可以筛选出足够满足算法的可用样本。通过对内件品名中的词语进行梳理,将每个词分解为由词的最小单位各个字组成,如果相连的字在
不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。因此可以利用字与
字相邻出现的频率来反应成词的可靠度,统计语料中相邻共现的各个字的组合的频度,当
组合频度高于某一个临界值时,便可认为此字组可能会构成一个词语。
[0164] 生成式统计分词原理:首先建立学习样本的生成模型,再利用模型对预测结果进行间接推理。具备2个假设前提:马尔可夫假设、输出独立性假设。其中:
[0165] 马尔科夫假设的定义为:当前状态出现的概率仅同过去有限的历史状态有关,而与其他状态无关。具体到分词任务,就是文本中第i个词出现的概率仅仅依赖于它前面的i‑
1个词,而与其他词无关。
[0166] 输出独立性假设的定义为:当前状态的输出仅仅取决于当前状态本身,而与其他状态无关。
[0167] N元文法模型(N‑gram)模型基于这样一种假设,第n个词的出现只与前面N‑1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。
[0168] 假设该句子T是由词序列 组成的,那么
[0169]
[0170] 引入马尔科夫假设,上述公式简化为:
[0171] ,
[0172] 判断过程示例:
[0173] 内件品名:保济堂膏药贴金门一条根,
[0174] 按正向最大匹配法从左至右扫描,得到全部候选词:保济堂、膏、药、贴、膏药、药贴、膏药贴、金、门、金门、一条、根、一条根。
[0175] 对每个候选词,记录下它的概率值,并将累计概率赋初值为 0。
[0176] 顺次计算各个候选词的累计概率值,同时记录每个候选词的最佳左邻词:
[0177] P’(保济堂) =P(保济堂),
[0178] P’(膏) = P(膏) ,
[0179] P’(药) = P(药) ,
[0180] P’(膏药) = P’(膏) * P(药) ,(“膏药”的最佳左邻词为“膏” )
[0181] P’(膏药贴) = P’(膏药) * P(贴) , (“膏药贴”的最佳左邻词为“膏药” )
[0182] P’(膏药) >P’(膏)
[0183] P’(膏药) >P’(药)
[0184] P’(膏药贴) >P’(膏药)
[0185] …
[0186] 输出结果:保济堂/膏药贴/金门一条根。
[0187] 可选的,所述基于所述关联信息识别寄递物品的风险等级,包括:
[0188] 基于所述分词信息对寄递物品进行归类,判断不同类别寄递物品的关联性;
[0189] 获取邮寄相关人的历史风险等级;
[0190] 基于所述邮寄相关人和不同类别寄递物品的关联性识别寄递物品的风险等级,所述邮寄相关人,包括邮寄人或邮寄人的关联关系人。
[0191] 可选的,所述判断不同类别寄递物品的关联性,包括:
[0192] 计算数据集中所有物品特征值的平均数;
[0193] 计算不同物品出现相同特征的次数;
[0194] 基于所述平均数和次数得到相似度,基于所述相似度判断不同类别寄递物品的关联性。
[0195] 可选的,所述基于所述邮寄相关人和不同类别寄递物品的关联性识别寄递物品的风险等级,包括:
[0196] 计算整个测试集的寄递风险内品概率CA,
[0197] ,
[0198] 其中, ,
[0199] 表示寄递物品集 A 中物品的全部用户,  表示所有寄递物品集 B 中物品的用户, 表示为同时寄递物品集 A 中的物品又寄递了物品集 B 中的物品的用
户的数量, 表示所有寄递了物品集 A 中的物品的用户的总数, 表示某寄递面单
寄递风险内品的概率。
[0200] 假设内件数据集中有物品 a,b,c,d 其中 a 和 b 是属于类别 cat.1 的物品,c 和 d 则是属于类别 cat.2 的物品,(此处的a、b、c、d、cat.1、cat.2主要指物品的掩饰物,)
那么 a,b 和 c,d 就叫做异类物品。且物品 a 具有特征值,物品 b 具有特征值,物品 c 
具有特征值,物品 d 具有特征值。那么,对于某一个寄递用户A而言,若用户A历史曾寄递过
物品 b,假设物品b为带有涉毒风险的掩饰物,那么通过算法计算出 物品c,d 的特征值与 
b 相似,则物品 c 或者物品 d均有风险。
[0201] 基于算法进行深度推理,若某用户A(明确为风险人员)寄递过物品a(掩饰物),用户B(与用户A有关联关系,如:寄递关系、所属同一重点区域等),当用户B寄递物品a或与物
品a特征相似的物品b时,则该物品具有风险。
[0202] , 为物品名称,且这些物品属于类别1,
[0203] , 为物品名称,且这些物品属于类别2,
[0204] 为物品 的n个特征,
[0205] 为物品 的n个特征,
[0206] 为物品 的n个特征,
[0207] 为物品 的n个特征,
[0208] 为用户名称,
[0209] 为相似度参数,
[0210] 为相似度归一化结果,
[0211] 为所有物品特征值数量的均值,
[0212] 为用户的购买行为,
[0213] 为物品 和 出现相同特征值的次数,
[0214] 为物品 和 出现相同特征值的次数。
[0215] 采用本实施例的识别方法测试结果如表6所示,
[0216] 表6、测试结果表
[0217] 。
[0218] 其中freq为某类物品在寄递面单中出现的次数,当物品或掩饰物间具有一定的关联性时,平均风险识别率为 84.01%。识别方法如图4所示。
[0219] 如图5所示,一种寄递物品识别装置,包括:
[0220] 品名信息模块,用于获取寄递物品的品名信息;
[0221] 解析模块,用于对所述品名信息进行词语解析,得到所述品名的分词信息;
[0222] 对比模块,用于将所述分词信息的词语与预构建的特征词库进行对比,得到品名关联信息;
[0223] 识别模块,基于所述关联信息识别寄递物品的风险等级。
[0224] 本实施例还公开一种电子设备,包括存储器和处理器。该存储器用于存储非暂时性计算机可读指令。具体地,存储器可以包括一个或多个计算机程序产品,该计算机程序产
品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。该
易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非
易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
[0225] 该处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制电子设备中的其它组件以执行期望的功能。在本公
开的一个实施例中,该处理器用于运行该存储器中存储的该计算机可读指令,使得该电子
设备执行前述的本公开各实施例的寄递物品识别方法全部或部分步骤。
[0226] 本领域技术人员应能理解,为了解决如何获得良好用户体验效果的技术问题,本实施例中也可以包括诸如通信总线、接口等公知的结构,这些公知的结构也应包含在本公
开的保护范围之内。
[0227] 有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
[0228] 根据本公开实施例的计算机可读存储介质,其上存储有非暂时性计算机可读指令。当该非暂时性计算机可读指令由处理器运行时,执行前述的本公开各实施例的寄递物
品识别方法的全部或部分步骤。
[0229] 上述计算机可读存储介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存
储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
[0230] 有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
[0231] 以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的
各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作
用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0232] 在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实
际的关系或者顺序,本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子
并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人
员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、
“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所
使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如
此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0233] 另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B
和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
[0234] 还需要指出的是,在本公开的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
[0235] 可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事
件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的
功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组
成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件
的组成、手段、方法或动作。
[0236] 提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义
的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在
此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0237] 为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技
术人员将认识到其某些变型、修改、改变、添加和子组合。