一种基于图嵌入与CRF知识融入的地址要素识别方法转让专利

申请号 : CN202110746162.X

文献号 : CN113255346B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 毛星亮陈晓红路毅恒徐雪松李芳芳

申请人 : 湖南工商大学

摘要 :

本发明涉及一种基于图嵌入与CRF知识融入的地址要素识别方法,具体包括如下步骤:S1:构建地址要素关系图;S2:图嵌入模型输出地址要素的向量表征;S3:统计语料中各类地址要素之间的转移矩阵;S4:将S3中的转移矩阵作为CRF模型的转移矩阵;S5:由Word2Vec词嵌入模型输出地址要素的向量表征;S6:构建并训练一个BiLSTM模型,输出抽取出的地址要素的向量表征;S7:将S6中输出的地址要素的向量表征输入S4中的CRF模型,得到地址要素的最终识别结果。本发明能从两个角度融入地址要素相关的先验知识,加速模型收敛,提升模型的精度。

权利要求 :

1.一种基于图嵌入与CRF知识融入的地址要素识别方法,其特征在于,具体包括如下步骤:

S1:构建地址要素关系图;

S2:构建并训练一个图嵌入模型,向图嵌入模型输入S1中的地址要素关系图,由图嵌入模型输出地址要素关系图中的地址要素的向量表征;

S3:统计语料中各类地址要素之间的转移概率,从而形成一个转移矩阵;

S4:构建一个CRF模型,在CRF模型初始化时,将S3中的转移矩阵作为CRF模型的转移矩阵;

S5:构建并训练一个Word2Vec词嵌入模型,向词嵌入模型输入地址要素文本,由词嵌入模型输出地址要素文本中的地址要素的向量表征;

S6:构建并训练一个BiLSTM模型,使用S2中与S5中输出的地址要素的向量表征,共同作为BiLSTM模型的输入,由BiLSTM模型抽取出语料中的地址要素,输出抽取出的地址要素的向量表征;

S7:将S6中输出的地址要素的向量表征输入S4中的CRF模型对其进行训练,通过收敛后的CRF模型,得到地址要素的最终识别结果;

S3中,转移矩阵,公式(1):                                  (1)其中,t是地址要素的总的种类数,ni,j表示第i类地址要素后面是第j类地址要素的样本的数量。

2.根据权利要求1所述的基于图嵌入与CRF知识融入的地址要素识别方法,其特征在于,S1中:

所述地址要素关系图包括:全国行政区划图,其中的市与对应的省连线。

3.根据权利要求1所述的基于图嵌入与CRF知识融入的地址要素识别方法,其特征在于,S2中:

所述图嵌入模型中具有Node2Vec网络,设定采样策略,按照采样策略对地址要素关系图进行序列采样,获得序列训练Node2Vec网络,由Node2Vec网络输出地址要素的向量表征。

说明书 :

一种基于图嵌入与CRF知识融入的地址要素识别方法

技术领域

[0001] 本发明涉及一种基于图嵌入与CRF知识融入的地址要素识别方法。

背景技术

[0002] 网络上存在大量与地址信息相关的文本,如物流服务、智慧城市建设,都需要涉及到地址要素的提取与分析。
[0003] 地址要素识别可以分为传统的基于字符匹配的方法、基于统计机器学习与目前主流的基于深度学习的方法。传统的基于字符匹配的方法需要人为设计特定的规则识别其中
的关键字,针对某类比较规范的地址可以取得较好效果,但是费时费力,而且适用场景有
限,不能识别未登录词。后来统计机器学习的方法一定程度上避免了人工规则的设计,能取
得不错的效果,但是提取到的语义信息有限。有些是同时使用规则匹配与统计机器学习方
法,在原有基础上得到提升。
[0004] 之前基于深度学习的地址要素识别方法忽略了先验知识的融入,因此模型收敛速度较慢,同时也一定程度上影响了模型的精度。
[0005] 现有技术中存在的问题:1.现有进行地址要素识别的深度学习方法,没有同时考虑到地址要素的同质性和结构性信息。2.现有的地址要素识别方法中虽然使用了条件随机
场,有些是使用了字符间的转移概率,但是忽略了先验的不同种类地址要素之间的转移概
率。

发明内容

[0006] 本发明的目的是提供一种基于图嵌入与CRF知识融入的地址要素识别方法,使用深度学习方法不仅避免了人工设计规则,自动提取地址文本的深层语义,同时从两个角度
融入地址要素相关的先验知识,加速模型收敛,提升模型的精度。
[0007] 为达到上述目的而采用了一种基于图嵌入与CRF知识融入的地址要素识别方法,具体包括如下步骤:
[0008] S1:构建地址要素关系图;
[0009] S2:构建并训练一个图嵌入模型,向图嵌入模型输入S1中的地址要素关系图,由图嵌入模型输出地址要素关系图中的地址要素的向量表征;
[0010] S3:统计语料中各类地址要素之间的转移矩阵;
[0011] S4:构建一个CRF模型,在CRF模型初始化时,将S3中的转移矩阵作为CRF模型的转移矩阵;
[0012] S5:构建并训练一个Word2Vec词嵌入模型,向词嵌入模型输入地址要素文本,由词嵌入模型输出地址要素文本中的地址要素的向量表征;
[0013] S6:构建并训练一个BiLSTM模型,使用S2中与S5中输出的地址要素的向量表征,共同作为BiLSTM模型的输入,由BiLSTM模型抽取出语料中的地址要素,输出抽取出的地址要
素的向量表征;
[0014] S7:将S6中输出的地址要素的向量表征输入S4中的CRF模型对其进行训练,通过收敛后的CRF模型,得到地址要素的最终识别结果。
[0015] 作为本发明基于图嵌入与CRF知识融入的地址要素识别方法进一步的改进,S1中:
[0016] 所述地址要素关系图包括:全国行政区划图,其中的市与对应的省连线。
[0017] 作为本发明基于图嵌入与CRF知识融入的地址要素识别方法进一步的改进,S2中:
[0018] 所述图嵌入模型中具有Node2Vec网络,设定采样策略,按照采样策略对地址要素关系图进行序列采样,获得序列训练Node2Vec网络,由Node2Vec网络输出地址要素的向量
表征。
[0019] 作为本发明基于图嵌入与CRF知识融入的地址要素识别方法进一步的改进,S3中,转移矩阵,如公式(1):
[0020]                                   (1)
[0021] 其中,t是地址要素的总的种类数,ni,j表示第i类地址要素后面是第j类地址要素的样本的数量。
[0022] 本发明的有益效果如下:
[0023] (1)在地址要素识别任务中,本发明提出了一个基于图嵌入与CRF知识融入的地址要素识别方法。
[0024] (2)本发明解决了在地址要素识别过程中先验知识不足,精度较低的问题。
[0025] (3)本发明构造了一个表示行政区划的地址要素关系图,来表示各个地址要素之间的关系,然后使用Node2Vec算法学习地址要素的同质性和结构性特征,从而融入各个地
址要素的同质性和结构性相关的先验知识。
[0026] (4)该方法对语料中各类地址要素之间的转移概率进行统计,然后将其作为条件随机场(Conditional Random Fields,CRF)的转移矩阵,从而融入先验知识。
[0027] (5)经试验表明,基于图嵌入与CRF知识融入的地址要素识别方法能有效提高地址要素识别的精度。

附图说明

[0028] 图1为基于图嵌入与CRF知识融入的地址要素识别方法主要步骤。
[0029] 图2为地址要素关系图。

具体实施方式

[0030] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0031] 在本发明的描述中,需要说明的是,术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅
是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的
方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、 “第二”、 
“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定
和限定,术语“安装”、 “相连”、 “连接”应做广义理解,例如,可以是固定连接,也可以是可
拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过
中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具
体情况理解上述术语在本发明中的具体含义。
[0032] 1.基于图嵌入与CRF知识融入的地址要素识别方法及其步骤,如图1所示。地址要素识别网络包含BiLSTM和CRF两部分,前一部分为BiLSTM,后一部分为CRF。
[0033] 1.1 基于图嵌入表征地址要素的知识融入;
[0034] 训练地址要素的向量表征的具体步骤:
[0035] 步骤一:构建地址要素关系图,如图2。
[0036] 步骤二:使用图嵌入中的Node2Vec算法,首先根据采样策略对地址要素关系图进行序列采样,然后使用神经网络对这些序列进行学习,获取地址要素的向量表征。
[0037] 优点:同时考虑到地址要素的同质性和结构性信息。
[0038] 1.2基于CRF模型的地址要素关系知识融入;
[0039] 基于CRF模型的地址要素关系知识融入的具体步骤:
[0040] 步骤一:统计语料中各类地址要素之间的转移矩阵。如公式(1):
[0041]                                             (1)
[0042] 其中,t是地址要素的总的种类数,ni,j表示第i类地址要素后面是第j类地址要素的样本的数量。
[0043] 步骤二:在模型初始化时,将上一步骤所得转移矩阵作为CRF模型的转移矩阵。
[0044] 优点:使模型在初始化时拥有正确的先验知识,提升模型性能,加速模型收敛。
[0045] 1.3 地址要素识别网络
[0046] 步骤一:使用Node2Vec算法训练得到的地址要素向量表征作为输入的一部分,同时也使用Word2Vec训练地址要素的向量表征,共同作为模型的输入。
[0047] 步骤二:使用BiLSTM抽取地址文本的语义特征。
[0048] 步骤三:使用含有先验知识的CRF模型处理BiLSTM得到的结果,并得到最终结果。
[0049] 本发明融入了地址要素相关的先验知识,不仅帮助模型学习到地址要素关键特征,而且缩小了模型的搜索空间,防止了模型的过拟合。其中基于地址要素关系的图嵌入模
型使用Node2Vec的有偏性采样策略,使用深度优先遍历和广度优先遍历相结合的方式,综
合考虑地址要素关系图中的同质性和结构性,从而获取更加完整有效的地址要素向量表
征。基于地址要素关系的CRF模型是指通过统计语料中各类地址要素的状态转移概率来获
取地址要素之间关系的先验知识,然后将其作为CRF层中的状态转移概率矩阵的初始值。
[0050] 本发明在深圳地址数据集和湖南‑江苏地址匹配数据集上进行实验,并对结果进行分析,说明基于CRF与图嵌入的知识融入方法的可靠性。
[0051] 以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱
离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应
当视为属于本发明的保护范围之内。