地址文本处理方法和装置转让专利

申请号 : CN201910002386.2

文献号 : CN111400433B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘楚谢朋峻郑华飞李林琳司罗

申请人 : 阿里巴巴集团控股有限公司

摘要 :

本发明公开了一种地址文本处理方法和装置。其中,该方法包括:依据待处理地址文本获取第一类地址数据和第二类地址数据;将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对;对地址数据对中的第一类地址数据进行编码,得到数字向量;将数字向量与第二类地址数据进行压缩,得到语义向量;根据语义向量进行解压缩,得到满足条件的地址数据。本发明解决了由于现有技术中模板数量有限,导致的无法应对海量文本的技术问题。

权利要求 :

1.一种地址文本处理方法,包括:

依据待处理地址文本获取第一类地址数据和第二类地址数据;

将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对;

对所述地址数据对中的所述第一类地址数据进行编码,得到数字向量;

将所述数字向量与所述第二类地址数据进行压缩,得到语义向量;

根据所述语义向量进行解压缩,得到满足条件的地址数据;

其中,将所述数字向量与所述第二类地址数据进行压缩,得到语义向量包括:将所述数字向量设置为神经网络压缩模型的初始输入;

将所述第二类地址数据以字符序列形式与所述数字向量输入所述神经网络压缩模型,得到所述语义向量,其中,所述语义向量包括:第一类地址数据和第二类地址数据的数字向量;

其中,根据所述语义向量进行解压缩,得到满足条件的地址数据包括:将所述语义向量设置为神经网络解压缩模型的初始输入;

将所述语义向量输入所述神经网络解压缩模型,得到解压后的地址数据;

依据标准地址数据对所述解压后的地址数据进行同义优化,得到与标准地址数据同义的地址数据。

2.根据权利要求1所述的方法,所述方法还包括:依据所述待处理地址文本中地址数据的前置地址作为索引,将所述待处理地址文本中属于同一所述前置地址的地址数据进行归一化,得候选列表;

依据条件标记所述候选列表中的所述第一类地址数据和所述第二类地址数据,其中,所述第一类地址数据包括标准的POI地址数据;所述第二类地址数据包括非POI地址数据。

3.根据权利要求2所述的方法,其中,将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对包括:将属于同一兴趣地点的标记后的第一类地址数据和第二类地址数据进行合并,得到地址数据对。

4.根据权利要求3所述的方法,其中,所述将属于同一兴趣地点的标记后的第一类地址数据和第二类地址数据进行合并,得到地址数据对包括:依据数据格式将属于同一兴趣地点的标记后的第一类地址数据和第二类地址数据进行合并,得到所述地址数据对,其中,所述数据格式包括:前置地址、所述第一类地址数据、第二类地址数据和是否为同一兴趣地点。

5.根据权利要求4所述的方法,其中,所述方法还包括:从所述地址数据对中筛选属于同一兴趣地点的地址数据对。

6.根据权利要求5所述的方法,其中,对所述地址数据对中的所述第一类地址数据进行编码,得到数字向量包括:将所述第一类地址数据输入神经网络编码模型,得到所述数字向量。

7.根据权利要求1所述的方法,其中,所述方法还包括:将所述待处理地址文本进行编码,其中,所述编码包括:将所述待处理地址文本的字符串进行分词,并将分词后的字符串转换为地址数据;

根据聚合条件将所述地址数据进行聚合,得到地址数据库。

8.根据权利要求7所述的方法,其中,所述将所述待处理地址文本进行编码包括:将所述待处理地址文本做统一编码处理,所述编码方式至少包括如下之一:繁体转简体,全角字符转半角字符,大写转小写以及地址数据的标注,将所述待处理地址文本的字符串切割并格式化为地址数据。

9.一种地址文本处理装置,包括:

第一获取模块,用于依据待处理地址文本获取第一类地址数据和第二类地址数据;

合并模块,用于将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对;

编码模块,用于对所述地址数据对中的所述第一类地址数据进行编码,得到数字向量;

压缩模块,用于将所述数字向量与所述第二类地址数据进行压缩,得到语义向量;

第二获取模块,用于根据所述语义向量进行解压缩,得到满足条件的地址数据;

其中,所述压缩模块还用于将所述数字向量设置为神经网络压缩模型的初始输入,将所述第二类地址数据以字符序列形式与所述数字向量输入所述神经网络压缩模型,得到所述语义向量,其中,所述语义向量包括:第一类地址数据和第二类地址数据的数字向量;

所述第二获取模块还用于将所述语义向量设置为神经网络解压缩模型的初始输入,将所述语义向量输入所述神经网络解压缩模型,得到解压后的地址数据,依据标准地址数据对所述解压后的地址数据进行同义优化,得到与标准地址数据同义的地址数据。

10.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行:权利要求1所述的地址文本处理方法。

说明书 :

地址文本处理方法和装置

技术领域

[0001] 本发明涉及互联网技术领域,具体而言,涉及一种地址文本处理方法和装置。

背景技术

[0002] 在日常生活中,人们对于地址的描述通常是非标准化的,很少会使用类似“杭州市余杭区第一中学”这种标准的地址名,取而代之的是类似“余杭一中”,“第一中学”这种简称或别名。因此在基于地址文本的服务,例如,快递地址查询的服务中,需要具备兴趣点(Point Of Interest,简称POI)归一的功能,可以在特定区域内输入“余杭一中”和“第一中学”这种别名简称的时候能够召回“杭州市余杭区第一中学”。其中,POI归一化,是指将同一个语义的不同表达映射到一个标准说法的方法;
[0003] 在相关技术中,POI归一化可以采用定制模板的方式,即,人工模板的方式采用人工收集常用POI简写和别名,提取通用的简写和别名生成模板,当有新POI加入数据集之后,通过模板匹配的方式来确认是否为简写和别名,例如:“杭州市余杭区第一中学”提取模式为:“{district}第{idx}中学”。
[0004] 但是在该技术方案中模板的数量有限,无法应对海量文本。
[0005] 针对上述由于现有技术中模板数量有限,导致的无法应对海量文本的问题,目前尚未提出有效的解决方案。

发明内容

[0006] 本发明实施例提供了一种地址文本处理方法和装置,以至少解决由于现有技术中模板数量有限,导致的无法应对海量文本的技术问题。
[0007] 根据本发明实施例的一个方面,提供了一种地址文本处理方法,包括:依据待处理地址文本获取第一类地址数据和第二类地址数据;将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对;对地址数据对中的第一类地址数据进行编码,得到数字向量;将数字向量与第二类地址数据进行压缩,得到语义向量;根据语义向量进行解压缩,得到满足条件的地址数据。
[0008] 可选的,依据待处理地址文本获取第一类地址数据和第二类地址数据包括:依据待处理地址文本中地址数据的前置地址作为索引,将待处理地址文本中属于同一前置地址的地址数据进行归一化,得候选列表;依据条件标记候选列表中的第一类地址数据和第二类地址数据,其中,第一类地址数据包括满足条件的地址数据;第二类地址数据包括非条件的地址数据。
[0009] 进一步地,可选的,将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对包括:将属于同一兴趣地点的标记后的第一类地址数据和第二类地址数据进行合并,得到地址数据对。
[0010] 可选的,将属于同一兴趣地点的标记后的第一类地址数据和第二类地址数据进行合并,得到地址数据对包括:依据数据格式将属于同一兴趣地点的标记后的第一类地址数据和第二类地址数据进行合并,得到地址数据对,其中,数据格式包括:前置地址、第一类地址数据、第二类地址数据和是否为同一兴趣地点。
[0011] 进一步地,可选的,依据地址数据对中的第一类地址数据进行编码之前,该方法还包括:从地址数据对中筛选属于同一兴趣地点的地址数据对。
[0012] 可选的,依据地址数据对中的第一类地址数据进行编码,得到数字向量包括:将第一类地址数据输入神经网络编码模型,得到数字向量。
[0013] 进一步地,可选的,将数字向量与第二类地址数据进行压缩,得到语义向量包括:将数字向量设置为神经网络压缩模型的初始输入;将第二类地址数据以字符序列形式与数字向量输入神经网络压缩模型,得到语义向量,其中,语义向量包括:第一类地址数据和第二类地址数据的数字向量。
[0014] 可选的,根据语义向量进行解压缩,得到满足条件的地址数据包括:将语义向量设置为神经网络解压缩模型的初始输入;将语义向量输入神经网络解压缩模型,得到解压后的地址数据;依据标准地址数据对解压后的地址数据进行优化,得到与标准地址数据同义的地址数据。
[0015] 可选的,在依据待处理地址文本获取第一类地址数据和第二类地址数据之前,该方法还包括:将待处理地址文本进行编码,其中,编码包括:将待处理地址文本的字符串进行分词,并将分词后的字符串转换为地址数据;根据聚合条件将地址数据进行聚合,得到地址数据库。
[0016] 进一步地,可选的,将待处理地址文本进行编码包括:将待处理地址文本做统一编码处理,编码方式至少包括如下之一:繁体转简体,全角字符转半角字符,大写转小写以及地址数据的标注,将待处理地址文本的字符串切割并格式化为地址数据。
[0017] 根据本发明实施例的另一方面,还提供了一种地址文本处理装置,包括:第一获取模块,用于依据待处理地址文本获取第一类地址数据和第二类地址数据;合并模块,用于将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对;编码模块,用于对地址数据对中的第一类地址数据进行编码,得到数字向量;压缩模块,用于将数字向量与第二类地址数据进行压缩,得到语义向量;第二获取模块,用于根据语义向量进行解压缩,得到满足条件的地址数据。
[0018] 根据本发明实施例的又一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的地址文本处理方法。
[0019] 在本发明实施例中,通过依据待处理地址文本获取第一类地址数据和第二类地址数据;将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对;对地址数据对中的第一类地址数据进行编码,得到数字向量;将数字向量与第二类地址数据进行压缩,得到语义向量;根据语义向量进行解压缩,得到满足条件的地址数据,达到了无需人为定制模板规则的目的,从而实现了应对更广泛和海量的地址数据的技术效果,进而解决了由于现有技术中模板数量有限,导致的无法应对海量文本的技术问题。

附图说明

[0020] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0021] 图1是本发明实施例的一种地址文本处理方法的计算机终端的硬件结构框图;
[0022] 图2是根据本发明实施例一的地址文本处理方法的流程图;
[0023] 图3是根据本发明实施例一的地址文本处理方法中的地址压缩模型结构示意图;
[0024] 图4是根据本发明实施例一的一种地址文本处理方法的示意图;
[0025] 图5是根据本发明实施例二的地址文本处理装置的结构示意图。

具体实施方式

[0026] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0027] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0028] 本申请涉及的技术名词:
[0029] POI归一化:将同一个语义的不同表达映射到一个标准说法的方法,例如:将“A公司总部”,“A某园区”,“某园区”,“A某城”映射到“A公司某园区”;
[0030] 文本压缩:文本压缩是指用较少的表达来表示全部文本信息,可以将标准POI的别名和简称视为标准POI的一种文本压缩,例如“A某园区”是对“A公司某园区”的一种文本压缩;
[0031] RNN模型:即,Recurrent Neural Network,循环神经网络,一种深度学习模型,循环使用同一个计算单元来对一个序列输入得到一个序列输出,常用于时间序列和文本处理上。
[0032] 实施例1
[0033] 根据本发明实施例,还提供了一种地址文本处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0034] 本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种地址文本处理方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
[0035] 存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的地址文本处理方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的地址文本处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0036] 传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
[0037] 在上述运行环境下,本申请提供了如图2所示的地址文本处理方法。图2是根据本发明实施例一的地址文本处理方法的流程图。
[0038] 步骤S200,依据待处理地址文本获取第一类地址数据和第二类地址数据;
[0039] 本申请步骤S200中,第一类地址数据可以包括标准的POI地址数据;第二类地址数据可以包括非POI地址数据;在本申请实施例中待处理地址文本可以包括至少两条地址数据,其中,待处理地址文本可以为用户日常使用的地址别名,或地址缩略语,或标准的地址,这里标准的地址符合:“|省|市|区|道路|路号|POI|”的格式,例如,“|浙江省|杭州市|余杭区|文一西路|969号|A公司某园区|”就是标准的地址,而“|浙江省|杭州市|余杭区|文一西路|969号|A某园区|”则是用户习惯性对标准的地址的别名,即,非POI地址数据。
[0040] 因此,待处理地址文本可以包括“|浙江省|杭州市|余杭区|文一西路|969号|A公司某园区|”和/或“|浙江省|杭州市|余杭区|文一西路|969号|A某园区|”这类地址数据,或,前置地址一致却有着不同POI名称的地址数据,例如,“|浙江省|杭州市|余杭区|文一西路|969号|A某城|”,也可以包含有不同前置地址的地址数据,例如,“浙江省|杭州市|上城区|南山路|212号|XXX纪念馆|,|浙江省|杭州市|上城区|南山路|212号|纪念馆|,|浙江省|宁波市|鄞州区|宜园路|525号|XX家居|,|浙江省|宁波市|鄞州区|宜园路|245号|XXXXXX1期|,|浙江省|宁波市|鄞州区|宜园路|245号|XXXX1期|,|浙江省|宁波市|鄞州区|宜园路|245号|XXXXXX小区|,|浙江省|宁波市|鄞州区|宜园路|245号|XX花园|,|浙江省|宁波市|鄞州区|宜园路|245号|小区门口XX小吃|”。
[0041] 其中,将非POI的前置地址元素做索引,将同一个索引下的POI归纳为一个归一化候选列表,若是列表仅包含一个元素则去除,例如上述例子会形成如下形式:```python"浙江省杭州市余杭区文一西路969号":{["A公司某园区","A某城","某园区","A公司总部","亲橙里","星巴克"],"浙江省杭州市上城区南山路212号":["XXX纪念馆","纪念馆"],"浙江省宁波市鄞州区宜园路245号":["XXXXXX1期","XXXX1期","XXXXXX小区","XX花园","小区门口XX小吃"],...```
[0042] 将POI列表组合成pair进行人工标注,首先选择出标准的POI作为POI A,其余POI作为POI B,
[0043] 数据形式如下表所示:|前缀|POI A|POI B|是否为同一POI||:‑:|:‑:|:‑:|:‑:|[0044] |浙江省 杭州市 余杭区 文一西路969号|A公司某园区|A某城|yes|;
[0045] |浙江省 杭州市 余杭区 文一西路969号|A公司某园区|亲橙里|no|;
[0046] |浙江省 杭州市 余杭区 文一西路969号|A公司某园区|某园区|yes|;
[0047] |浙江省 杭州市 余杭区 文一西路969号|A公司某园区|A公司总部|yes|;
[0048] |浙江省 杭州市 余杭区 文一西路969号|A公司某园区|A某城|yes|;
[0049] |浙江省 杭州市 余杭区 文一西路969号|星巴克|亲橙里|no|;
[0050] |浙江省 杭州市 余杭区 文一西路969号|星巴克|A某城|no|。
[0051] 其中,POI A为本申请实施例中的第一类地址数据,POI B为本申请实施例中的第二类地址数据。
[0052] 步骤S202,将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对;
[0053] 本申请步骤S202中,依据步骤S200中得到的第一类地址数据和第二类地址数据,将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对,仍旧以上述示例为例,具体如下:
[0054] 将标注为yes的同一POI对筛选出来,形成每一行一个标准POI和非标准POI,[0055] 数据格式如下:
[0056] 地址数据对:“A公司某园区,A某城;A公司某园区,A公司总部;A公司某园区,A某城;”
[0057] “XXXXXX1期,XXXX1期;XXXXXX1期,XXXXXX小区;XXXXXX1期,XX花园;”[0058] “XXX纪念馆,纪念馆”。
[0059] 步骤S204,对地址数据对中的第一类地址数据进行编码,得到数字向量;
[0060] 本申请步骤S204中,对标准POI进行编码(即,本申请实施例中的第一类地址数据),标准POI以字符序列形式输入RNN编码模型,最终产出关于标准POI的一个高维度的数字向量。
[0061] 步骤S206,将数字向量与第二类地址数据进行压缩,得到语义向量;
[0062] 本申请步骤S206中,依据步骤S204中得到的数字向量,与第二类地址数据进行压缩,得到语义向量,其中,以第一类地址数据设置为压缩RNN压缩模型的初始状态,之后将非标准POI(即,本申请实施例中的第二类地址数据)以字符序列形式输入压缩模型,最终得到一个包含标准和非标准POI混合语义信息的数字向量,即,本申请实施例提供的语义向量。
[0063] 步骤S208,根据语义向量进行解压缩,得到满足条件的地址数据。
[0064] 本申请步骤S208中,压缩后的语义向量解压缩生成标准POI,对步骤S206中得到的混合语义模型向量作为RNN解压缩模型的初始输入,之后将RNN模型的生成序列对标原始的标准POI,也就是说整个模型将原始的标准POI作为目标来优化。当整个模型收敛后,指定标准POI便可以对任意输入是否能够重新生成标准POI来判定,该输入是否为标准POI的同义表示,从而达到POI归一的功能。
[0065] 综上,结合步骤S200至步骤S208,本申请实施例提供的地址文本处理方法可以适用于在线电商平台中对用户输入地址的维护,或,电子地图中对用户输入地址的维护。
[0066] 在本发明实施例中,通过依据待处理地址文本获取第一类地址数据和第二类地址数据;将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对;对地址数据对中的第一类地址数据进行编码,得到数字向量;将数字向量与第二类地址数据进行压缩,得到语义向量;根据语义向量进行解压缩,得到满足条件的地址数据,达到了无需人为定制模板规则的目的,从而实现了应对更广泛和海量的地址数据的技术效果,进而解决了由于现有技术中模板数量有限,导致的无法应对海量文本的技术问题。
[0067] 可选的,步骤S200中依据待处理地址文本获取第一类地址数据和第二类地址数据包括:
[0068] 步骤S2001,依据待处理地址文本中地址数据的前置地址作为索引,将待处理地址文本中属于同一前置地址的地址数据进行归一化,得候选列表;
[0069] 其中,依据前置地址作为索引,将待处理地址文本中属于同一前置地址的地址数据进行归一化,得候选列表具体如下:
[0070] 将格式化为地址元素的地址按不同级别的地址元素做聚合,形成类似如下的表格:
[0071] |省|市|区|道路|路号|poi|
[0072] |浙江省|杭州市|余杭区|文一西路|969号|A公司某园区|;
[0073] |浙江省|杭州市|余杭区|文一西路|969号|A某城|;
[0074] |浙江省|杭州市|余杭区|文一西路|969号|某园区|;
[0075] |浙江省|杭州市|余杭区|文一西路|969号|A公司总部|;
[0076] |浙江省|杭州市|余杭区|文一西路|969号|星巴克|;
[0077] |浙江省|杭州市|余杭区|文一西路|969号|亲橙里|;
[0078] |浙江省|杭州市|上城区|南山路|212号|XXX纪念馆|;
[0079] |浙江省|杭州市|上城区|南山路|212号|纪念馆|;
[0080] |浙江省|宁波市|鄞州区|宜园路|525号|XX家居|;
[0081] |浙江省|宁波市|鄞州区|宜园路|245号|XXXXXX1期|;
[0082] |浙江省|宁波市|鄞州区|宜园路|245号|XXXX1期|;
[0083] |浙江省|宁波市|鄞州区|宜园路|245号|XXXXXX小区|;
[0084] |浙江省|宁波市|鄞州区|宜园路|245号|XX花园|;
[0085] |浙江省|宁波市|鄞州区|宜园路|245号|小区门口XX小吃|。
[0086] 步骤S2002,依据条件标记候选列表中的第一类地址数据和第二类地址数据,其中,第一类地址数据包括满足条件的地址数据;第二类地址数据包括:非条件的地址数据。
[0087] 其中,第一类地址数据和第二类地址数据中所指的条件为是否满足“|省|市|区|道路|路号|POI|”数据格式的地址数据,且POI为标准的地址描述的地址数据,即,满足上述数据格式的为第一类地址数据,不满足上述数据格式的为第二类地址数据。
[0088] 进一步地,可选的,步骤S202中将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对包括:
[0089] 步骤S2021,将属于同一兴趣地点的标记后的第一类地址数据和第二类地址数据进行合并,得到地址数据对。
[0090] 其中,基于上述步骤S102中的示例,以步骤S102中的数据格式进行整理,得到地址数据对,数据格式如下:
[0091] “|前缀|POI A|POI B|是否为同一POI|”。
[0092] 可选的,步骤S2021中将属于同一兴趣地点的标记后的第一类地址数据和第二类地址数据进行合并,得到地址数据对包括:
[0093] 步骤S20211,依据数据格式将属于同一兴趣地点的标记后的第一类地址数据和第二类地址数据进行合并,得到地址数据对,其中,数据格式包括:前置地址、第一类地址数据、第二类地址数据和是否为同一兴趣地点。
[0094] 其中,如上述步骤S202中地址数据对的示例。
[0095] 进一步地,可选的,步骤S204中对地址数据对中的第一类地址数据进行编码之前,本申请实施例提供的地址文本处理方法还包括:
[0096] 步骤S203,从地址数据对中筛选属于同一兴趣地点的地址数据对。
[0097] 具体的,基于步骤S2001中的候选表,以非POI的前置地址元素做索引,将同一个索引下的POI归纳为一个归一化候选列表,若是列表仅包含一个元素则去除,进行归纳整理,得到如下数据格式:
[0098] python“浙江省杭州市余杭区文一西路969号”:{[“A公司某园区”,“A某城”,“A园区”,“A公司总部”,“亲橙里”,“星巴克”];
[0099] “浙江省杭州市上城区南山路212号”:[“XXX纪念馆”,“纪念馆”];
[0100] “浙江省宁波市鄞州区宜园路245号”:[“XXXXXX1期”,“XXXX1期”“, XXXXXX小区”,“XX花园”,“小区门口XX小吃”]。
[0101] 可选的,步骤S204中对地址数据对中的第一类地址数据进行编码,得到数字向量包括:
[0102] 步骤S2041,将第一类地址数据输入神经网络编码模型,得到数字向量。
[0103] 具体的,在本申请实施例中神经网络编码模型可以包括RNN编码模型,其中,RNN编码模型可以包括:一个双向LSTM,此模型可以有如下形式变种:‑RNN网络结构可以拓展为多层;‑每个RNN单元可以采用其他方式,例如:单向LSTM、vanilla RNN、GRU等;‑采用CNN结构替代编码过程。
[0104] 需要说明的是,本申请实施例提供的示例仅以上述为例进行说明,以实现本申请实施例提供的地址文本处理方法为准,具体不做限定。
[0105] 进一步地,可选的,步骤S206中将数字向量与第二类地址数据进行压缩,得到语义向量包括:
[0106] 步骤S2061,将数字向量设置为神经网络压缩模型的初始输入;
[0107] 步骤S2062,将第二类地址数据以字符序列形式与数字向量输入神经网络压缩模型,得到语义向量,其中,语义向量包括:第一类地址数据和第二类地址数据的数字向量。
[0108] 可选的,步骤S208中根据语义向量进行解压缩,得到满足条件的地址数据包括:
[0109] 步骤S2081,将语义向量设置为神经网络解压缩模型的初始输入;
[0110] 步骤S2082,将语义向量输入神经网络解压缩模型,得到解压后的地址数据;
[0111] 步骤S2083,依据标准地址数据对解压后的地址数据进行优化,得到与标准地址数据同义的地址数据。
[0112] 具体的,图3是根据本发明实施例一的地址文本处理方法中的地址压缩模型结构示意图。如图3所示,将第一类地址数据输入RNN编码模型进行编码,得到数字向量h_e;将该数字向量与第二类地址数据输入RNN压缩模型进行压缩,得到数字向量h_d,最后依据h_d通过RNN解压缩模型进行解压缩,得到标准的地址数据,即,指定标准POI便可以对任意输入是否能够重新生成标准POI来判定,该输入是否为标准POI的同义表示,从而达到POI归一的功能。
[0113] 可选的,在步骤S200中依据待处理地址文本获取第一类地址数据和第二类地址数据之前,本申请实施例提供的地址文本处理方法还包括:
[0114] 步骤S198,将待处理地址文本进行编码,其中,编码包括:将待处理地址文本的字符串进行分词,并将分词后的字符串转换为地址数据;
[0115] 步骤S199,根据聚合条件将地址数据进行聚合,得到地址数据库。
[0116] 进一步地,可选的,步骤S198中将待处理地址文本进行编码包括:将待处理地址文本做统一编码处理,编码方式至少包括如下之一:繁体转简体,全角字符转半角字符,大写转小写以及地址数据的标注,将待处理地址文本的字符串切割并格式化为地址数据。
[0117] 具体的,将待处理地址文本做统一编码处理,主要包括:繁体转简体,全角字符转半角字符大写转小写以及地址元素的标注,将地址文本的字符串切割并格式化为地址元素,例如:“浙江省杭州市余杭区文一西路969号A公司某园区1号楼7层910号”‑>“prov=浙江省city=杭州市district=余杭区road=文一西路roadno=969号poi=A公司某园区houseno=1号楼floorno=7层roomno=910号”;
[0118] 综上,本申请实施例提供的地址文本处理方法中,图4是根据本发明实施例一的一种地址文本处理方法的示意图,如图4所示,相较于传统的定制模板方式做POI归一的方式,本申请实施例提供的地址文本处理方法在以下两个方面进行优化:1.在模型训练的标注数据方面,仅需要标注少量的正样本即可,不需要专家对数据进行人为制订模板规则,减少了人力成本;2.模型压缩的方式提取了文本的潜在语义,使得模型具备更好的泛化性,可以应对更广泛和海量的地址数据。
[0119] 本申请实施例提供的地址文本处理方法将文本压缩的技术引入POI归一化问题,将POI的标准说法和POI别名视为同种语义的不同信息展现程度。通过对信息压缩模型和语义分类模型训练得到常见文本中对POI简写以及POI别名的语义模式,该模型能够应用于海量文本的的POI归一化词表的自动化建立,节省人力建表的成本的同时可以提高地址检索服务中的召回率,提高用户体验。
[0120] 在本申请实施例提供的地址文本处理方法中,海量地址文本数据的清洗和对POI做归纳需要通过Maxcompute计算得到;
[0121] POI对压缩模型以及压缩后的信息向量分类模型训练都需要采用Pytorch或Tensorflow(开源人工智能学习系统)搭建神经网络模型;
[0122] 地址库表(即,本申请实施例中的候选列表)的存储可以使用任何关系型数据库和非关系型数据库例如,MySQL、MongoDB等等。
[0123] 需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0124] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的地址文本处理方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0125] 实施例2
[0126] 根据本发明实施例,还提供了一种用于实施上述地址文本处理方法的装置,图5是根据本发明实施例二的地址文本处理装置的结构示意图,如图5所示,该装置包括:
[0127] 第一获取模块50,用于依据待处理地址文本获取第一类地址数据和第二类地址数据;合并模块52,用于将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对;编码模块54,用于对地址数据对中的第一类地址数据进行编码,得到数字向量;压缩模块56,用于将数字向量与第二类地址数据进行压缩,得到语义向量;第二获取模块58,用于根据语义向量进行解压缩,得到满足条件的地址数据。
[0128] 实施例3
[0129] 根据本发明实施例的又一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的地址文本处理方法。
[0130] 实施例4
[0131] 本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的地址文本处理方法所执行的程序代码。
[0132] 可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
[0133] 可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:依据待处理地址文本获取第一类地址数据和第二类地址数据;将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对;对地址数据对中的第一类地址数据进行编码,得到数字向量;将数字向量与第二类地址数据进行压缩,得到语义向量;根据语义向量进行解压缩,得到满足条件的地址数据。
[0134] 可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:依据待处理地址文本获取第一类地址数据和第二类地址数据包括:依据待处理地址文本中地址数据的前置地址作为索引,将待处理地址文本中属于同一前置地址的地址数据进行归一化,得候选列表;依据条件标记候选列表中的第一类地址数据和第二类地址数据,其中,第一类地址数据包括满足条件的地址数据;第二类地址数据包括非条件的地址数据。
[0135] 进一步地,可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将属于同一兴趣地点的第一类地址数据和第二类地址数据进行合并,得到地址数据对包括:将属于同一兴趣地点的标记后的第一类地址数据和第二类地址数据进行合并,得到地址数据对。
[0136] 可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将属于同一兴趣地点的标记后的第一类地址数据和第二类地址数据进行合并,得到地址数据对包括:依据数据格式将属于同一兴趣地点的标记后的第一类地址数据和第二类地址数据进行合并,得到地址数据对,其中,数据格式包括:前置地址、第一类地址数据、第二类地址数据和是否为同一兴趣地点。
[0137] 进一步地,可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:依据地址数据对中的第一类地址数据进行编码之前,从地址数据对中筛选属于同一兴趣地点的地址数据对。
[0138] 可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:依据地址数据对中的第一类地址数据进行编码,得到数字向量包括:将第一类地址数据输入神经网络编码模型,得到数字向量。
[0139] 进一步地,可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将数字向量与第二类地址数据进行压缩,得到语义向量包括:将数字向量设置为神经网络压缩模型的初始输入;将第二类地址数据以字符序列形式与数字向量输入神经网络压缩模型,得到语义向量,其中,语义向量包括:第一类地址数据和第二类地址数据的数字向量。
[0140] 可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据语义向量进行解压缩,得到满足条件的地址数据包括:将语义向量设置为神经网络解压缩模型的初始输入;将语义向量输入神经网络解压缩模型,得到解压后的地址数据;依据标准地址数据对解压后的地址数据进行优化,得到与标准地址数据同义的地址数据。
[0141] 可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在依据待处理地址文本获取第一类地址数据和第二类地址数据之前,将待处理地址文本进行编码,其中,编码包括:将待处理地址文本的字符串进行分词,并将分词后的字符串转换为地址数据;根据聚合条件将地址数据进行聚合,得到地址数据库。
[0142] 进一步地,可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将待处理地址文本进行编码包括:将待处理地址文本做统一编码处理,编码方式至少包括如下之一:繁体转简体,全角字符转半角字符,大写转小写以及地址数据的标注,将待处理地址文本的字符串切割并格式化为地址数据。
[0143] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0144] 在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0145] 在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0146] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0147] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0148] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0149] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。