一种地理要素自动分类方法及装置转让专利

申请号 : CN201910929375.9

文献号 : CN110674239B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘飒潘倩兮

申请人 : 中国航空无线电电子研究所

摘要 :

本发明公开了一种地理要素自动分类方法及装置,使用语料训练数据和预设的深度神经网络训练词向量模型;根据词向量模型确定预设地理要素分类类别的类别向量;根据词向量模型确定待分类地理要素的地理要素向量;计算地理要素向量与类别向量之间的相似度;将相似度满足预设条件的类别作为地理要素的类别。本发明解决了现有地理要素需要人工分类、时间人力成本花费大效率低等问题,实现地理要素分类的自动化与智能化。

权利要求 :

1.一种地理要素自动分类方法,其特征在于包括如下步骤:步骤S1:使用语料训练数据和预设的深度神经网络训练词向量模型;包含以下步骤:步骤S101、收集语料训练数据;

步骤S102、对语料训练数据先进行文本分词,再去掉停用词、低频词,最行进行整理,得到词向量模型训练样本;

步骤S103、将词向量模型训练样本输入预设的深度神经网络训练词向量模型;

步骤S2:根据词向量模型确定预设地理要素分类类别的类别向量;包含以下步骤:步骤S201、确定预设地理要素分类类别;

步骤S202、将预设地理要素分类类别输入到词向量模型中得到的词向量作为预设地理要素分类类别的类别向量;

步骤S3:根据词向量模型确定待分类地理要素的地理要素向量;包含以下步骤:步骤S301、提取待分类地理要素的中心词;

步骤S302、将待分类地理要素的中心词输入到词向量模型中得到的词向量作为待分类地理要素的地理要素向量;

步骤S4:计算以地理要素向量与类别向量之间夹角的余弦值作为地理要素向量与类别向量之间的相似度;

步骤S5:将相似度满足预设条件的类别作为地理要素的类别。

2.根据权利要求1所述一种地理要素自动分类方法,其特征在于所述步骤S5中,将相似度按照从大到小的顺序进行排序,设置分类阈值,如果相似度的最大值大于或等于分类阈值,则将相似度的最大值对应的地理要素分类类别作为待分类地理要素的类别。

3.一种地理要素自动分类装置,其特征在于包含训练模块、类别向量获取模块、地理要素向量获取模块、计算模块和分类模块;

训练模块用于收集语料训练数据,对语料训练数据先进行文本分词,再去掉停用词、低频词,最行进行整理,得到词向量模型训练样本;将词向量模型训练样本输入预设的深度神经网络训练词向量模型;

类别向量获取模块用于确定预设地理要素分类类别,将预设地理要素分类类别输入到词向量模型中得到的词向量作为预设地理要素分类类别的类别向量;

地理要素向量获取模块用于提取待分类地理要素的中心词,将待分类地理要素的中心词输入到词向量模型中得到的词向量作为待分类地理要素的地理要素向量;计算模块用于计算以地理要素向量与类别向量之间夹角的余弦值作为地理要素向量与类别向量之间的相似度;

分类模块用于将相似度满足预设条件的类别作为地理要素的类别。

说明书 :

一种地理要素自动分类方法及装置

技术领域

[0001] 本发明涉及人工智能领域,尤其涉及一种地理要素自动分类方法及装置。

背景技术

[0002] 地理要素是地图的地理内容,包括表示地球表面自然形态所包括的要素,如地貌、水系、植被和土壤等自然地理要素与人类在生产活动中改造自然界所形成的要素,如居民地、道路网、通信设备、工农业设施、经济文化和行政标志等社会经济要素。通常在军用数字地图源中,诸多地理要素处于同一个层级中,没有清晰的属性类别进行区分。因此在对数据可视化显示时,诸多地理要素只能用同样的符号标识,不利于用户区分;并且只能同时显示或者不显示,不利于缩放地图时的防拥控制。若能够根据要素名称对地理要素进行分类,对不同的类别标注不同的符号标识和不同等级的可见性控制,可以提高航空数字地图的可读性与可观性,实现地图的防拥功能,方便飞行员对地图信息进行分类查看与决策。然而目前地理要素分类仍依赖于手工分类,而仅仅对于中国区域内的数据源而来,需要分类的地理要素就达到上百万之多,手工分类不能完成,因此实现GIS地图地理要素自动分类至关重要。

发明内容

[0003] 本发明的发明目的在于提供一种地理要素自动分类方法及地理要素自动分类装置,采用无监督的方法实现地理要素的自动分类,解决现有地理要素需要人工分类、时间人力成本花费大效率低等问题,实现地理要素分类的自动化与智能化。
[0004] 本发明的发明目的一通过以下技术方案实现:
[0005] 一种地理要素自动分类方法,包括如下步骤:
[0006] 步骤S1:使用语料训练数据和预设的深度神经网络训练词向量模型;
[0007] 步骤S2:根据词向量模型确定预设地理要素分类类别的类别向量;
[0008] 步骤S3:根据词向量模型确定待分类地理要素的地理要素向量;
[0009] 步骤S4:计算地理要素向量与类别向量之间的相似度;
[0010] 步骤S5:将相似度满足预设条件的类别作为地理要素的类别。
[0011] 优选地,步骤S1包含以下步骤:
[0012] 步骤S101、收集语料训练数据;
[0013] 步骤S102、对语料训练数据先进行文本分词,再去掉停用词、低频词,最行进行整理,得到词向量模型训练样本;
[0014] 步骤S103、将词向量模型训练样本输入预设的深度神经网络训练词向量模型。
[0015] 优选地,步骤S2包含以下步骤:
[0016] 步骤S201、确定预设地理要素分类类别;
[0017] 步骤S202、将预设地理要素分类类别输入到词向量模型中得到的词向量作为预设地理要素分类类别的类别向量。
[0018] 优选地,步骤S3包含以下步骤:
[0019] 步骤S301、提取待分类地理要素的中心词;
[0020] 步骤S302、将待分类地理要素的中心词输入到词向量模型中得到的词向量作为待分类地理要素的地理要素向量。
[0021] 优选地,步骤S4中以地理要素向量与类别向量之间夹角的余弦值作为地理要素向量与类别向量之间的相似度。
[0022] 优选地,步骤S5中,将相似度按照从大到小的顺序进行排序,设置分类阈值,如果相似度的最大值大于或等于分类阈值,则将相似度的最大值对应的地理要素分类类别作为待分类地理要素的类别。
[0023] 本发明的发明目的二通过以下技术方案实现
[0024] 一种地理要素自动分类装置,包含训练模块、类别向量获取模块、地理要素向量获取模块、计算模块和分类模块;
[0025] 训练模块用于使用语料训练数据和预设的深度神经网络训练词向量模型;
[0026] 类别向量获取模块用于根据词向量模型,确定地理要素分类类别的类别向量;
[0027] 地理要素向量获取模块用于根据词向量模型,确定地理要素的地理要素向量;
[0028] 计算模块用于计算地理要素向量与类别向量之间的相似度;
[0029] 分类模块用于将相似度满足预设条件的类别作为地理要素的类别。
[0030] 本发明的有益效果在于:采用无监督的方法实现地理要素分类,无需人工标注训练数据,降低了人力成本;对地理要素实现自动分类,无需手工分类,提高了分类效率。

附图说明

[0031] 图1为实施例一所示的地理要素自动分类方法的主要流程示意图;
[0032] 图2为实施例二所示的地理要素自动分类装置的主要模块示意图。

具体实施方式

[0033] 为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0034] 实施例一
[0035] 参见图1所示,本实施例所示的地理要素自动分类方法包含以下步骤:
[0036] 步骤S1、使用语料训练数据和预设的深度神经网络训练词向量模型。具体包括:
[0037] 步骤S101、收集语料训练数据。
[0038] 使用训练词向量模型来对地理要素实现无监督分类需要大量的语料训练样本,由于地理要素是人为命名的一系列短语,使用地理要素数据训练词向量模型难以取得很好的效果,考虑到地理要素经常出现在新闻文本中,可以通过爬虫技术获取新闻文本作为语料训练样本,或者直接使用搜狗新闻语料集。在本实施例中,语料训练样本为中文文本,待分类地理要素为中文地理要素,在其他可选的实施例中,语料训练样本也可以为其他语言的文本,相应的,待分类地理要素也可以是其他语言的地理要素。
[0039] 步骤S102、对语料训练数据进行预处理。
[0040] 首先,需要对语料训练数据进行文本分词,得到语料训练数据的分词表示形式。可以利用中文分词工具LTP、jieba等对语料训练样本进行分词。
[0041] 其次,对分词表示形式去除停用词、低频词等,得到处理后的语料训练数据。
[0042] 最后,对处理后的语料训练数据进行整理,得到词向量模型训练样本,以满足预设的深度神经网络的输入和输出格式。
[0043] 步骤S103、将词向量模型训练样本输入预设的深度神经网络训练词向量模型。
[0044] word2vec是Google在2013年开源的一种无监督词向量算法,利用预设的深度神经网络可以将训练样本中的每个词语用几百维的向量来表示。word2vec有两种训练模型:CBOW模型和skip‑gram模型。CBOW模型是通过上下词预测当前词,而skip‑gram模型是通过当前词预测上下文。在本实施例中,可以使用word2vec中的CBOW模型或skip‑gram模型,使用词向量模型训练样本,训练词向量模型。
[0045] 步骤S2、根据词向量模型确定预设地理要素分类类别的类别向量。具体包括:
[0046] 步骤S201、确定预设地理要素分类类别。
[0047] 根据实际需求,确定预设的地理要素分类类别关键词,例如:学校、医院、制造业、文化景点等。
[0048] 步骤S202、确定预设地理要素分类类别的类别向量。
[0049] 根据词向量模型,获取预设地理要素分类类别关键词的词向量,作为预设地理要素分类类别的类别向量。例如预设一个地理要素分类类别“学校”,将分类类别关键词“学校”输入到词向量模型中,得到一个300维的向量vec(“学校”),将向量vec(“学校”)作为预设的地理要素分类类别“学校”的类别向量。
[0050] 步骤S3、根据词向量模型确定待分类地理要素的地理要素向量。具体包括:
[0051] 步骤S301、提取待分类地理要素的中心词。
[0052] 待分类地理要素一般是人为命名的一系列短语,由修饰语和表示属性的中心词组成,中心词一般位于地理要素的末尾,以名词居多,例如地理要素“石桥中学”由修饰语“石桥”和中心词“中学”表示。例如,可以利用中文分词工具LTP、jieba等对待分类地理要素进行分词,将分词后得到的最后一个名词作为待分类地理要素的中心词。
[0053] 步骤S302、确定待分类地理要素的地理要素向量。
[0054] 根据词向量模型,获取待分类地理要素的中心词的词向量,作为待分类地理要素的地理要素向量。例如待分类地理要素“石桥中学”的中心词为“中学”,将中心词“中学”输入到词向量模型中,得到一个300维的向量vec(“中学”),将向量vec(“中学”)作为待分类地理要素“石桥中学”的地理要素向量。
[0055] 步骤S4、计算地理要素向量与类别向量之间的相似度,例如,可以计算地理要素向量与类别向量之间夹角的余弦值作为地理要素向量与类别向量之间的相似度。
[0056] 步骤S5、将相似度满足预设条件的类别作为待分类地理要素的类别,具体包括:将相似度按照从大到小的顺序进行排序,设置分类阈值,如果相似度的最大值大于或等于分类阈值,则将相似度的最大值对应的地理要素分类类别作为待分类地理要素的类别。
[0057] 实施例二
[0058] 参见图2所示,本实施例所示的地理要素自动分类装置包括训练模块、类别向量获取模块、地理要素向量获取模块、计算模块和分类模块。
[0059] 训练模块用于使用语料训练数据和预设的深度神经网络训练词向量模型,具体包括:
[0060] (1)收集语料训练数据。
[0061] 使用训练词向量模型来对地理要素实现无监督分类需要大量的语料训练样本,由于地理要素是人为命名的一系列短语,使用地理要素数据训练词向量模型难以取得很好的效果,考虑到地理要素经常出现在新闻文本中,可以通过爬虫技术获取新闻文本作为语料训练样本,或者直接使用搜狗新闻语料集。在本实施例中,语料训练样本为中文文本,待分类地理要素为中文地理要素,在其他可选的实施例中,语料训练样本也可以为其他语言的文本,相应的,待分类地理要素也可以是其他语言的地理要素。
[0062] (2)对语料训练数据进行预处理。
[0063] 首先,需要对语料训练数据进行文本分词,得到语料训练数据的分词表示形式。可以利用中文分词工具LTP、jieba等对语料训练样本进行分词。
[0064] 其次,对分词表示形式去除停用词、低频词等,得到处理后的语料训练数据。
[0065] 最后,对处理后的语料训练数据进行整理,得到词向量模型训练样本,以满足预设的深度神经网络的输入和输出格式。
[0066] (3)利用预设的深度神经网络训练词向量模型。
[0067] word2vec是Google在2013年开源的一种无监督词向量算法,利用预设的深度神经网络可以将训练样本中的每个词语用几百维的向量来表示。word2vec有两种训练模型:CBOW模型和skip‑gram模型。CBOW模型是通过上下词预测当前词,而skip‑gram模型是通过当前词预测上下文。在本实施例中,可以使用word2vec中的CBOW模型或skip‑gram模型,使用词向量模型训练样本,训练词向量模型。
[0068] 类别向量获取模块用于根据词向量模型,确定地理要素分类类别的类别向量,具体包括:
[0069] 确定预设地理要素分类类别。
[0070] 根据实际需求,确定预设的地理要素分类类别关键词,例如:学校、医院、制造业、文化景点等。
[0071] 确定预设地理要素分类类别的类别向量。
[0072] 根据词向量模型,获取预设地理要素分类类别关键词的词向量,作为预设地理要素分类类别的类别向量。例如预设一个地理要素分类类别“学校”,将分类类别关键词“学校”输入到词向量模型中,得到一个300维的向量vec(“学校”),将向量vec(“学校”)作为预设的地理要素分类类别“学校”的类别向量。
[0073] 地理要素向量获取模块用于根据词向量模型,确定地理要素的地理要素向量,具体包括:
[0074] (1)提取待分类地理要素的中心词。
[0075] 待分类地理要素一般是人为命名的一系列短语,由修饰语和表示属性的中心词组成,中心词一般位于地理要素的末尾,以名词居多,例如地理要素“石桥中学”由修饰语“石桥”和中心词“中学”表示。例如,可以利用中文分词工具LTP、jieba等对待分类地理要素进行分词,将分词后得到的最后一个名词作为待分类地理要素的中心词。
[0076] (2)确定待分类地理要素的地理要素向量。
[0077] 根据词向量模型,获取待分类地理要素的中心词的词向量,作为待分类地理要素的地理要素向量。例如待分类地理要素“石桥中学”的中心词为“中学”,将中心词“中学”输入到词向量模型中,得到一个300维的向量vec(“中学”),将向量vec(“中学”)作为待分类地理要素“石桥中学”的地理要素向量。
[0078] 计算模块用于计算地理要素向量与类别向量之间的相似度,例如,可以计算地理要素向量与类别向量之间夹角的余弦值作为地理要素向量与类别向量之间的相似度。
[0079] 分类模块用于将相似度满足预设条件的类别作为地理要素的类别,具体包括:将相似度按照从大到小的顺序进行排序,设置分类阈值,如果相似度的最大值大于或等于分类阈值,则将相似度的最大值对应的地理要素分类类别作为待分类地理要素的类别。