一种城市交通出行的稀疏数据特征分析方法和系统转让专利

申请号 : CN202310490984.5

文献号 : CN116206452B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘剑锋邓进孙永亮杨冠华郝伯炎

申请人 : 北京城建交通设计研究院有限公司

摘要 :

本发明公开了一种城市交通出行的稀疏数据特征分析方法和系统,所述方法包括:对调查人员进行出行调查,获取调查数据集;对采集的城市出行的稀疏数据进行融合,获取融合数据集对调查人员进行初步分析;根据调查数据集和融合数据集进行监督学习,获得稀疏数据特征数据集,并最终得到居民的出行特征。将传统交通调查与城市交通大数据分析进行融合,实现对城市多源稀疏数据特征的精准分析,获得城市居民的准确出行特征。

权利要求 :

1.一种城市交通出行的稀疏数据特征分析方法,其特征在于,包括:对调查人员进行出行调查,获取调查数据集;

对采集的城市出行的稀疏数据进行融合,获取融合数据集对调查人员进行初步分析;

根据调查数据集和融合数据集进行监督学习,获得稀疏数据特征数据集,并最终得到准确的居民出行特征;

其中,根据调查数据集和融合数据集进行监督学习,获得稀疏数据特征数据集,并最终得到准确的居民出行特征;包括:基于调查数据集,提取调查人员的完整出行数据,对所述完整出行数据中的出行特征进行划分和标记,获取到标签数据集;

基于所述融合数据集进行融合自学习,获取自学习数据集;

根据所述自学习数据集和标签数据集,通过半监督学习训练深度学习网络,获得特征识别模型;

基于特征识别模型,根据调查数据集和融合数据集中的特征标签进行自适应学习,获得所述稀疏数据特征数据集;

其中,所述调查数据集包括设备采集数据和用户登记数据;

所述稀疏数据包括手机信令数据、互联网出行数据、浮动车移动位置数据、公交出行数据和共享单车运行数据;

所述稀疏数据中的各类数据均包括对应的特征属性和自然标签。

2.根据权利要求1所述的一种城市交通出行的稀疏数据特征分析方法,其特征在于,所述设备采集数据通过移动位置设备采集调查人员的出行位置数据获取;

所述用户登记数据通过问卷调查收集调查人员的出行信息获取;

其中,所述出行位置数据包括调查人员的出行轨迹以及对应的时刻数据。

3.根据权利要求1或2所述的一种城市交通出行的稀疏数据特征分析方法,其特征在于,对采集的城市出行的稀疏数据进行融合,获取融合数据集对调查人员进行初步分析,包括,将所述稀疏数据中各类数据的特征属性,分别融合地理空间数据,获取融合数据集;

根据融合数据集,获取调查人员的多维度出行信息,并对调查人员的交通出行构建用户预先画像;

根据所述用户预先画像,对调查人员进行初步分析,获得用户类型。

4.根据权利要求3所述的一种城市交通出行的稀疏数据特征分析方法,其特征在于,所述地理空间数据包括:POI数据、AOI数据、建筑体信息;

所述融合数据集包括所述稀疏数据和特征标签;

所述特征标签包括出行方式、出行目的、出行距离、出行时耗和OD分布方式。

5.根据权利要求1或4所述的一种城市交通出行的稀疏数据特征分析方法,所述出行特征包括出行目的、出行方式、出行次数。

6.根据权利要求5所述的一种城市交通出行的稀疏数据特征分析方法,其特征在于,在特征识别模型的训练过程中,对特征识别模型的损失函数迭代计算。

7.根据权利要求6所述的一种城市交通出行的稀疏数据特征分析方法,其特征在于,基于所述融合数据集进行融合自学习,获取自学习数据集,包括:基于所述融合数据集对所述稀疏数据进行自学习;

基于调查人员出行的数据特征和标签数据,分别对所述稀疏数据中各类数据的特征标签进行融合自学习,并标记伪标签,获取自学习数据集。

8.根据权利要求6所述的一种城市交通出行的稀疏数据特征分析方法,其特征在于,对特征识别模型的损失函数迭代计算,包括,基于标签数据集和自学习数据集进行损失计算,所述损失函数为:其中,Loss表示损失函数,表示学习过程中的损失; 表示调查数据集的样本数量,表示调查数据集; 表示城市出行的稀疏数据的样本数量, 表示城市出行的稀疏数据;

表示出行特征类别数量,C代表出行特征类别; 表示调查数据集中第m个样本的第i个特征的实际特征编码向量; 表示调查数据集中第m个样本的第i个特征的预测特征的编码向量; 表示所述稀疏数据中第 个样本的第i个特征的实际特征编码向量; 表示所述稀疏数据中第 个样本的第i个特征的预测特征编码向量; 表示无标签损失的权重参数,迭代过程中,随着迭代的进行,逐步增加。

9.一种城市交通出行的稀疏数据特征分析系统,其特征在于,包括:采集单元、融合单元和获取单元,所述采集单元,用于采集调查人员的出行数据,获取调查数据集;

所述融合单元,用于对采集的城市出行的稀疏数据进行融合,获取融合数据集对调查人员进行初步分析;

所述获取单元,用于根据调查数据集和融合数据集进行监督学习,获得稀疏数据特征数据集,并最终得到准确的居民出行特征;

其中,根据调查数据集和融合数据集进行监督学习,获得稀疏数据特征数据集,并最终得到准确的居民出行特征;包括:基于调查数据集,提取调查人员的完整出行数据,对所述完整出行数据中的出行特征进行划分和标记,获取到标签数据集;

基于所述融合数据集进行融合自学习,获取自学习数据集;

根据所述自学习数据集和标签数据集,通过半监督学习训练深度学习网络,获得特征识别模型;

基于特征识别模型,根据调查数据集和融合数据集中的特征标签进行自适应学习,获得所述稀疏数据特征数据集;

其中,所述调查数据集包括设备采集数据和用户登记数据;

所述稀疏数据包括手机信令数据、互联网出行数据、浮动车移动位置数据、公交出行数据和共享单车运行数据;

所述稀疏数据中的各类数据均包括对应的特征属性和自然标签。

说明书 :

一种城市交通出行的稀疏数据特征分析方法和系统

技术领域

[0001] 本发明涉及数据分析技术领域,尤其涉及一种城市交通出行的稀疏数据特征分析方法和系统。

背景技术

[0002] 交通出行是城市中居民日常活动中必不可少的过程和环节,城市中从人群到个体,都按自身条件和需求选择出行时间、出行方式和出行目的等。比如,工薪阶级往往选择公共交通(包含地铁、公交等),有车家庭通常将私家车作为代步工具,而外卖员和快递员通常通过电瓶车、三轮车等交通工具在多个节点之间穿行。随着互联网及移动设备的普及,通过移动互联设备的手段,可以对城市中居民群体的出行位置、时间等数据进行高精度的采集,这种采集数据具有范围大、精度高、特征准的特点。例如:手机信令数据、浮动车移动位置数据、互联网出行数据(通过移动端APP应用获取用户位置)、公共交通运行数据等;
[0003] 然而城市交通运营方、交通规划咨询方、出行服务方、互联网服务方等在日常生产过程中,面临相关需求时,通常会从移动数据服务商采购数据,用以分析数据的成果。而受限于数据采集技术条件、经费、隐私保护等方面因素,往往采购的数据是稀疏数据;以上几种采集的数据,单从精度、的角度均可技术实现出行调查,但从融合的角度来说,很难实现面向城市稀疏数据的全面分析。
[0004] 因此在城市交通数据分析领域,如何准确识别城市居民出行的特征,并进一步实现交通供给能力的精准匹配,是亟需解决的问题。

发明内容

[0005] 本发明目的在于提供一种城市交通出行的稀疏数据特征分析方法和系统,将传统交通调查与城市交通大数据分析进行融合,实现对城市多源稀疏数据特征的精准分析,获得城市居民的准确出行特征。
[0006] 为实现上述目的,本发明提供一种城市交通出行的稀疏数据特征分析方法,包括:
[0007] 对调查人员进行出行调查,获取调查数据集;
[0008] 对采集的城市出行的稀疏数据进行融合,获取融合数据集对调查人员进行初步分析;
[0009] 根据调查数据集和融合数据集进行监督学习,获得稀疏数据特征数据集,并最终得到准确的居民出行特征。
[0010] 进一步的,所述调查数据集包括设备采集数据和用户登记数据;
[0011] 所述设备采集数据通过移动位置设备采集调查人员的出行位置数据获取;
[0012] 所述用户登记数据通过问卷调查收集调查人员的出行信息获取;
[0013] 其中,所述出行位置数据包括调查人员的出行轨迹以及对应的时刻数据。
[0014] 进一步的,所述稀疏数据包括手机信令数据、互联网出行数据、浮动车移动位置数据、公交出行数据和共享单车运行数据;
[0015] 所述稀疏数据中的各类数据均包括对应的特征属性和自然标签。
[0016] 进一步的,对采集的城市出行的稀疏数据进行融合,获取融合数据集对调查人员进行初步分析,包括,
[0017] 将所述稀疏数据中各类数据的特征属性,分别融合地理空间数据,获取融合数据集;
[0018] 根据融合数据集,获取调查人员的多维度出行信息,并对调查人员的交通出行构建用户预先画像;
[0019] 根据所述用户预先画像,对调查人员进行初步分析,获得用户类型。
[0020] 进一步的,所述地理空间数据包括:POI数据、AOI数据、建筑体信息;
[0021] 所述融合数据集包括所述稀疏数据和特征标签;
[0022] 所述特征标签包括出行方式、出行目的、出行距离、出行时耗和OD分布方式。
[0023] 进一步的,在获取所述稀疏数据特征数据集之前,还包括对所述调查数据集进行预处理:
[0024] 基于用户登记数据和设备采集数据,提取调查人员的完整出行数据;
[0025] 对所述完整出行数据中的出行特征进行划分和标记,获取到标签数据集;
[0026] 其中,所述出行特征包括出行目的、出行方式、出行次数。
[0027] 进一步的,根据调查数据集和融合数据集进行监督学习,获得所述稀疏数据特征数据集,包括,
[0028] 基于所述融合数据集进行融合自学习,获取自学习数据集;
[0029] 根据所述自学习数据集和标签数据集,通过半监督学习训练深度学习网络,获得特征识别模型;
[0030] 在特征识别模型的训练过程中,对特征识别模型的损失函数迭代计算;
[0031] 基于特征识别模型,根据调查数据集和融合数据集中的特征标签进行自适应学习,最终获得所述稀疏数据特征数据集。
[0032] 进一步的,基于所述融合数据集进行融合自学习,获取自学习数据集,包括:
[0033] 基于所述融合数据集对所述稀疏数据进行自学习;
[0034] 基于调查人员出行的数据特征和标签数据,分别对所述稀疏数据中各类数据的特征标签进行融合自学习,并标记伪标签,获取自学习数据集。
[0035] 进一步的,对特征识别模型的损失函数迭代计算,包括,
[0036] 基于标签数据集和自学习数据集进行损失计算,所述损失函数为:
[0037]
[0038] 其中, 表示损失函数,表示学习过程中的损失, 表示调查数据集的样本数量,表示调查数据集; 表示城市出行的稀疏数据的样本数量,表示城市出行的稀疏数据;表示出行特征类别数量,C代表出行特征类别; 表示调查数据集中第m个样本的第i个特征的实际特征编码向量; 表示调查数据集中第m个样本的第i个特征的预测特征的编码向量; 表示所述稀疏数据中第 个样本的第i个特征的实际特征编码向量;;表示所述稀疏数据中第 个样本的第i个特征的预测特征编码向量; 表示无标签损失的权重参数,迭代过程中,随着迭代的进行,逐步增加。
[0039] 基于同一发明构思,本发明还提供一种城市交通出行的稀疏数据特征分析系统,包括:采集单元、融合单元和获取单元,
[0040] 所述采集单元,用于采集调查人员的出行数据,获取调查数据集;
[0041] 所述融合单元,用于对采集的城市出行的稀疏数据进行融合,获取融合数据集对调查人员进行初步分析;
[0042] 所述获取单元,用于根据调查数据集和融合数据集进行监督学习,获得稀疏数据特征数据集,并最终得到准确的居民出行特征。
[0043] 本发明的技术效果和优点:1、利用移动位置采集设备进行数据收集,并且基于实际调查数据进行特征提取,不依赖于人工经验调整任何一项参数或数据,即可从手机信令数据、互联网移动位置数据中稀疏出行数据中得到城市个体出行者出行特征;
[0044] 2、通过对调查人员的调查数据集中的数据进行分析,划分和标记出调查数据中的出行特征获得标签数据集;并且将标签数据集与融合数据集进行监督学习,实现对城市多源稀疏数据特征的精准分析;
[0045] 3、通过无标签数据自学习的方法,既能够提升各类数据自身的识别精度,同时能够实现各类数据间特征交叉识别,从而丰富数据的特征,提高数据识别精度。
[0046] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

[0047] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0048] 图1为本发明实施例的一种城市交通出行的稀疏数据特征分析方法的步骤流程图;
[0049] 图2为本发明实施例的一种城市交通出行的稀疏数据特征分析系统的结构示意图。

具体实施方式

[0050] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051] 为解决现有技术的不足,本发明实施例公开了一种城市交通出行的稀疏数据特征分析方法,包括以下步骤:
[0052] 步骤1:对调查人员进行出行调查,获取调查数据集,包括:
[0053] 调查数据集包括设备采集数据和用户登记数据;
[0054] 通过携带手环/手机APP等移动位置设备采集调查人员的出行位置数据,获取设备采集数据;其中,出行数据包括调查人员的出行轨迹x以及对应时刻数据t。
[0055] 通过问卷填写的方式收集调查人员的出行信息和驻留点获取用户登记数据;其中,出行信息和驻留点主要包括出行次数、单次出行起点以及单次出行终点。
[0056] 基于设备采集数据和用户登记数据能够获取和提取调查人员的完整出行数据。
[0057] 对完整出行数据中的出行特征进行划分和标记,获取到标签数据集;其中,所述出行特征包括出行目的、出行方式、出行次数;如1图所示,出行目的标签包括:通勤、上学、业务、生活购物和文娱休息等;出行方式标签包括:步行、轨道交通、出租车/小汽车、常规公交和非机动车等。
[0058] 所述标签数据集为: ;
[0059] 其中,Aj表示用户,表示该用户的一些自然属性(包括职业、性别、年龄、拥有机动车数量等); 表示该用户在第 次(每一次出行都是一条样本数据)出行时的出行轨迹x信息和对应的时刻数据t, 表示出行特征标签,如下表所示:
[0060] 表1特征标签表
[0061]
[0062] 表2特征标签表‑OD
[0063]
[0064] 步骤2:对采集的城市出行的稀疏数据进行融合;具体包括:
[0065] 通过移动位置采集设备获取城市出行的稀疏数据,所述稀疏数据包括手机信令数据、互联网出行数据、浮动车移动位置数据、公交出行数据和共享单车运行数据等五类数据;
[0066] 其中,如图1所示,所述稀疏数据中的各类数据均包括对应的特征属性和自然标签;其中,自然标签为所述稀疏数据中的各类数据在采集过程中自身带有的一些基础标签数据。
[0067] 将所述稀疏数据中各类数据的特征属性数据与地理空间数据分别进行海量数据的融合,获取到融合数据集;
[0068] 其中,所述地理空间数据包括POI数据、AOI数据、建筑体信息;融合过程中的具体数据包括:手机信令数据、AOI数据、交通方式识别结果、建筑物轮廓、用户的兴趣点、停留时间等;
[0069] 所述融合数据集包括所述稀疏数据中各类数据对应的特征标签;所述特征标签包括出行方式、出行目的、出行距离、出行时耗和OD分布方式。
[0070] 融合数据集为: ,其中 表示用户 , 表示该用户在第 次(每一次出行都是一条样本数据)出行中驻留地经纬度及时间信息,表示该驻留点地域的兴趣点/建筑/土地性质(包括公共用地、学校、公司、商圈、交通等)。
[0071] 根据融合数据集,获取到调查人员的多维度出行信息;将所述多维度出行信息进行交叉识别,对调查人员的交通出行构建用户预先画像;
[0072] 用户预先画像中通常包含与出行特征有关的信息(例如将所述稀疏数据的轨迹点、停留时间与地理位置信息匹配);
[0073] 通过用户预先画像可以对用户进行初步分析,分析用户的类型等;还可以根据所述稀疏数据的出行时段进行分析,初步分析初用户出行的目的,列如是上学还是通勤等。
[0074] 步骤3:根据调查数据集和融合数据集进行监督学习,获得稀疏数据特征数据集,最终得到准确的居民出行特征,包括:
[0075] 基于所述融合数据集对所述稀疏数据进行自学习;所述自学习就是针对稀疏数据中的出行速度、位置信息、出行轨迹等,进行基于基本规则的出行特征辨别;
[0076] 基于调查人员出行时间规律、土地特征、出行频率等出行的数据特征和标签数据,分别对所述稀疏数据中各类数据的特征标签(例如出行方式、出行目的等)进行融合自学习,并标记伪标签,最后获取自学习标签数据集 ;其中, 表示用户,表示该用户在第 次出行中驻留地经纬度及时间信息,表示该驻留点地域的兴趣点/建筑/土地性质(包括公共用地、学校、公司、商圈、交通等), 表示对本条出行数据的特征的自学习标签结果,作为输入输入到训练网络之中。
[0077] 根据所述自学习数据集和标签数据集,通过半监督学习训练深度学习网络,获得特征识别模型;在特征识别模型的训练过程中,对特征识别模型的损失函数迭代计算,使损失逐渐降低到适宜范围,最终获得最优的损失函数;
[0078] 基于特征识别模型,根据调查数据集和融合数据集中的特征标签进行自适应学习,最终获得所述稀疏数据特征数据集;通过所述稀疏数据特征数据集能够获得准确的居民出行特征。
[0079] 其中,基于标签数据集和自学习数据集进行损失计算,所述损失函数为:
[0080]
[0081] 其中,Loss表示损失函数,表示学习过程中的损失; 表示调查数据集的样本数量,表示调查数据集; 表示城市出行的稀疏数据的样本数量(即出行次数),表示城市出行的稀疏数据;表示出行特征类别数量,C代表出行特征类别; 表示调查数据集中第m个样本的第i个特征的实际特征编码向量(通过0‑1编码表示是否包含某一特征);是基于特征标签的one‑hot编码向量; 表示调查数据集中第m个样本的第i个特征的预测特征的编码向量;表示当前训练的深度学习网络的预测输出值; 表示所述稀疏数据中第个样本的第i个特征的实际特征编码向量(同样为0‑1编码);是一组伪标签,由稀疏数据自学习形成的标签,转变为上一步训练的深度学习网络对所述稀疏数据的判别结果;表示所述稀疏数据中第 个样本的第i个特征的预测特征编码向量;表示对城市出行的稀疏数据的预测输出值; 表示无标签损失的权重参数,迭代过程中,随着迭代的进行,逐步增加。
[0082] 损失函数前半部分是有标签样本(调查采集数据)的损失,后半部分为无标签样本(稀疏数据)的损失。其中, 为伪标签,是上一步训练的神经网络对无标签样本的预测结果。
[0083] 考虑到各类稀疏数据各不相同,一般自身带有一些具有价值的数据特征和基于人工经验判定方法的特征;为了在有限数据中校准模型的参数,提高模型精度,把稀疏数据可以分析的这部分伪标签进行带入,而随着模型的训练,会替换成上一步模型给出的伪标签。调查数据集中的数据则是不会随着训练进行标签替换的。
[0084] 基于统一发明构思,本发明实施例还提供一种城市交通出行的稀疏数据特征分析系统,如图2所示,包括采集单元、融合单元和获取单元,
[0085] 所述采集单元用于采集调查人员的出行数据,获取调查数据集;
[0086] 所述融合单元,用于对采集的城市出行的稀疏数据进行融合,获取融合数据集对调查人员进行初步分析;
[0087] 所述获取单元,用于基于调查数据集和融合数据集训练特征识别模型,以获取稀疏数据特征数据集,并最终得到准确的居民出行特征。
[0088] 关于上述实施例中的系统,其中各个单元模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0089] 实施例一:通过智能手环和手机端的出行轨迹小程序对用户进行出行调查:
[0090] 通过智能手环采集用户的出行位置数据;
[0091] 调查人员在出行轨迹小程序上进行个人信息的填写;其中个人信息包括:姓名、性别、年龄、是否持有公交票证、是否为本地常住人口、单位地址等。
[0092] 个人信息提交完成后,用户需要填写家庭信息;其中家庭信息包括:家庭人口、家庭年收入、家庭汽车的使用者等。
[0093] 全部填写完毕后,小程序推送完成智能手环绑定的通知;智能手环绑定完成后将获取的用户的出行信息反馈至小程序上,用户可以通过小程序查看出行信息,出行信息包括:今日出行距离、今日出行时耗、今日出行速度、到访地点数、出行次数等。
[0094] 小程序的服务号每天晚上定时推送当天的出行记录,用户可以点击当天推送的出行记录进入小程序中的出行界面查看当天的全部出行记录;此时出行记录均显示为“未确认”状态,用户需要点击每一条的出行记录对该次出行的信息进行确认,确认出发时间、到达时间、出发地点、达到地点等是否准确;并且将该次出行的出行方式、出行目的进行填写和提交。
[0095] 出行信息确认完成后反馈到出行界面,能够观察到刚刚修改和填写的出行记录已经显示为“已确认”状态,说明本条出行记录已经确认完成,其他的出行记录的确认步骤重复上述步骤即可。
[0096] 当智能手环识别反馈至小程序的出行记录中,缺少了当天某一次的出行记录时,用户可以在出行界面进行添加;添加的内容包括出行日期、出发时间、出发地点、达到地点、出行方式、出行目的等,添加完成后进行提交然后等待小程序后台审核。若当天的某次出行识别错误时,可以在出行界面中对该出行记录进行删除。
[0097] 当用户完成当天所有出行记录的确认后,所有的出行记录上均显示“已确认”状态,用户需要等待后台审核。当所有出行记录经后台审核通过后,小程序的服务号会向用户发送审核结果通知,且小程序中所有出行记录均显示为“已审核”,说明此时用户已经顺利完成本次出行调查。
[0098] 最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。