一种地铁发车调度方法和系统转让专利

申请号 : CN202110761579.3

文献号 : CN113276915B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张聪贾立峰潘澳涔

申请人 : 浙江非线数联科技股份有限公司

摘要 :

本发明公开了一种地铁发车调度方法和系统,所述方法包括如下步骤:获取乘客乘车信息、线路信息和列车班车信息,建立地铁环境状态矩阵;获取地铁奖惩数据,建立地铁奖惩输出的发车决策,用于判断发车效果和生成新的发车决策;根据所述地铁环境状态矩阵和乘车信息预测下一个时间点新的环境状态矩阵,并更新所述地铁奖惩输出的发车决策;将每个时间点的地铁环境状态矩阵和奖惩数据输入到卷积神经网络进行训练,输出训练后发车决策,根据所述发车决策执行地铁发车。所述方法和系统采用Policy gradient算法根据地铁环境状态进行奖惩输出的方式,可以实现地铁调度的智能优化,结合卷积神经网络可以使得输出地铁调度的输出结果更加符合人性化设计。

权利要求 :

1.一种地铁发车调度方法,其特征在于,所述方法包括如下步骤:

获取乘客乘车信息、线路信息和列车班车信息,建立地铁环境状态矩阵;

获取地铁奖惩数据,建立地铁奖惩输出的发车决策,用于判断发车效果和生成新的发车决策;

根据所述地铁环境状态矩阵和乘车信息预测下一个时间点新的地铁环境状态矩阵,并更新所述地铁奖惩输出的发车决策;

将每个时间点的地铁环境状态矩阵和奖惩数据输入到卷积神经网络进行训练,输出训练后发车决策,根据所述发车决策执行地铁发车;

所述地铁奖惩输出的方法包括:

获取列车车厢载客率m_p,获取发车成本指标m_m,获取乘客满意度指标m_s;

其中m_p=在列车中人数/地铁系统总人数,m_m = 环境中的列车数/初始化承受量,m_s = 平均等待时长/初始化等待时长;

其中奖惩值reward的计算方式为:reward=1+(m_p‑ m_s)/ m_m;

所述地铁环境状态矩阵包括:入站点列、出站点列,每个入站点到每个目的出站点的乘客数;

若查询到乘客乘车信息中存在中转站,则当地铁班列到该中转站后,乘客自身乘坐该班列以该中转站为目的站点的地铁环境状态矩阵乘客人数清零,并将清零的乘客数以当前中转站为起始站点,以下一个中转站或终点站为目的站点的乘客数加入到对应地铁环境状态矩阵点中,形成新的地铁环境状态矩阵。

2.根据权利要求1所述的一种地铁发车调度方法,其特征在于,所述地铁环境状态矩阵的预测方法包括:根据当前乘客的乘车信息判断乘客入站点、入站时间、出站点,判断下一个时间点的地铁中每一当前站点到每一目标站点的乘客数量,若地铁班车到站,则将乘客乘车信息中所有乘坐该班列的以该到站为目标站点的乘客数量清零,生成新的地铁环境状态矩阵。

3.根据权利要求1所述的一种地铁发车调度方法,其特征在于,所述发车决策包括每一时间点的每一方向上的地铁班列发车概率,建立发车概率矩阵,将所述发车概率矩阵输入到卷积神经网络中,计算每一班车所有奖惩输出的奖惩值,并计算平均奖惩值,用于判断整体地铁运行的效果。

4.根据权利要求1所述的一种地铁发车调度方法,其特征在于,所述地铁发车调度方法还包括:获取当前时刻所有站点地铁环境状态矩阵,通过LSTM+CNN神经网络建立地铁人流量预测模型, 将当前时刻所有站点地铁环境状态矩阵输入到所述地铁人流量预测模型,预测之后时间点的地铁人流量预测模型。

5.根据权利要求1所述的一种地铁发车调度方法,其特征在于,获取相邻两列地铁班车之间的距离,设置最小距离阈值,若相邻两地铁班车之间的距离小于所述最小距离阈值,则判定当前地铁环境状态死亡,禁止地铁班车发车,直到相邻两列地铁班车之间的距离大于所述最小距离阈值后初始化所述地铁环境状态,重新获取当前地铁环境状态矩阵。

6.一种地铁发车调度系统,其特征在于,所述地铁发车调度系统执行上述权利要求1‑5中任意一项所述的一种地铁发车调度方法。

7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被处理器执行上述权利要求1‑5中任意一项所述的一种地铁发车调度方法。

说明书 :

一种地铁发车调度方法和系统

技术领域

[0001] 本发明涉及一种地铁控制领域,特别涉及一种地铁发车调度方法和系统。

背景技术

[0002] 阶段地铁发车密度是基于地铁站内服务人员实时调控,在客流密集时,先通过排队,拦截等方式控制客流,在进行发车调控,具有主观和滞后性。且对于用人压力,配合压力较大,高峰期乘客的体验差。而实现列车发车的前提是人流预测,而传统的客流预测手段通常只有进站客流信息预测和出站客流预测,没有将乘客一个完整的行程进行预测,因此现有技术的地铁调度还存在和全局的客流量不匹配的问题,故需要对地铁乘客按特殊的方式重新进行流量预测。

发明内容

[0003] 本发明其中一个发明目的在于提供一种地铁发车调度方法和系统,所述方法和系统采用Policy gradient算法根据地铁环境状态进行奖惩输出的方式,可以实现地铁调度的智能优化,结合卷积神经网络可以使得输出地铁调度的输出结果更加符合人性化设计。
[0004] 本发明其中一个发明目的在于提供一种地铁发车调度方法和系统,所述方法和系统同时考虑总体人流量和局部人流量进行地铁发车调度,因此可以避免局部人流量的快速增加而地铁发车调度仍然基于整体人流量来判断,提高乘客的满意度。
[0005] 本发明其中一个发明目的在于提供一种地铁发车调度方法和系统,所述方法和系统根据总体人流量和局部人流量可以实现地铁运营的效益增加,在满足乘客较好的体验感同时可以降低整体的运营成本。
[0006] 本发明其中一个发明目的在于提供一种地铁发车调度方法和系统,所述方法和系统获取乘客开始站点和目标站点,判断直达乘客和换乘乘客,对不同的乘坐方式的乘客设置的不同的矩阵状态参数,从而可以考虑地铁内部局部流量的变化,从而可以综合总体流量和局部流量来执行地铁的调度。
[0007] 为了实现至少一个上述发明目的,本发明进一步提供一种地铁发车调度方法,所述方法包括如下步骤:
[0008] 获取乘客乘车信息、线路信息和列车班车信息,建立地铁环境状态矩阵;
[0009] 获取地铁奖惩数据,建立地铁奖惩输出的发车决策,用于判断发车效果和生成新的发车决策;
[0010] 根据所述地铁环境状态矩阵和乘车信息预测下一个时间点新的地铁环境状态矩阵,并更新所述地铁奖惩输出的发车决策;
[0011] 将每个时间点的地铁环境状态矩阵和奖惩数据输入到卷积神经网络进行训练,输出训练后发车决策,根据所述发车决策执行地铁发车。
[0012] 根据本发明其中一个较佳实施例,所述地铁环境状态矩阵包括:入站点列、出站点列,每个入站点到每个目的出站点的乘客数。
[0013] 根据本发明另一个较佳实施例,所述地铁环境状态矩阵的预测方法包括:根据当前乘客的乘车信息判断乘客入站点、入站时间、出站点,判断下一个时间点的地铁中每一当前站点到每一目标站点的乘客数量,若地铁班车到站,则将乘客乘车信息中所有乘坐该班列的以该到站为目标站点的乘客数量清零,生成新的地铁环境状态矩阵。
[0014] 根据本发明另一个较佳实施例,若进一步查询到乘客乘车信息中存在中转站,则当地铁班列到该中转站后,乘客自身以该中转站为目的站点的地铁环境状态矩阵乘客人数清零,并将清零的乘客数以当前中转站为起始站点,以下一个中转站或终点站为目的站点的乘客数加入到对应地铁环境状态矩阵点中,形成新的地铁环境状态矩阵。
[0015] 根据本发明另一个较佳实施例,所述发车决策包括每一时间点的每一方向上的地铁班列发车概率,建立发车概率矩阵,将所述发车概率矩阵输入到卷积神经网络中,计算每一班车所有奖惩输出的奖惩值,并计算平均奖惩值,用于判断整体地铁运行的效果。
[0016] 根据本发明另一个较佳实施例,所述地铁发车调度方法还包括:获取当前时刻所有站点地铁环境状态矩阵,通过LSTM+CNN神经网络建立地铁人流量预测模型, 将当前时刻所有站点地铁环境状态矩阵输入到所述地铁人流量预测模型,预测之后时间点的地铁人流量预测模型。
[0017] 根据本发明另一个较佳实施例,所述奖惩输出的方法包括:
[0018] 获取列车车厢载客率m_p,获取发车成本指标m_m,获取乘客满意度指标m_s;
[0019] 其中m_p=在列车中人数/地铁系统总人数,m_m = 环境中的列车数/初始化承受量,m_s = 平均等待时长/初始化等待时长;
[0020] 其中奖惩值reward的计算方式为:reward=1+(m_p‑ m_s)/ m_m。
[0021] 根据本发明另一个较佳实施例,获取相邻两列地铁班车之间的距离,设置最小距离阈值,若相邻两地铁班车之间的距离小于所述最小距离阈值,则判定当前地铁环境状态死亡,禁止地铁班车发车,直到相邻两列地铁班车之间的距离大于所述最小距离阈值后初始化所述地铁环境状态,重新获取当前地铁环境状态矩阵。
[0022] 为了实现至少一个上述发明目的,本发明进一步提供一种地铁发车调度系统,所述地铁发车调度系统执行上述一种地铁发车调度方法。
[0023] 本发明进一步提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被处理器执行上述一种地铁发车调度方法。

附图说明

[0024] 图1显示的是本发明一种地铁发车调度方法的流程示意图。
[0025] 图2显示的是本发明中卷积神经网络的训练示意图。
[0026] 图3显示的是本发明中中转乘客在地铁环境状态矩阵中的处理示意图。
[0027] 图4显示的是本发明中直达客在地铁环境状态矩阵中的处理示意图。

具体实施方式

[0028] 以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。
[0029] 可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
[0030] 请结合图1‑图4,本发明公开了一种地铁发车调度方法和系统,所述方法和系统是基于Policy gradient算法建立奖惩输出的方式实现对地铁的优化调度,其中通过获取每一乘客乘坐信息建立一个地铁环境状态矩阵,根据所述地铁环境状态矩阵来实现动态化、并且同时考虑局部和总体流量的一种地铁调度优化方案。从而使得地铁的调度可以兼顾乘客体验和发车效率,整体上节省地铁的发车成本。
[0031] 具体的,通过乘客刷卡或其他可以记录乘客入站的数据,所述入站数据包括入站时间,获取地铁系统的所有地铁线路、所有站点数据和每一线路的地铁车列数量。获取地铁的班车状态,所述班车状态包括存活状态和死亡状态,其中存活状态为班车在运行中,死亡状态为班车在起始点未发车或地铁的终点站的状态。获取地铁班车的最大载客量,每一辆班车的载客量不能超过最大的载客量。
[0032] 获取每一位乘客的乘车信息后,地铁系统初始化地铁环境状态矩阵,请参考图3‑图4,所述地铁环境状态矩阵包括乘客的起始站点列和乘客目标站点列,其中横列的a‑e表示乘客入站的起始点,纵列的a‑e,表示乘客出站的目标站点,矩阵中的数字表示从横列站点到纵列站点的乘客数,比如:矩阵中(c,d)的坐标值为14,表示从c站点出发到d站点的乘客为14个,需要说明的是上述地铁环境状态矩阵表示了当前时刻同一条地铁线路所有站点的候车乘客的乘车数据。
[0033] 在本发明其中一个较佳实施例中,当乘客上车时,该乘客在所述地铁环境状态列表中保持不变,若乘客乘坐的班列到站后,该乘客在所述地铁环境状态列表中清零,从列车班车本身来说,当车辆到站后,乘坐该班车到该站的所有乘客人数清零。举例来说:当前从c站到d站的乘客数为14,当乘客乘坐最近班列到达d站时,所述地铁环境状态矩阵中的矩阵点(c,d)的值变为o,需要说明的是,在本实施例中,是以列车自身的到站为评判依据,不考虑乘客在站点逗留或乘客坐过站的情况,因为一般而言,在正常情况下,绝大部分乘客入站后会直接乘坐最接近的班列,极少数会在站点逗留或坐过站,因此该逗留和坐过站的乘客本实施例不再考虑。需要说明的是,上述实施例中的地铁环境状态矩阵是在静态下描述(假设无新乘客入站和无其他乘客下车),而在实际实施过程中,新乘客会源源不断的进入到地铁的各个站点,每个站点会有乘客下车,因此所述地铁环境状态矩阵是一个动态变化的过程。因此地铁系统要根据实时的人流量间隔固定时间更新所述地铁环境状态矩阵。一般而言,所述间隔固定时间可以设置每隔1分钟‑3分钟对所述地铁环境状态矩阵进行更新。因此在所述地铁环境状态矩阵的阵点数据在更新清零后还包括新乘客的乘车数据,实际人数并不为零。在本实施例中,无需记录乘客在地铁内的行程,因此可以减少运算的压力。
[0034] 在本发明另一较佳实施例中,进一步考虑乘车人员在站点逗留或坐过站的情况,因此在本实施例中,将以乘客刷卡记录为依据计算在地铁中的总乘车时长,并且可采用包括但不仅限于人脸识别、标记识别的方式记录乘客从入站到上车的时间点,当乘客刷卡或以其他方式入站时,根据该乘客行程信息在该线路的地铁环境状态矩阵对应的矩阵点数值加一,记录乘客入站到乘车所花费的时间,该时间为乘客的候车时间,可用于计算乘客满意度。当乘客乘车后记录乘客到站时间,乘客到站后清除所述乘客从初始站点到目的站点在所述就地铁环境状态矩阵中的值,使得所述地铁环境状态矩阵对应矩阵点的数值减一,并且记录从下车到出站的时间,在本实施例中,记录了乘客在站点的逗留情况,并记录乘客提前下车或坐过站的情况,因此可以充分掌握地铁中更细致的人流量。其中通过入站刷卡和出站刷卡,或其他人脸识别等方式记录所有乘客的入站和出站记录,地铁系统通过获取乘客的入站和出站记录可以获取当前时刻地铁系统的总人数。
[0035] 值得一提的是,在本发明另一些较佳实施例中,需要充分考虑乘客在地铁中下车的是属于直达下车还是中转下车,若乘客在下车目标站点为直达站点,则当地铁到站或乘客下车时,清除在所述乘客在所述地铁环境状态矩阵中数值。若乘客下车后的目标站点为中转站点,当车辆到站或乘客下车后,清除该乘客当前乘车线路下以该中转站为目标站点的地铁环境状态矩阵中的数值,且该数值转移到以当前中转站为起始站点,以另一地铁线路的一个站点为目标站点或终止站点,在另一地铁线路的地铁环境状态矩阵中对应的阵点添加清除的转站乘客数值,另一线路的地铁环境状态矩阵中对应阵点的数值加一,当存在多个乘客在该中转站为起始点且到另一地铁线路中相同站点,则根据所述乘客数在对应地铁环境状态矩阵阵点加上乘客数值。通过本实施例可以实现对中转乘客流量的监控,相比于传统的客流量只能从乘客入站到出站的监控,存在对中转乘客监控的缺位,而本发明可解决上述问题,从而在实际的地铁调度中提高地铁调度的效果。需要说明的是,上述不同线路的地铁环境状态矩阵可以被可视化设计显示在不同矩阵中,也可以根据需求设计在相同的矩阵中,比如对于每一个线路的负责人可以就其负责的线路获取可视化的地铁环境状态矩阵图。当整个地铁系统的负责人需要查阅时,可以调阅所有线路拼接整合的地铁环境状态矩阵,实现不同层级的监管控制。
[0036] 本发明需要进一步结合神经网络来对地铁人流量进行预测,根据地铁人流量的预测结果进行地铁班车优化调度。具体的:获取一天中相隔一定时间段的每一时间点的地铁环境状态矩阵,其中结合时间点人流量的矩阵组可表示为(T,Xm,n),其中T表示时间点,Xm,n表示从m站点到n站点的乘客数矩阵,不同时间点都会有一个独立的矩阵,因此本发明将不同的时间点的人流量矩阵Xm,n输入LSTM+CNN神经网络中进行训练,通过设置一定大小的滑窗在所述人流量矩阵中采集训练集,其中滑窗的大小可以设置为小于或等于所述人流量矩阵Xm,n的横列值和纵列值构成的窗口的矩阵窗口结构。通过计算损失函数和调整神经网络的权值以获取最终的人流量预测模型。需要说明的是,神经网络具有多个神经元,可以设置每个神经元的输出权值从而调整整个神经网络的输出,LSTM+CNN神经网络是现有的模型,本发明并未对该模型进行改进,因此本发明对此现有技术不再赘述。
[0037] 本发明所述的地铁发车调度系统还包括发车决策模块,其中所述发车决策模块用于判断当前班列是否应该发车,其中在地铁系统中,发车模块需要获取初始化发车的时间表,所述初始化发车时间表内包括当天固定的最早的发车时间,此时,所述发车模块将直接根据所述初始化的最早发车时间执行发车动作,在剩余的发车时间里,将根据所述地铁环境状态矩阵进行发车。其中所述发车模块可识别2种状态1和0,1表示该时间点的班列为存活状态,可以执行发车步骤。0表示车辆处于死亡状态,不允许发车,因此不同时间点的发车决策可以表示为(T,Vs),T表示时间点,Vs表示发车决策矩阵。
[0038] 值得一提的是,本发明通过Policy gradient算法基于地铁环境状态矩阵计算奖惩值reward,所述奖惩值的计算方法包括:reward=1+(m_p‑ m_s)/ m_m。其中m_p为列车车厢载客率,m_p=在列车中人数/地铁系统总人数,m_m发车成本指标,m_m = 环境中的列车数/初始化承受量,m_s乘客满意度指标,m_s = 平均等待时长/初始化等待时长。m_p值越大越好,但不能超过最大载客量,m_m值越小越好,说明班车的利用率越高,m_m值越小越好,说明乘客等待的时间更短。进一步将上述奖惩值reward作为地铁发车决策的参考数据,从而可以实现地铁发车的奖惩输出。其中所述初始化等待时长为预选设置的合理时长,初始化承受量为预设的地铁环境中最大的列车数。
[0039] 进一步的,本发明将上述地铁环境状态矩阵、奖惩值reward和发车决策矩阵Vs作为数组放入到卷积神经网络中进行训练,建立地铁发车决策模型,将所述地铁环境状态矩阵作为输入,将发车决策矩阵Vs作为输出,并根据所述奖惩值reward的值进行权重衰减的模型训练,采用交叉熵作为卷积神经网络模型的损失函数,经过多轮训练后计算每一轮reward的平均值,直到损失函数收敛,说明所述地铁发车决策模型已经训练优化完毕,根据所述地铁发车决策模型输出的发车决策矩阵作为发车决策执行地铁调度,需要说明的是,卷积神经网络本身为现有技术,本发明不再赘述。
[0040] 特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线段的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线段、电线段、光缆、RF等等,或者上述的任意合适的组合。
[0041] 附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0042] 本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明,本发明的目的已经完整并有效地实现,本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。