一种基于深度强化学习的动态环境下人群疏散模拟方法转让专利
申请号 : CN202011351409.X
文献号 : CN112348285B
文献日 : 2021-08-10
发明人 : 龚建华 , 申申 , 孙麇 , 李毅 , 殷兵晓 , 武栋
申请人 : 中国科学院空天信息创新研究院 , 浙江中科空间信息技术应用研发中心
摘要 :
权利要求 :
1.一种基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:采用状态到动作的映射作为行人智能体行为控制函数,行人疏散模拟的策略π定义为给定状态下智能体动作的概率分布,即 其中S是一个有限状态集合;A是一个有限动作集合;是状态转移概率矩阵,t为某一时刻,a为该t时刻的具体动作,s为该t时刻的具体状态;
获取最优策略:对某个策略而言,当累计回报值 最大时,时间序列上动作a的集合即为最优疏散策略,其中Gt为t时刻的累计回报值,γ是折扣因子,γ∈[0,
1],R是回报函数,k为未来时间步数、为自然数;
累积回报在状态s处的期望值定义为状态值(state‑value)函数:最优策略对应着最优状态值函数指数学期望,公式(3)指t时刻状态为s的条件下,采取策略π所能获得的累积回报期望值;
动作值(action‑value)函数定义为:最优策略对应着最优动作值函数,最优动作值函数为所有策略中值最大的: 指数学期望,公式(4)指t时刻状态为s,采取某个策略a的条件下,采取策略π所能获得的累积回报期望值;
*
最优策略通过最大化q(s,a)来确定:其中 表示最优的动作函数值,公式(5)指判断当前状态s下的动作值a是否属于最优的动作函数值,如果是的话,该动作a属于最优策略的一部分;如果不是的话,则不属于最优策略。
2.根据权利要求1所述的基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:
在每个时间步t,智能体接收到环境的状态信息 其中 是可能状态的集合;基于此状态智能体选择一个动作 其中 是状态St下所有动作的集合;一个时间步之后,智能体接收一个数值的回报 作为此时刻动作的结果反馈,同时观察到一个新的环境状态St+1,由此进入下一次交互的循环过程。
3.根据权利要求1所述的基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:
行人智能体的类视觉感知器建模方案如下:在水平方向上,在正中间0度、左右30度、左右60度投射射线,在左右5度分别增加两条射线;在垂直方向上,上半部分不进行感知器建模;下半部分感知器中采用了0度、15度和30度的射线,在视觉中心部分增加了7.5度的射线。
4.根据权利要求1所述的基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:
每个行人智能体动作空间建模方案如下:动作被分解为N个维度的原子动作,即动作分支,每个维度d∈{1,...,N}中包含nd个离散的子动作,则所有可能的原子动作构成的动作空间大小为
5.根据权利要求1所述的基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:
使用包围身体的胶囊体或者立方体划分个体的身体空间,所述胶囊体或者所述立方体的高度和半径与个体生理属性相对应,使用刚体对个体基本运动进行建模。
6.根据权利要求1所述的基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:
智能体与环境的交互过程包括智能体感知、智能体运动、环境反馈三个阶段;其中智能体感知指的是智能体对环境状态的观察,采用高维向量表征智能体对环境状态的观察结果;智能体运动通过物理引擎实现,包括运动效果、碰撞检测和碰撞反馈;环境反馈采用离散的回报函数,在每个时间步做出一定的惩罚,在关键节点和目标点给奖励。
7.根据权利要求6所述的基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:
所述高维向量包含了从智能体发出的所有射线所获取信息的集合,其中,每条射线的基本信息包括三个成分:是否有物体与该射线相交,如果有的话,最近的物体类别是什么,到该物体的距离有多远。
说明书 :
一种基于深度强化学习的动态环境下人群疏散模拟方法
技术领域
背景技术
用于大区域范围内大规模的人群模拟。微观模型则以单一的个体作为建模的基础单元,通
过大量个体的运动以及个体之间的交互作用,涌现出群体行为。相比较之下,微观模型更适
合于个体行为的建模和模拟,得到了更多的研究。
动机模型基于离散的格网世界(Lattice Based Models),对于大场景来说,格网分辨率难
确定,太粗则模拟失真,太细则影响计算效率。另外,它难以模拟异质智能体,跟三维可视化
系统结合也有难度。基于力的模型中智能体运动由动力学方程控制,模拟结果具有更弱的
不确定性,难以表现人群疏散问题的复杂性。另外,研究人员需要为每一种行为定义规则,
并建立动力学方程,建模难度较大。对于数据驱动的模型来说,模拟结果的真实程度很好,
可信度也很高,但是获取和解译真实场景的视频数据往往非常困难。
义智能体的行为规则、建立动力学方程等等;然而强化学习算法赋予智能体学习的能力,展
现出与前者完全不同的模式。在强化学习中,智能体通过与环境的交互不断地学习自己的
行为规则,即如何根据环境的各种状态来选择自己的行动,从而达到自己的目标——最大
化累积回报值。试错搜索和延迟回报是强化学习最主要的两点特征。环境的复杂性使得预
先设计 agent行为很难甚至不可能,“硬编码”的行为变得不合适。因此,强化学习适合于解
决环境未知(Model‑free)、环境动态变化的问题。社会力模型模拟出来的人群准确度较低,
随机性较弱。
来看,人不仅是环境中的一个客体,受环境影响,同时也能积极的改造环境。环境不仅仅是
人群活动于其中的一个容器,它还是与人群行为模式不可分离的一部分。应急状态下的环
境更是多变的、易变的,不仅仅是灾害过程的演进会引起环境的变化,疏散过程中人群的拥
挤、推移等行为也会改变环境。因此,应急情况下的环境是时刻变化着的,人群行为与环境
始终处于一个相互作用的过程中。高动态环境下人群疏散模拟,探索该情况下的人群行为
规律,对现实的疏散具有指导意义。
仅支持离散的状态空间和动作空间,庞大的连续空间可能导致维数灾难问题。另一方面,该
类算法通常使用Q table作为状态‑动作的映射存储体,在连续状态空间和动作空间的情况
中,需要巨大的存储空间及索引时间,导致计算复杂度指数级的增加。
致维数灾难问题,且在连续状态空间和动作空间的情况中,需要巨大的存储空间及索引时
间,导致计算复杂度指数级的增加等技术问题,因此本发明研究设计出一种基于深度强化
学习的动态环境下人群疏散模拟方法。
发明内容
有限状态集合;A是一个有限动作集合; 是状态转移概率矩阵, t为某一时刻,a为该t时刻
的具体动作,s为该t时刻的具体状态;
[0,1],R是回报函数,k为未来时间步数、为自然数。
的累积回报期望值。
期望,公式(4)指t时刻状态为s,采取某个策略a的条件下,采取策略π所能获得的累积回报
期望值。
话,则不属于最优策略。
个时间步之后,智能体接收一个数值的回报 作为此动作的结果,同时观察到一个
新的环境状态St+1,由此进入下一次交互的循环过程。
器建模;下半部分感知器中采用了0度、15度和30 度的射线,在视觉中心部分增加了7.5度
的射线。
动作空间大小为
结果;智能体运动通过物理引擎实现,包括运动效果、碰撞检测和碰撞反馈;环境反馈采用
离散的回报函数,在每个时间步做出一定的惩罚,在关键节点和目标点给奖励。
么,到该物体的距离有多远。
地评价特定状态s下动作a的优劣程度,能够准确且有效地计算出最优策略;本发明的模拟
方法实现了经典的社会力模型中难以实现的高动态环境下人群疏散模拟,同时模拟的人群
行为随机性增强,模拟效果更加接近现实情况;并且本发明的深度强化学习方法有效地利
用了深度神经网络逼近状态‑动作空间的映射,能够更好地表达出非线性的关系,并且支持
连续的状态空间与动作空间。
优动作值函数 采用累计回报的期望值来计算最优策略,表明累积回
报是一个随机变量,而不是一个确定值,从而使得行人智能体动作的选择不是一个确定的
过程,增加人群疏散模拟的行为随机性,使模拟效果更加接近现实情况;
比较,判断当前状态s下的动作值a是否属于最优的动作函数值,如果是的话,该动作a属于
最优策略的一部分;如果不是的话,则不属于最优策略,能够有效地获得最优策略下的t时
刻的动作值a,从而构成最优策略。
附图说明
具体实施方式
察,利用该映射函数做出行为决策,并从动作空间中采取相应的动作。强化学习智能体的目
标是寻找最优策略的过程。所谓策略是指状态到动作的映射,常用符号π表示。一个策略指
的是给定状态下智能体动作的概率分布: 其中S是一个有
限状态集合;A是一个有限动作集合; 是状态转移概率矩阵,t为某一时刻,a为该t时刻的
具体动作,s为该t时刻的具体状态;对某个策略而言,当累计回报值 最
大时,时间序列上动作a的集合即为最优疏散策略,其中Gt为t时刻的累计回报值,γ是折扣
因子,γ∈[0,1],R是回报函数,k为未来时间步数、为自然数。
算出最优策略;本发明的模拟方法实现了经典的社会力模型中难以实现的高动态环境下人
群疏散模拟,同时模拟的人群行为随机性增强,模拟效果更加接近现实情况。
一种结合算法,它的神经网络的输入是原始的RGB图像像素,输出该状态下左右可能动作的
Q值。结合经验重放和目标网络等方法解决了在强化学习中使用函数逼近的不稳定性问题。
对于高动态环境下的人群疏散问题来说,多智能体之间、智能体与动态环境之间相互影响,
状态空间连续且巨大。本发明的深度强化学习方法使用深度神经网络逼近状态‑动作空间
的映射,能够更好地表达出非线性的关系,并且支持连续的状态空间与动作空间。
的累积回报期望值。
期望,公式(4)指t时刻状态为s,采取某个策略a的条件下,采取策略π所能获得的累积回报
期望值。
累积回报是一个随机变量,而不是一个确定值,从而使得行人智能体动作的选择不是一个
确定的过程,增加人群疏散模拟的行为随机性,使模拟效果更加接近现实情况;
分支1);如果不是的话,则不属于最优策略。(式中下面的分支0)。
最优的动作函数值,如果是的话,该动作a属于最优策略的一部分;如果不是的话,则不属于
最优策略,能够有效地获得最优策略下的t时刻的动作值a,从而构成最优策略。
环境的状态信息 其中 是可能状态的集合。基于此状态智能体选择一个动作
其中 是状态St下所有动作的集合。一个时间步之后,智能体接收一个数
值的回报 作为此动作的结果,同时观察到一个新的环境状态St+1。由此进入
下一次交互的循环过程。在循环交互过程中,强化学习智能体根据它的经验不断地调整自
身地策略,从而实现长期总回报最大化的目标。结合深度强化学习算法,该训练过程能在有
限的时间内使得神经网络模型收敛,从而得到智能体疏散最优策略。
能体的眼睛为起点向视野范围内的各个方向投射射线。由于计算能力的限制,通常把视野
范围离散化,在其中每间隔一定角度做一次射线投射。该感知器返回的结果通常包括与该
射线相交的最近物体的类别和距离。本发明对智能体的类视觉感知器建模方案如下:在水
平方向上,在正中间 0度、左右30度、左右60度投射射线,为了视觉中心能更敏感一些,本发
明在左右5度分别增加两条射线;在垂直方向上,本发明所用场景中由于上方没有物体,同
时避免感知器向量维度过大,减少了垂直方向上半部分的感知器建模;下半部分感知器中
采用了0度、15度和30度的射线,在视觉中心部分增加了7.5度的射线。这样能够有效地对智
能体进行感知器建模,模仿人类视觉机制,为智能体观察环境提供高效的方案。
所有可能的原子动作构成的动作空间大小为 由此可见,每个动作维度作为一个
分支,分支之间是“并”的关系,分支内部是“或”的关系。因此,智能体在每一个时间步可以
采取某一个原子动作,也可以采取某几个不同分支下原子动作的组合。例如,我们定义两个
动作分支:运动和跳,第一个分支中有{前、后、左、右、不动}五个动作,第二个分支中有
{跳,不跳}两个动作,动作空间的大小为10。这样能够有效地对智能体的动作空间进行多分
支建模,从而为智能体物理运动奠定基础。
质人群中的个体,以正态分布刻画异质人群中的个体。使用包围身体的胶囊体(Capsule)或
者立方体划分个体的身体空间,这些几何体的高度、半径与个体生理属性相对应。使用刚体
(Rigidbody)对个体基本运动建模,刚体的质量参考真实统计数据,刚体受力引起运动状态
的变化,参考真实的运动速度来校准运动过程中的驱动力、摩擦力等。
周围移动着的人群看作变化的环境。现实中真实人群都是异质人群,由于意识受主体状况
的影响,即使在完全相同的环境状态下,每个个体也可能采取不同的动作。为了模拟异质人
群,本发明根据智能体的生理、运动等属性来划分类别。每一类中智能体的属性相似但又各
不相同,分别服从相应的正态分布,并且分别训练一种“大脑”(即训练好的神经网络模型)
对其进行行为控制,以此来模拟异质人群行为的多样性。
作用。可变环境中的情况更加复杂一些。应急情况下的灾害演进过程也是属于环境的一部
分。对单个智能体来说,环境变化是移动的人群、被人群改造的环境与动态演进的灾害事件
共同作用的结果。
本文主要研究高动态的室内环境,室内物体分类太细会引起维度爆炸问题。因而需要对室
内物体进一步抽象,我们定义语义物体的类别集合如下:{智能体,可移动障碍物,不可移动
障碍物,关键节点,目标,墙,地面}。其中关键节点的作用相当于语义模型中路径的节点或
拐点,在现实中并不存在实际物体,但在大场景空间、多层建筑和复杂环境中的智能体训练
过程中起到关键作用。
态的观察结果。该向量包含了从智能体发出的所有射线所获取信息的集合。其中,每条射线
的基本信息包括三个成分:是否有物体与该射线相交,如果有的话,最近的物体类别是什
么,到该物体的距离有多远。对每条射线信息进行叠加即可得到所有射线信息的集合。物体
类别使用one‑hot 编码表示。感知器向量的维数主要取决于射线数量与物体类别的数量,
其组成结构如式(6)所示。
的达到目的地,而不是为它们指定具体逃生路线与逃生方式。回报函数的设计应该可以激
发异质人群疏散的行为多样性与过程复杂性。针对不同动作空间的异质人群应使其充分发
挥各自擅长的逃生方式。本发明主要采用离散的回报函数,为了激励智能体快速疏散,在每
个时间步做出一定的惩罚(负回报),在关键节点和目标点给奖励(正回报)。本发明中高维
向量的优选形式,即射线相交的物体类别、距离等参数,能够高效地表达智能体对环境状态
空间的观察。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在
不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为
本发明的保护范围。