一种基于深度强化学习的动态环境下人群疏散模拟方法转让专利

申请号 : CN202011351409.X

文献号 : CN112348285B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 龚建华申申孙麇李毅殷兵晓武栋

申请人 : 中国科学院空天信息创新研究院浙江中科空间信息技术应用研发中心

摘要 :

本发明提供一种基于深度强化学习的动态环境下人群疏散模拟方法,其中包括:人群作为多智能体系统,对于单个行人智能体而言,采用深度神经网络来逼近状态到动作的映射函数,作为该智能体的行为控制器;行人智能体通过对动态环境状态的观察,利用该映射函数做出行为决策,并从动作空间中采取相应的动作。在离散时间序列的疏散模拟过程中,一个策略指的是给定状态下智能体动作在时间序列上的概率分布。环境对智能体的信息反馈体现为回报值。智能体的目标是最大化累积回报值的期望,即寻找最优动作值函数,并得到最优策略。通过本发明可以实现经典人群模拟中难以实现的高动态环境下人群疏散模拟,模拟效果更加接近真实情况,人群行为的随机性增强。

权利要求 :

1.一种基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:采用状态到动作的映射作为行人智能体行为控制函数,行人疏散模拟的策略π定义为给定状态下智能体动作的概率分布,即 其中S是一个有限状态集合;A是一个有限动作集合;是状态转移概率矩阵,t为某一时刻,a为该t时刻的具体动作,s为该t时刻的具体状态;

获取最优策略:对某个策略而言,当累计回报值 最大时,时间序列上动作a的集合即为最优疏散策略,其中Gt为t时刻的累计回报值,γ是折扣因子,γ∈[0,

1],R是回报函数,k为未来时间步数、为自然数;

累积回报在状态s处的期望值定义为状态值(state‑value)函数:最优策略对应着最优状态值函数指数学期望,公式(3)指t时刻状态为s的条件下,采取策略π所能获得的累积回报期望值;

动作值(action‑value)函数定义为:最优策略对应着最优动作值函数,最优动作值函数为所有策略中值最大的: 指数学期望,公式(4)指t时刻状态为s,采取某个策略a的条件下,采取策略π所能获得的累积回报期望值;

*

最优策略通过最大化q(s,a)来确定:其中 表示最优的动作函数值,公式(5)指判断当前状态s下的动作值a是否属于最优的动作函数值,如果是的话,该动作a属于最优策略的一部分;如果不是的话,则不属于最优策略。

2.根据权利要求1所述的基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:

在每个时间步t,智能体接收到环境的状态信息 其中 是可能状态的集合;基于此状态智能体选择一个动作 其中 是状态St下所有动作的集合;一个时间步之后,智能体接收一个数值的回报 作为此时刻动作的结果反馈,同时观察到一个新的环境状态St+1,由此进入下一次交互的循环过程。

3.根据权利要求1所述的基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:

行人智能体的类视觉感知器建模方案如下:在水平方向上,在正中间0度、左右30度、左右60度投射射线,在左右5度分别增加两条射线;在垂直方向上,上半部分不进行感知器建模;下半部分感知器中采用了0度、15度和30度的射线,在视觉中心部分增加了7.5度的射线。

4.根据权利要求1所述的基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:

每个行人智能体动作空间建模方案如下:动作被分解为N个维度的原子动作,即动作分支,每个维度d∈{1,...,N}中包含nd个离散的子动作,则所有可能的原子动作构成的动作空间大小为

5.根据权利要求1所述的基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:

使用包围身体的胶囊体或者立方体划分个体的身体空间,所述胶囊体或者所述立方体的高度和半径与个体生理属性相对应,使用刚体对个体基本运动进行建模。

6.根据权利要求1所述的基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:

智能体与环境的交互过程包括智能体感知、智能体运动、环境反馈三个阶段;其中智能体感知指的是智能体对环境状态的观察,采用高维向量表征智能体对环境状态的观察结果;智能体运动通过物理引擎实现,包括运动效果、碰撞检测和碰撞反馈;环境反馈采用离散的回报函数,在每个时间步做出一定的惩罚,在关键节点和目标点给奖励。

7.根据权利要求6所述的基于深度强化学习的动态环境下的人群疏散模拟方法,其特征在于:

所述高维向量包含了从智能体发出的所有射线所获取信息的集合,其中,每条射线的基本信息包括三个成分:是否有物体与该射线相交,如果有的话,最近的物体类别是什么,到该物体的距离有多远。

说明书 :

一种基于深度强化学习的动态环境下人群疏散模拟方法

技术领域

[0001] 本发明属于人群模拟和计算机仿真技术领域,具体涉及一种基于深度强化学习的动态环境下人群疏散模拟方法。

背景技术

[0002] 从人群疏散模拟的角度来看,目前常用的人群模拟模型可以分为宏观模型和微观模型。宏观模型主要针对群体行为进行建模,把群体看成是遵循流体力学定律的连续体,适
用于大区域范围内大规模的人群模拟。微观模型则以单一的个体作为建模的基础单元,通
过大量个体的运动以及个体之间的交互作用,涌现出群体行为。相比较之下,微观模型更适
合于个体行为的建模和模拟,得到了更多的研究。
[0003] 每种模型都有自己的适用场景和局限性。Boids模型适用于鸟群、鱼群等人工生命的模拟,用于人群模拟时需要加入更加复杂的规则或者结合社会力模型一起使用。元胞自
动机模型基于离散的格网世界(Lattice Based Models),对于大场景来说,格网分辨率难
确定,太粗则模拟失真,太细则影响计算效率。另外,它难以模拟异质智能体,跟三维可视化
系统结合也有难度。基于力的模型中智能体运动由动力学方程控制,模拟结果具有更弱的
不确定性,难以表现人群疏散问题的复杂性。另外,研究人员需要为每一种行为定义规则,
并建立动力学方程,建模难度较大。对于数据驱动的模型来说,模拟结果的真实程度很好,
可信度也很高,但是获取和解译真实场景的视频数据往往非常困难。
[0004] 近年来,人工智能技术的迅速发展,使得AI驱动的人群模拟成为一种新方法。其中强化学习算法进行人群模拟的研究逐渐增多。在经典的人群模拟方法中,设计者需要自定
义智能体的行为规则、建立动力学方程等等;然而强化学习算法赋予智能体学习的能力,展
现出与前者完全不同的模式。在强化学习中,智能体通过与环境的交互不断地学习自己的
行为规则,即如何根据环境的各种状态来选择自己的行动,从而达到自己的目标——最大
化累积回报值。试错搜索和延迟回报是强化学习最主要的两点特征。环境的复杂性使得预
先设计 agent行为很难甚至不可能,“硬编码”的行为变得不合适。因此,强化学习适合于解
决环境未知(Model‑free)、环境动态变化的问题。社会力模型模拟出来的人群准确度较低,
随机性较弱。
[0005] 目前的人群疏散模拟研究多从微观个体建模出发,只考虑简单的环境因素,例如边界、障碍物等基本环境布局,对于高动态环境考虑甚少。但实际上,从环境行为学的角度
来看,人不仅是环境中的一个客体,受环境影响,同时也能积极的改造环境。环境不仅仅是
人群活动于其中的一个容器,它还是与人群行为模式不可分离的一部分。应急状态下的环
境更是多变的、易变的,不仅仅是灾害过程的演进会引起环境的变化,疏散过程中人群的拥
挤、推移等行为也会改变环境。因此,应急情况下的环境是时刻变化着的,人群行为与环境
始终处于一个相互作用的过程中。高动态环境下人群疏散模拟,探索该情况下的人群行为
规律,对现实的疏散具有指导意义。
[0006] 传统强化学习方法进行人群模拟也遇到了很多挑战。一方面,环境的状态和智能体的移动均是连续的过程,即连续的状态空间和动作空间,然而 Q‑Learning、SARSA等算法
仅支持离散的状态空间和动作空间,庞大的连续空间可能导致维数灾难问题。另一方面,该
类算法通常使用Q table作为状态‑动作的映射存储体,在连续状态空间和动作空间的情况
中,需要巨大的存储空间及索引时间,导致计算复杂度指数级的增加。
[0007] 由于现有技术中的社会力模型模拟出来的人群准确度较低,随机性较弱;传统强化学习方法进行人群模拟存在仅支持离散的状态空间和动作空间,庞大的连续空间可能导
致维数灾难问题,且在连续状态空间和动作空间的情况中,需要巨大的存储空间及索引时
间,导致计算复杂度指数级的增加等技术问题,因此本发明研究设计出一种基于深度强化
学习的动态环境下人群疏散模拟方法。

发明内容

[0008] 因此,本发明要解决的技术问题在于克服现有技术中的社会力模型模拟出来的人群随机性较弱的缺陷,从而提供一种基于深度强化学习的动态环境下人群疏散模拟方法。
[0009] 本发明提供一种基于深度强化学习的动态环境下人群疏散模拟方法,其包括:
[0010] 采用状态到动作的映射作为行人智能体行为控制函数,行人疏散模拟的策略π定义为给定状态下智能体动作的概率分布,即 其中S是一个
有限状态集合;A是一个有限动作集合; 是状态转移概率矩阵, t为某一时刻,a为该t时刻
的具体动作,s为该t时刻的具体状态;
[0011] 计算最优策略:对某个策略而言,当累计回报值 最大时,时间序列上动作a的集合即为最优疏散策略,其中Gt为t时刻的累计回报值,γ是折扣因子,γ∈
[0,1],R是回报函数,k为未来时间步数、为自然数。
[0012] 累积回报在状态s处的期望值定义为状态值(state‑value)函数:
[0013] 最优策略对应着最优状态值函数指数学期望,公式(3)指t时刻状态为s的条件下,采取策略π所能获得
的累积回报期望值。
[0014] 动作值(action‑value)函数定义为:
[0015] 最优策略对应着最优action‑value 值函数,最优动作值函数为所有策略中值最大的: 指数学
期望,公式(4)指t时刻状态为s,采取某个策略a的条件下,采取策略π所能获得的累积回报
期望值。
[0016] 最优策略通过最大化q*(s,a)来确定:
[0017]
[0018] 其中 表示最优的动作函数值,公式(5)指判断当前状态s 下的动作值a是否属于最优的动作函数值,如果是的话,该动作a属于最优策略的一部分;如果不是的
话,则不属于最优策略。
[0019] 在每个时间步t,智能体接收到环境的状态信息 其中 是可能状态的集合;基于此状态智能体选择一个动作 其中 是状态St下所有动作的集合;一
个时间步之后,智能体接收一个数值的回报 作为此动作的结果,同时观察到一个
新的环境状态St+1,由此进入下一次交互的循环过程。
[0020] 行人智能体的类视觉感知器建模方案如下:在水平方向上,在正中间0度、左右30度、左右60度投射射线,在左右5度分别增加两条射线;在垂直方向上,上半部分不进行感知
器建模;下半部分感知器中采用了0度、15度和30 度的射线,在视觉中心部分增加了7.5度
的射线。
[0021] 每个行人智能体动作空间见面方案如下:动作被分解为N个维度的原子动作,即动作分支,每个维度d∈{1,...,N}中包含nd个离散的子动作,则所有可能的原子动作构成的
动作空间大小为
[0022] 使用包围身体的胶囊体或者立方体划分个体的身体空间,所述胶囊体或者所述立方体的高度和半径与个体生理属性相对应,使用刚体对个体基本运动进行建模。
[0023] 智能体与环境的交互过程包括智能体感知、智能体运动、环境反馈三个阶段;其中智能体感知指的是智能体对环境状态的观察,采用高维向量表征智能体对环境状态的观察
结果;智能体运动通过物理引擎实现,包括运动效果、碰撞检测和碰撞反馈;环境反馈采用
离散的回报函数,在每个时间步做出一定的惩罚,在关键节点和目标点给奖励。
[0024] 所述高维向量包含了从智能体发出的所有射线所获取信息的集合,其中,每条射线的基本信息包括三个成分:是否有物体与该射线相交,如果有的话,最近的物体类别是什
么,到该物体的距离有多远。
[0025] 本发明提供的一种基于深度强化学习的动态环境下人群疏散模拟方法具有如下有益效果:
[0026] 1.本发明通过采用状态转移概率矩阵来定义行人智能体疏散策略对于某一个策略π,通过设计累计回报 来定量化
地评价特定状态s下动作a的优劣程度,能够准确且有效地计算出最优策略;本发明的模拟
方法实现了经典的社会力模型中难以实现的高动态环境下人群疏散模拟,同时模拟的人群
行为随机性增强,模拟效果更加接近现实情况;并且本发明的深度强化学习方法有效地利
用了深度神经网络逼近状态‑动作空间的映射,能够更好地表达出非线性的关系,并且支持
连续的状态空间与动作空间。
[0027] 2.本发明还采用状态值函数 动作值函数优化计算最优状态值函数 以及最
优动作值函数 采用累计回报的期望值来计算最优策略,表明累积回
报是一个随机变量,而不是一个确定值,从而使得行人智能体动作的选择不是一个确定的
过程,增加人群疏散模拟的行为随机性,使模拟效果更加接近现实情况;
[0028] 3.本发明还采用 把最优动作值函数(即 表示最优的动作函数值)来与当前动作值 a进行
比较,判断当前状态s下的动作值a是否属于最优的动作函数值,如果是的话,该动作a属于
最优策略的一部分;如果不是的话,则不属于最优策略,能够有效地获得最优策略下的t时
刻的动作值a,从而构成最优策略。

附图说明

[0029] 图1是本发明的基于深度强化学习的动态环境下人群疏散模拟方法的流程图。

具体实施方式

[0030] 1)深度强化学习算法
[0031] 如图1所示,本发明提供一种基于深度强化学习的动态环境下人群疏散模拟方法,其包括:
[0032] 人群作为多智能体系统,对于单个行人智能体而言,采用深度神经网络来逼近状态到动作的映射函数,作为该智能体的行为控制器;行人智能体通过对动态环境状态的观
察,利用该映射函数做出行为决策,并从动作空间中采取相应的动作。强化学习智能体的目
标是寻找最优策略的过程。所谓策略是指状态到动作的映射,常用符号π表示。一个策略指
的是给定状态下智能体动作的概率分布: 其中S是一个有
限状态集合;A是一个有限动作集合; 是状态转移概率矩阵,t为某一时刻,a为该t时刻的
具体动作,s为该t时刻的具体状态;对某个策略而言,当累计回报值 最
大时,时间序列上动作a的集合即为最优疏散策略,其中Gt为t时刻的累计回报值,γ是折扣
因子,γ∈[0,1],R是回报函数,k为未来时间步数、为自然数。
[0033] 本发明通过采用状态转移概率矩阵来定义行人智能体疏散策略,对于某一个策略π,通过设计累计回报来定量化地评价特定状态s下动作a的优劣程度,能够准确且有效地计
算出最优策略;本发明的模拟方法实现了经典的社会力模型中难以实现的高动态环境下人
群疏散模拟,同时模拟的人群行为随机性增强,模拟效果更加接近现实情况。
[0034] 本发明采用深度神经网络与强化学习的结合,彼此完美地进行了补充;深度强化学习在游戏、机器人、自然语言处理等领域都取得了巨大的成功。深度 Q网络是两种技术的
一种结合算法,它的神经网络的输入是原始的RGB图像像素,输出该状态下左右可能动作的
Q值。结合经验重放和目标网络等方法解决了在强化学习中使用函数逼近的不稳定性问题。
对于高动态环境下的人群疏散问题来说,多智能体之间、智能体与动态环境之间相互影响,
状态空间连续且巨大。本发明的深度强化学习方法使用深度神经网络逼近状态‑动作空间
的映射,能够更好地表达出非线性的关系,并且支持连续的状态空间与动作空间。
[0035] 累积回报在状态s处的期望值定义为状态值(state‑value)函数:
[0036] 最优策略对应着最优状态值函数指数学期望,公式(3)指t时刻状态为s的条件下,采取策略π所能获得
的累积回报期望值。
[0037] 动作值(action‑value)函数定义为:
[0038] 最优策略对应着最优action‑value 值函数,最优动作值函数为所有策略中值最大的: 指数学
期望,公式(4)指t时刻状态为s,采取某个策略a的条件下,采取策略π所能获得的累积回报
期望值。
[0039] 本发明采用状态值函数、动作值函数,优化计算最优状态值函数以及最优动作值函数 采用累计回报的期望值来计算最优策略,表明
累积回报是一个随机变量,而不是一个确定值,从而使得行人智能体动作的选择不是一个
确定的过程,增加人群疏散模拟的行为随机性,使模拟效果更加接近现实情况;
[0040] 最优策略通过最大化q*(s,a)来确定:
[0041]
[0042] 其中 表示最优的动作函数值,公式(5)指判断当前状态s 下的动作值a是否属于最优的动作函数值,如果是的话,该动作a属于最优策略的一部分(式中上面的
分支1);如果不是的话,则不属于最优策略。(式中下面的分支0)。
[0043] 本发明采用公式(5),把最优动作值函数 (即表示最优的动作函数值)来与当前动作值a进行比较,判断当前状态s下的动作值a是否属于
最优的动作函数值,如果是的话,该动作a属于最优策略的一部分;如果不是的话,则不属于
最优策略,能够有效地获得最优策略下的t时刻的动作值a,从而构成最优策略。
[0044] 2)深度强化学习智能体训练
[0045] 深度强化学习的训练过程需要大量的计算资源与时间成本。在该过程中,智能体与环境始终处于一个不断交互的离散时间序列循环之中。在每个时间步 t,智能体接收到
环境的状态信息 其中 是可能状态的集合。基于此状态智能体选择一个动作
其中 是状态St下所有动作的集合。一个时间步之后,智能体接收一个数
值的回报 作为此动作的结果,同时观察到一个新的环境状态St+1。由此进入
下一次交互的循环过程。在循环交互过程中,强化学习智能体根据它的经验不断地调整自
身地策略,从而实现长期总回报最大化的目标。结合深度强化学习算法,该训练过程能在有
限的时间内使得神经网络模型收敛,从而得到智能体疏散最优策略。
[0046] 3)智能体建模
[0047] 3.1)感知器建模
[0048] 在3D虚拟环境中,目前对智能体感知器的建模主要有两种方式:射线感知器和视觉感知器,也可以把它们组合起来使用。射线感知器主要以人的视野范围为模拟对象,以智
能体的眼睛为起点向视野范围内的各个方向投射射线。由于计算能力的限制,通常把视野
范围离散化,在其中每间隔一定角度做一次射线投射。该感知器返回的结果通常包括与该
射线相交的最近物体的类别和距离。本发明对智能体的类视觉感知器建模方案如下:在水
平方向上,在正中间 0度、左右30度、左右60度投射射线,为了视觉中心能更敏感一些,本发
明在左右5度分别增加两条射线;在垂直方向上,本发明所用场景中由于上方没有物体,同
时避免感知器向量维度过大,减少了垂直方向上半部分的感知器建模;下半部分感知器中
采用了0度、15度和30度的射线,在视觉中心部分增加了7.5度的射线。这样能够有效地对智
能体进行感知器建模,模仿人类视觉机制,为智能体观察环境提供高效的方案。
[0049] 3.2)动作空间
[0050] 本发明使用动作分支(Branches)来组织动作空间。形式化地讲,每个智能体可能的动作被分解为N个维度的原子动作,每个维度d∈{1,...,N}中包含nd个离散的子动作,则
所有可能的原子动作构成的动作空间大小为 由此可见,每个动作维度作为一个
分支,分支之间是“并”的关系,分支内部是“或”的关系。因此,智能体在每一个时间步可以
采取某一个原子动作,也可以采取某几个不同分支下原子动作的组合。例如,我们定义两个
动作分支:运动和跳,第一个分支中有{前、后、左、右、不动}五个动作,第二个分支中有 
{跳,不跳}两个动作,动作空间的大小为10。这样能够有效地对智能体的动作空间进行多分
支建模,从而为智能体物理运动奠定基础。
[0051] 3.3)基础物理运动建模
[0052] 智能体作为动作的“执行者”,需要具体执行由动作空间发出的指令,通过自身的运动来实现。本发明主要考虑智能体的生理属性和运动属性,以“平均人”的指标来刻画同
质人群中的个体,以正态分布刻画异质人群中的个体。使用包围身体的胶囊体(Capsule)或
者立方体划分个体的身体空间,这些几何体的高度、半径与个体生理属性相对应。使用刚体
(Rigidbody)对个体基本运动建模,刚体的质量参考真实统计数据,刚体受力引起运动状态
的变化,参考真实的运动速度来校准运动过程中的驱动力、摩擦力等。
[0053] 3.4)多智能体人群建模
[0054] 本发明中只考虑不存在合作和竞争关系的多智能体人群建模。多智能体比单智能体问题更加复杂。多智能体人群不仅仅是单个智能体在数量上的扩展。单个智能体需要把
周围移动着的人群看作变化的环境。现实中真实人群都是异质人群,由于意识受主体状况
的影响,即使在完全相同的环境状态下,每个个体也可能采取不同的动作。为了模拟异质人
群,本发明根据智能体的生理、运动等属性来划分类别。每一类中智能体的属性相似但又各
不相同,分别服从相应的正态分布,并且分别训练一种“大脑”(即训练好的神经网络模型)
对其进行行为控制,以此来模拟异质人群行为的多样性。
[0055] 4)环境建模
[0056] 环境是人群模拟的重要组成部分。根据人群模拟过程中环境是否可以动态变化,可以分为可变环境与不可变环境。不可变环境中,人群模拟只考虑智能体的移动及其相互
作用。可变环境中的情况更加复杂一些。应急情况下的灾害演进过程也是属于环境的一部
分。对单个智能体来说,环境变化是移动的人群、被人群改造的环境与动态演进的灾害事件
共同作用的结果。
[0057] 环境是多智能体的探索空间,必须为智能体提供辅助信息,以帮助智能体寻找路径、避让障碍物、获取额外信息。为了配合智能体的射线感知器,需要对环境进行语义建模。
本文主要研究高动态的室内环境,室内物体分类太细会引起维度爆炸问题。因而需要对室
内物体进一步抽象,我们定义语义物体的类别集合如下:{智能体,可移动障碍物,不可移动
障碍物,关键节点,目标,墙,地面}。其中关键节点的作用相当于语义模型中路径的节点或
拐点,在现实中并不存在实际物体,但在大场景空间、多层建筑和复杂环境中的智能体训练
过程中起到关键作用。
[0058] 5)智能体与环境的交互
[0059] 智能体与环境的交互过程主要包括智能体感知、智能体运动、环境反馈三个阶段。智能体感知指的是智能体对环境状态的观察,本文主要使用高维向量表征智能体对环境状
态的观察结果。该向量包含了从智能体发出的所有射线所获取信息的集合。其中,每条射线
的基本信息包括三个成分:是否有物体与该射线相交,如果有的话,最近的物体类别是什
么,到该物体的距离有多远。对每条射线信息进行叠加即可得到所有射线信息的集合。物体
类别使用one‑hot 编码表示。感知器向量的维数主要取决于射线数量与物体类别的数量,
其组成结构如式(6)所示。
[0060]
[0061] 智能体运动主要是通过物理引擎实现,包括运动效果、碰撞检测、碰撞反馈等。环境反馈指的是环境以数值回报的形式对智能体的反馈。
[0062] 回报函数是环境对智能体信息反馈的重要要素之一。回报函数是要告诉智能体我们希望达到什么目标,而不是怎样达到目标。因此,本发明设计回报函数来告诉智能体尽快
的达到目的地,而不是为它们指定具体逃生路线与逃生方式。回报函数的设计应该可以激
发异质人群疏散的行为多样性与过程复杂性。针对不同动作空间的异质人群应使其充分发
挥各自擅长的逃生方式。本发明主要采用离散的回报函数,为了激励智能体快速疏散,在每
个时间步做出一定的惩罚(负回报),在关键节点和目标点给奖励(正回报)。本发明中高维
向量的优选形式,即射线相交的物体类别、距离等参数,能够高效地表达智能体对环境状态
空间的观察。
[0063] 以上所述仅为本发明的较佳实施案例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在
不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为
本发明的保护范围。