数据处理方法、装置、电子设备和可读存储介质转让专利

申请号 : CN202011052216.4

文献号 : CN112001570B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 罗世楷宋歌朱宏图

申请人 : 北京嘀嘀无限科技发展有限公司

摘要 :

本发明实施例提供了一种数据处理方法、装置、电子设备和可读存储介质,涉及计算机技术领域,通过本发明实施例,服务器可以基于目标策略的观测数据,确定目标策略的目标策略分值,由于该分值可以用于对目标策略进行评估,因此,服务器可以通过目标策略分值判断目标策略的可行性,若目标策略为有益策略,则服务器可以针对目标城市执行该目标策略,这样,提高了策略调整的效率,节省了人力,解决了供需错配的问题。

权利要求 :

1.一种数据处理方法,其特征在于,所述方法包括:确定目标策略,所述目标策略用于表征目标城市中,用户与用户之间的交互规则;

基于所述目标策略,确定观测数据,所述观测数据至少用于表征所述目标城市中各区域的策略动作、所述目标城市中各区域的状态和所述目标城市中各区域的区域策略分值;

基于所述观测数据,确定所述目标策略的目标策略分值,所述目标城市至少满足马尔可夫假设,所述马尔可夫假设用于表征所述目标城市在第一时刻的状态,取决于所述目标城市在第二时刻的状态和策略动作,所述第一时刻为预设时间段内的时刻,所述第二时刻为所述第一时刻之前的时刻;

确定所述目标策略分值与预设策略分值之间的分值差异,所述预设策略分值为基于预设策略确定的策略分值;以及

响应于所述分值差异为正值,则确定所述目标策略为有益策略。

2.根据权利要求1所述的方法,其特征在于,所述基于所述目标策略,确定观测数据,包括:

至少基于第一区域在第一时刻的策略动作、所述第一区域在所述第一时刻的状态、所述第一区域在所述第一时刻的策略动作的策略分值以及所述第一区域在预设时间段内各时刻的状态,确定所述观测数据,所述第一区域用于表征所述目标城市中的区域。

3.根据权利要求2所述的方法,其特征在于,所述目标城市还满足一致性假设、序列随机化假设和条件平均独立假设;

所述一致性假设,用于表征所述第一区域在所述第一时刻的状态,与所述目标城市从起始时刻至第二时刻为止的策略动作相关,所述起始时刻为预先设置的时刻,所述第二时刻为所述第一时刻之前的时刻;

所述序列随机化假设,用于表征所述目标城市在t时刻的策略动作与所述目标城市的策略动作历史,以及所述目标城市当前的状态有关;

所述条件平均独立假设,用于表征所述第一区域对应的策略分值期望基于预设期望算法确定,所述预设期望算法包括所述第一区域对应的策略动作和状态。

4.根据权利要求3所述的方法,其特征在于,所述基于所述观测数据,确定所述目标策略的目标策略分值,包括:

基于预设的第一策略分值算法,确定所述目标策略的目标策略分值,所述第一策略分值算法基于重要性采样模型构建。

5.根据权利要求3所述的方法,其特征在于,所述基于所述观测数据,确定所述目标策略的目标策略分值,包括:

基于预设的第二策略分值算法,确定所述目标策略的目标策略分值,所述第二策略分值算法基于具有鲁棒性的模型构建。

6.根据权利要求3所述的方法,其特征在于,所述确定所述目标策略分值与预设策略分值之间的分值差异,包括:

基于所述目标策略对应的策略分值期望、所述预设策略对应的策略分值期望和预先设置的分值差异算法,确定所述目标策略分值与所述预设策略分值之间的分值差异。

7.根据权利要求2所述的方法,其特征在于,所述方法还包括:基于所述目标城市中各区域状态的平均函数,确定所述目标城市中各区域的平均状态,基于所述目标城市中各区域策略动作的平均函数,确定所述目标城市中各区域的平均策略动作。

8.一种数据处理装置,其特征在于,所述装置包括:目标策略模块,用于确定目标策略,所述目标策略用于表征目标城市中,用户与用户之间的交互规则;

观测数据模块,用于基于所述目标策略,确定观测数据,所述观测数据至少用于表征所述目标城市中各区域的策略动作、所述目标城市中各区域的状态和所述目标城市中各区域的区域策略分值;

目标策略分值模块,用于基于所述观测数据,确定所述目标策略的目标策略分值,所述目标城市至少满足马尔可夫假设,所述马尔可夫假设用于表征所述目标城市在第一时刻的状态,取决于所述目标城市在第二时刻的状态和策略动作,所述第一时刻为预设时间段内的时刻,所述第二时刻为所述第一时刻之前的时刻;

分值差异模块,用于确定所述目标策略分值与预设策略分值之间的分值差异,所述预设策略分值为基于预设策略确定的策略分值;以及确定模块,用于响应于所述分值差异为正值,则确定所述目标策略为有益策略。

9.根据权利要求8所述的装置,其特征在于,所述观测数据模块,具体用于:至少基于第一区域在第一时刻的策略动作、所述第一区域在所述第一时刻的状态、所述第一区域在所述第一时刻的策略动作的策略分值以及所述第一区域在预设时间段内各时刻的状态,确定所述观测数据,所述第一区域用于表征所述目标城市中的区域。

10.根据权利要求9所述的装置,其特征在于,所述目标城市还满足一致性假设、序列随机化假设和条件平均独立假设;

所述一致性假设,用于表征所述第一区域在所述第一时刻的状态,与所述目标城市从起始时刻至第二时刻为止的策略动作相关,所述起始时刻为预先设置的时刻,所述第二时刻为所述第一时刻之前的时刻;

所述序列随机化假设,用于表征所述目标城市在t时刻的策略动作与所述目标城市的策略动作历史,以及所述目标城市当前的状态有关;

所述条件平均独立假设,用于表征所述第一区域对应的策略分值期望基于预设期望算法确定,所述预设期望算法包括所述第一区域对应的策略动作和状态。

11.根据权利要求10所述的装置,其特征在于,所述目标策略分值模块,具体用于:基于预设的第一策略分值算法,确定所述目标策略的目标策略分值,所述第一策略分值算法基于重要性采样模型构建。

12.根据权利要求10所述的装置,其特征在于,所述目标策略分值模块,具体用于:基于预设的第二策略分值算法,确定所述目标策略的目标策略分值,所述第二策略分值算法基于具有鲁棒性的模型构建。

13.根据权利要求10所述的装置,其特征在于,所述分值差异模块,具体用于:基于所述目标策略对应的策略分值期望、所述预设策略对应的策略分值期望和预先设置的分值差异算法,确定所述目标策略分值与所述预设策略分值之间的分值差异。

14.根据权利要求9所述的装置,其特征在于,所述装置还包括:平均状态模块,用于基于所述目标城市中各区域状态的平均函数,确定所述目标城市中各区域的平均状态,基于所述目标城市中各区域策略动作的平均函数,确定所述目标城市中各区域的平均策略动作。

15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1‑7中任一项所述的方法。

16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1‑7任一项所述的方法。

说明书 :

数据处理方法、装置、电子设备和可读存储介质

技术领域

[0001] 本申请涉及计算机技术领域,特别是涉及一种数据处理方法、装置、电子设备和可读存储介质。

背景技术

[0002] 目前存在一些与城市相关联的业务类型,该类业务受所处区域的供需关系影响,例如网约车类的业务,当区域A的供需关系为供大于求时,各网约车会趋向于离开区域A,反
之,当区域A的供需关系为供小于求时,各网约车会趋向于靠近区域A。
[0003] 现有技术中,业务平台的工作人员可以基于城市的属性制定业务策略,以使得该城市的供需双方被合理分配。
[0004] 然而,在一个城市中,可能同时存在供大于求的区域、供小于求的区域和供等于求的区域,因此,工作人员需要针对不同的区域不断的调整策略,使得工作效率较低,若在该
城市各区域执行统一的策略,则可能会使得该城市某一区域的供需关系更加不平衡,造成
了供需错配的问题。

发明内容

[0005] 有鉴于此,本发明实施例提供一种数据处理方法、装置、电子设备和可读存储介质,以提高策略调整的效率,节省人力,解决了供需错配的问题。
[0006] 第一方面,提供了一种数据处理方法,所述方法应用于服务器,所述方法包括:
[0007] 确定目标策略,所述目标策略用于表征目标城市中,用户与用户之间的交互规则;
[0008] 基于所述目标策略,确定观测数据,所述观测数据至少用于表征所述目标城市中各区域的策略动作、所述目标城市中各区域的状态和所述目标城市中各区域的区域策略分
值;
[0009] 基于所述观测数据,确定所述目标策略的目标策略分值;
[0010] 确定所述目标策略分值与预设策略分值之间的分值差异,所述预设策略分值为基于预设策略确定的策略分值;以及
[0011] 响应于所述分值差异为正值,则确定所述目标策略为有益策略。
[0012] 可选的,所述基于所述目标策略,确定观测数据,包括:
[0013] 至少基于第一区域在第一时刻的策略动作、所述第一区域在所述第一时刻的状态、所述第一区域在所述第一时刻的策略动作的策略分值以及所述第一区域在预设时间段
内各时刻的状态,确定所述观测数据,所述第一区域用于表征所述目标城市中的区域,所述
第一时刻为所述预设时间段内的时刻。
[0014] 可选的,所述目标城市满足一致性假设、序列随机化假设、马尔可夫假设和条件平均独立假设;
[0015] 所述一致性假设,用于表征所述第一区域在所述第一时刻的状态,与所述目标城市从起始时刻至第二时刻为止的策略动作相关,所述起始时刻为预先设置的时刻,所述第
二时刻为所述第一时刻之前的时刻;
[0016] 所述序列随机化假设,用于表征所述目标城市在t时刻的策略动作与所述目标城市的策略动作历史,以及所述目标城市当前的状态有关;
[0017] 所述马尔可夫假设,用于表征所述目标城市在所述第一时刻的状态,取决于所述目标城市在所述第二时刻的状态和策略动作;
[0018] 所述条件平均独立假设,用于表征所述第一区域对应的策略分值期望基于预设期望算法确定,所述预设期望算法包括所述第一区域对应的策略动作和状态。
[0019] 可选的,所述基于所述观测数据,确定所述目标策略的目标策略分值,包括:
[0020] 基于预设的第一策略分值算法,确定所述目标策略的目标策略分值,所述第一策略分值算法基于重要性采样模型构建。
[0021] 可选的,所述基于所述观测数据,确定所述目标策略的目标策略分值,包括:
[0022] 基于预设的第二策略分值算法,确定所述目标策略的目标策略分值,所述第二策略分值算法基于具有鲁棒性的模型构建。
[0023] 可选的,所述确定所述目标策略分值与预设策略分值之间的分值差异,包括:
[0024] 基于所述目标策略对应的策略分值期望、所述预设策略对应的策略分值期望和预先设置的分值差异算法,确定所述目标策略分值与所述预设策略分值之间的分值差异。
[0025] 可选的,所述方法还包括:
[0026] 基于所述目标城市中各区域状态的平均函数,确定所述目标城市中各区域的平均状态,基于所述目标城市中各区域策略动作的平均函数,确定所述目标城市中各区域的平
均策略动作。
[0027] 第二方面,提供了一种数据处理装置,所述装置应用于服务器,所述装置包括:
[0028] 目标策略模块,用于确定目标策略,所述目标策略用于表征目标城市中,用户与用户之间的交互规则;
[0029] 观测数据模块,用于基于所述目标策略,确定观测数据,所述观测数据至少用于表征所述目标城市中各区域的策略动作、所述目标城市中各区域的状态和所述目标城市中各
区域的区域策略分值;
[0030] 目标策略分值模块,用于基于所述观测数据,确定所述目标策略的目标策略分值;
[0031] 分值差异模块,用于确定所述目标策略分值与预设策略分值之间的分值差异,所述预设策略分值为基于预设策略确定的策略分值;以及
[0032] 确定模块,用于响应于所述分值差异为正值,则确定所述目标策略为有益策略。
[0033] 可选的,所述观测数据模块,具体用于:
[0034] 至少基于第一区域在第一时刻的策略动作、所述第一区域在所述第一时刻的状态、所述第一区域在所述第一时刻的策略动作的策略分值以及所述第一区域在预设时间段
内各时刻的状态,确定所述观测数据,所述第一区域用于表征所述目标城市中的区域,所述
第一时刻为所述预设时间段内的时刻。
[0035] 可选的,所述目标城市满足一致性假设、序列随机化假设、马尔可夫假设和条件平均独立假设;
[0036] 所述一致性假设,用于表征所述第一区域在所述第一时刻的状态,与所述目标城市从起始时刻至第二时刻为止的策略动作相关,所述起始时刻为预先设置的时刻,所述第
二时刻为所述第一时刻之前的时刻;
[0037] 所述序列随机化假设,用于表征所述目标城市在t时刻的策略动作与所述目标城市的策略动作历史,以及所述目标城市当前的状态有关;
[0038] 所述马尔可夫假设,用于表征所述目标城市在所述第一时刻的状态,取决于所述目标城市在所述第二时刻的状态和策略动作;
[0039] 所述条件平均独立假设,用于表征所述第一区域对应的策略分值期望基于预设期望算法确定,所述预设期望算法包括所述第一区域对应的策略动作和状态。
[0040] 可选的,所述目标策略分值模块,具体用于:
[0041] 基于预设的第一策略分值算法,确定所述目标策略的目标策略分值,所述第一策略分值算法基于重要性采样模型构建。
[0042] 可选的,所述目标策略分值模块,具体用于:
[0043] 基于预设的第二策略分值算法,确定所述目标策略的目标策略分值,所述第二策略分值算法基于具有鲁棒性的模型构建。
[0044] 可选的,所述分值差异模块,具体用于:
[0045] 基于所述目标策略对应的策略分值期望、所述预设策略对应的策略分值期望和预先设置的分值差异算法,确定所述目标策略分值与所述预设策略分值之间的分值差异。
[0046] 可选的,所述装置还包括:
[0047] 平均状态模块,用于基于所述目标城市中各区域状态的平均函数,确定所述目标城市中各区域的平均状态,基于所述目标城市中各区域策略动作的平均函数,确定所述目
标城市中各区域的平均策略动作。
[0048] 第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理
器执行以实现如第一方面所述的方法。
[0049] 第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
[0050] 通过本发明实施例,服务器可以基于目标策略的观测数据,确定目标策略的目标策略分值,由于该分值可以用于对目标策略进行评估,因此,服务器可以通过目标策略分值
判断目标策略的可行性,若目标策略为有益策略,则服务器可以针对目标城市执行该目标
策略,这样,提高了策略调整的效率,节省了人力,解决了供需错配的问题。

附图说明

[0051] 通过以下参照附图对本发明实施例的描述,本发明实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:
[0052] 图1为本发明实施例提供的一种数据处理系统的示意图;
[0053] 图2为本发明实施例提供的一种目标城市各区域的示意图;
[0054] 图3为本发明实施例提供的一种数据处理方法的流程图;
[0055] 图4为本发明实施例提供的一种数据处理装置的结构示意图;
[0056] 图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

[0057] 以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有
这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过
程、流程、元件和电路并没有详细叙述。
[0058] 此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
[0059] 除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
[0060] 在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义
是两个或两个以上。
[0061] 如图1所示,图1为本发明实施例提供的一种数据处理系统,该系统包括:终端设备11和服务器12。
[0062] 其中,终端设备11可以是移动终端(例如智能手机等),也可以是安装于车辆中的车载终端,服务器12可以是单个服务器,也可以是以分布式方式配置的服务器集群。
[0063] 在一种可实现方式中,图1所示的数据处理系统可以用于目标城市的策略选取,终端设备11可以是目标城市中,各网约车司机所使用的智能手机,服务器12可以是网约车平
台的服务器。
[0064] 其中,需要说明的,图1中所示的终端设备11用于表示多个终端,其数量不限于3个,本发明实施例对终端设备11的数量不做限定。
[0065] 目标城市包括:区域1、区域2、区域3、区域4和区域5,其中,目标城市的每个区域分别对应该区域的策略动作、该区域的状态和该区域策略分值。
[0066] 其中,服务器12可以为目标城市配置目标策略,目标策略用于表征目标城市中,用户与用户之间的交互规则,在本发明实施例中,目标策略为区域1‑区域5的策略动作的集
合。
[0067] 服务器12可收集目标城市的观测数据,观测数据可以包括上述策略动作、状态和策略分值,然后服务器12可以根据观测数据确定目标策略的目标策略分值,然后服务器12
可以确定目标策略分值与预设策略分值之间的分值差异,进而根据该分值差异判断目标策
略是否为有益策略。
[0068] 在本发明实施例中,预设策略分值为预设策略对应的分值,预设策略可以是无策略或者是基础策略(基础策略为常用策略)。
[0069] 需要说明的,目标城市以及区域1‑区域5仅为本发明实施例提供一种示例,本发明实施例对目标城市以及其中的分区不做限定。
[0070] 如图2所示,图2为本发明实施例提供的一种目标城市各区域的示意图,其中,目标城市包括:区域1、区域2、区域3、区域4和区域5,目标城市的每个区域分别对应该区域的策
略动作、该区域的状态和该区域策略分值。
[0071] 结合图1所示的内容,服务器12可以为目标城市配置目标策略,目标策略用于表征目标城市中,用户与用户之间的交互规则,在本发明实施例中,目标策略为区域1‑区域5的
策略动作的集合。
[0072] 服务器12还可以收集目标城市的观测数据,观测数据可以包括上述策略动作、状态和策略分值,然后服务器12可以根据观测数据确定目标策略的目标策略分值,然后服务
器12可以确定目标策略分值与预设策略分值之间的分值差异,进而根据该分值差异判断目
标策略是否为有益策略。
[0073] 在本发明实施例中,预设策略分值为预设策略对应的分值,预设策略可以是无策略或者是基础策略(基础策略为常用策略)。
[0074] 结合图1和图2所示的内容,本发明实施例提供一种目标策略的应用场景,在目标城市中包括5个区域(区域1‑区域5),在该5个区域中有若干网约车正在工作,终端设备11为
各网约车的司机所使用的司机端设备,服务器12为网约车策略平台。
[0075] 具体的,区域3为市中心,网约车服务的供需关系为供大于求,区域5为郊区,网约车服务的供需关系为供小于求,此时,网约车策略平台可以针对目标城市11执行目标策略,
例如,在区域3执行空策略(即不执行任何策略动作),在区域5执行激励策略(例如当网约车
司机在区域5接单时,该网约车司机可以获得额外奖励)。
[0076] 这样,可以使得一部分网约车司机为了获取额外奖励,主动前往区域5接单,进而使得区域3和区域5的供需关系均趋近于平衡状态。
[0077] 为了选取最优选的策略,下面将结合具体实施方式,对本发明实施例提供的一种数据处理方法进行详细的说明,该方法应用于服务器,如图3所示,具体步骤如下:
[0078] 在步骤100,确定目标策略。
[0079] 其中,目标策略用于表征目标城市中,用户与用户之间的交互规则。
[0080] 在步骤200,基于目标策略,确定观测数据。
[0081] 其中,观测数据至少用于表征目标城市中各区域的策略动作、目标城市中各区域的状态和目标城市中各区域的区域策略分值。
[0082] 在步骤300,基于观测数据,确定目标策略的目标策略分值。
[0083] 在步骤400,确定目标策略分值与预设策略分值之间的分值差异。
[0084] 其中,预设策略分值为基于预设策略确定的策略分值。
[0085] 在步骤500,响应于分值差异为正值,则确定目标策略为有益策略。
[0086] 通过本发明实施例,服务器可以基于目标策略的观测数据,确定目标策略的目标策略分值,由于该分值可以用于对目标策略进行评估,因此,服务器可以通过目标策略分值
判断目标策略的可行性,若目标策略为有益策略,则服务器可以针对目标城市执行该目标
策略,这样,提高了策略调整的效率,节省了人力,解决了供需错配的问题。
[0087] 需要进一步说明的,每个区域的策略动作用于表征是否在该区域执行策略动作,每个区域的状态至少用于表征该区域的供需数量、供需平衡状态和天气情况等信息,每个
区域的区域策略分值用于评估该区域所执行的策略的可行性,在实际应用中,一个区域的
区域策略分值既可以通过数值直接表示,也可以通过其它数据(例如该区域的收益数值)间
接表示。
[0088] 在本发明实施例中,服务器可以基于多智能体强化学习(Multi‑agent Reinforcement Learning,MARL)框架,将目标城市中的各区域作为MARL中的智能体,进而
确定目标策略分值。
[0089] 其中,MARL是一种分布式计算技术,可以针对MARL中的所有智能体的策略进行运算,进而确定整体的最优解。
[0090] 具体的,在本发明实施例确定策略分值(目标策略分值或者预设策略分值)的过程中,可以针对策略动作、状态以及区域策略分值进行定义。
[0091] 从空间的角度,可以将策略动作定义为Ai={0,1},其中,i用于表征目标城市中的区域,1用于表征在i区域执行该区域的策略动作,0用于表征在i区域不执行该区域的策略
动作。
[0092] 同时,也可以从空间的角度将状态定义为Si,用于表征i区域的状态。
[0093] 进而,目标城市的策略动作可以表示为A=A1×A2×…×AN={0,1}N,目标城市的状态可以表示为S=S1×S2×…×SN。
[0094] 从时间的角度,可以将目标城市中所有区域从0时刻至t时刻的策略动作历史定义N
为 其中,a0,a1,…,at∈{0,1}是一个N维向量的序列。
[0095] 进而,从时间的角度,对于目标城市中每一个区域i∈{0,1,…,N},定义为i区域在目标城市遵循策略 时,t+1时刻的状态,定义 为i区
域在目标城市遵循策略 时,t时刻的区域策略分值。
[0096] 进一步的,可以将目标城市的目标策略定义为π=(π1,π2,…,πN)T,其中,每个πi是关于当前状态的二值函数πi(St)∈{0,1},在策略π下,区域i会在t时刻执行策略动作πi
(St)。
[0097] 对于目标策略π, 是目标策略π的初始策略动作, 是从初始时刻至t时刻的历史策略动作。
[0098] 在本发明实施例中,基于上述定义可以确定目标策略分值的表达式,具体如下所示:
[0099]
[0100] 其中, 用于表征目标策略, 用于表征目标城市执行 时i区域在j时刻的策略分值,Vi(πl)用于表征目标策略分值。
[0101] 在一种可以实施方式中,服务器可以至少基于第一区域在第一时刻的策略动作、第一区域在第一时刻的状态、第一区域在第一时刻的策略动作的策略分值以及第一区域在
预设时间段内各时刻的状态,确定观测数据。
[0102] 其中,第一区域用于表征目标城市中的区域,第一时刻为预设时间段内的时刻。
[0103] 基于上述定义,本发明实施例提供一种可选的实施方式,具体的,确定观测数据的过程可以为基于如下公式确定观测数据:
[0104]
[0105] 其中,用于表征at满足{Ai,j,Si,j,Ri,j}1≤i≤N,0≤j于表征i区域在j时刻的策略动作,Si,j用于表征i区域在j时刻的状态,Ri,j用于表征i区域在
j时刻的策略分值,b用于表征目标城市的观测数据。
[0106] 也就是说,上述i区域可以用于表征第一区域,上述j时刻可以用于表征第一时刻,进而,观测数据可以被表示为{Ai,t,Si,t,Ri,t}1≤i≤N,0≤t≤T,即观测数据包括策略动作、状态以
及策略分值。
[0107] 通过本发明实施例,通过从时间以及空间的角度对策略动作、状态以及区域策略分值进行定义,使得服务器可以结合时间维度和空间维度确定目标策略的目标策略分值,
进而可以使得服务器对目标策略的评估结果更符合实际情况。
[0108] 在一种可实施方式中,为了使目标策略的目标策略分值更准确,可以对目标城市策略动作、状态以及区域策略分值进行条件限定。
[0109] 具体的,目标城市满足一致性假设(Consistency Assumption,CA)、序列随机化假设(Sequential Randomization Assumption,SRA)、马尔可夫假设(Markov Assumption,
MA)和条件平均独立假设(Conditional Mean Independence Assumption,CMIA)。
[0110] 其中,一致性假设用于表征第一区域在第一时刻的状态,与目标城市从起始时刻至第二时刻为止的策略动作相关,其中,起始时刻为预先设置的时刻,第二时刻为第一时刻
之前的时刻。
[0111] 结合 上述 定义 ,本 发明 实施 例中的 一致 性假 设可以 用于表 征成立,其中, 用于表征观测数据中,目标城市从0时刻
至t时刻的策略动作历史。
[0112] 其中,t‑1时刻可以用于表征上述第二时刻。
[0113] 序列随机化假设用于表征目标城市在t时刻的策略动作只与目标城市的策略动作历史,以及目标城市当前的状态有关。
[0114] 马尔可夫假设用于表征目标城市在第一时刻的状态,取决于目标城市在第二时刻的状态和策略动作,也就是说,目标城市在t时刻的状态,取决于目标城市在t‑1时刻的状态
和策略动作。
[0115] 条件平均独立假设用于表征第一区域对应的策略分值期望基于预设期望算法确定。
[0116] 其中,预设期望算法包括第一区域对应的策略动作和状态,结合上述定义,预设期望算法可以表示为:
[0117]
[0118] 其中, 用于表征策略分值期望, 用于表征目标城市从0时刻至t时刻的策略动作历史,ri用于表征目标城市在t时刻执行At后的期望策略分值。
[0119] 通过本发明实施例,由于目标城市的策略动作、状态以及区域策略分值满足上述假设,所以,服务器确定的目标策略分值可以更具有针对性,进而使得目标策略分值更准
确。
[0120] 在服务器确定观测数据后,可以继续确定目标策略分值,但是,在实际应用中,由于目标城市中可能包括过多区域,因此服务器在确定策略分值的过程中可能会遭遇维度灾
难(Curse of Dimensionality),进而导致运算压力剧增。
[0121] 在本发明实施例中,每一个区域的观测数据可以作为一个维度的向量,在服务器计算目标策略分值的过程中,随着区域数量的增加(即维度的增加),服务器的计算量会呈
指数增长,进而导致维度灾难。
[0122] 因此,在一种可实施方式中,为了解决维度灾难的问题,服务器在计算过程中,针对每个区域,可以将该区域限定为只受其相邻区域影响,进而解决维度灾难。
[0123] 在一种可实施方式中,可以基于目标城市中各区域状态的平均函数,确定目标城市中各区域的平均状态,具体的,目标城市中各区域状态的平均函数可以表示为:
[0124]
[0125] 其中, 用于表征目标城市中各区域状态的平均函数。
[0126] 在另一种可实施方式中,可以基于目标城市中各区域策略动作的平均函数,确定目标城市中各区域的平均策略动作,具体的,目标城市中各区域策略动作的平均函数可以
表示为:
[0127]
[0128] 其中, 用于表征目标城市中各区域策略动作的平均函数。
[0129] 通过本发明实施例,可以通过平均函数解决维度灾难的问题,当解决维度灾难的问题后,服务器可以更有效率的确定目标策略的目标策略分值。
[0130] 其中,对于目标城市中的区域i∈{1,…,N},存在区域策略分值 对于任意 aN
∈{0,1},都有
[0131] 令pb(·)和pπ(·)分别作为策略b和策略π下St的分布,其中,策略b和策略π可以为任意策略。
[0132] 然后,令pi,π(·)作为 对应的边际分布,令pi,b(·)作为 对应的边际分布,其中,边际分布(Marginal 
Distribution)指在概率论和统计学的多维随机变量中,只包含其中部分变量的概率分布。
[0133] 进而,可以确定 其中, 可以用于表征区域i影响目标城市状态的权重。
[0134] 更进一步的,本发明实施例提供了两种确定目标策略分值的方式,即本发明提出了两种对目标城市进行仿真模拟的方式,具体如下:
[0135] 在一种可实施方式中,当服务器确定观测数据后,可以基于重要性采样模型确定目标策略分值。
[0136] 具体的,服务器可以基于预设的第一策略分值算法,确定目标策略的目标策略分值,其中,第一策略分值算法基于重要性采样模型构建。
[0137] 更进一步的,服务器基于第一策略分值算法确定目标策略的目标策略分值的过程,具体可以为:
[0138] 基于观测数据,以及如下第一策略分值算法,计算目标策略的目标策略分值;
[0139]
[0140] 其中, 用于表征目标策略分值,w用于表征权重, 为wi的估计值, 通过预设深度学习算法确定, 为指示函数,π用于表征目标策略, 用于表征目标城市
中i区域的策略动作平均函数。
[0141] 重要性采样(importance sampling)是统计学中估计某一分布性质时使用的一种方法,该方法从与原分布不同的另一个分布中采样,而对原先分布的性质进行估计。
[0142] 在本发明实施例中,可以通过重要性采样模型对目标城市进行环境模拟,同时,由于该环境模拟是时间与空间的两个维度的模拟,因此,可以使得目标策略分值更加真实准
确。
[0143] 在另一种可实施方式中,当服务器确定观测数据后,也可以基于双鲁棒模型确定目标策略分值。
[0144] 具体的,服务器可以基于预设的第二策略分值算法,确定目标策略的目标策略分值,其中,第二策略分值算法基于具有鲁棒性的模型构建。
[0145] 更进一步的,服务器基于第二策略分值算法确定目标策略的目标策略分值的过程,具体可以为:
[0146] 基于观测数据,以及如下第二策略分值算法,计算目标策略的目标策略分值;
[0147]
[0148]
[0149] 其中,V用于表征目标策略分值,Q用于表征互补累计分布函数(Q‑function),w用于表征权重, 为指示函数,π用于表征目标策略。
[0150] 在本发明实施例中,鲁棒性(Robust)可以用于表征对数据变化的容忍度,进而,服务器可以通过双鲁棒模型对目标城市进行环境模拟,同时,由于该环境模拟是时间与空间
的两个维度的模拟,因此,可以使得目标策略分值更加真实准确。
[0151] 当服务器确定目标策略分值后,可以确定目标策略分值与预设策略分值之间的分值差异,其中,预设策略可以是无策略或者是目标城市正在使用的策略。
[0152] 具体的,服务器可以基于目标策略对应的策略分值期望、预设策略对应的策略分值期望和预先设置的分值差异算法,确定目标策略分值与预设策略分值之间的分值差异。
[0153] 其中,分值差异可以基于如下公式确定:
[0154]
[0155] 其中,ATE用于表征分值差异,π0用于表征预设策略,πl用于表征目标策略,用于表征目标城市执行 时i区域在j时刻的策略分值。
[0156] 进而,在实际应用中,当服务器确定分值差异后,可以基于该分值差异判断目标策略是否为有益策略。
[0157] 若目标策略分值大于预设策略分值,则表征目标策略为有益策略,即目标策略上线后有益于目标城市的供需平衡,进而解决了供需错配的问题。
[0158] 基于相同的技术构思,本发明实施例还提供了一种数据处理装置,如图4所示,该装置包括:目标策略模块41、观测数据模块42、目标策略分值模块43、分值差异模块44和确
定模块45;
[0159] 目标策略模块41,用于确定目标策略,目标策略用于表征目标城市中,用户与用户之间的交互规则;
[0160] 观测数据模块42,用于基于目标策略,确定观测数据,观测数据至少用于表征目标城市中各区域的策略动作、目标城市中各区域的状态和目标城市中各区域的区域策略分
值;
[0161] 目标策略分值模块43,用于基于观测数据,确定目标策略的目标策略分值;
[0162] 分值差异模块44,用于确定目标策略分值与预设策略分值之间的分值差异,预设策略分值为基于预设策略确定的策略分值;以及
[0163] 确定模块45,用于响应于分值差异为正值,则确定目标策略为有益策略。
[0164] 可选的,观测数据模块42,具体用于:
[0165] 至少基于第一区域在第一时刻的策略动作、第一区域在第一时刻的状态、第一区域在第一时刻的策略动作的策略分值以及第一区域在预设时间段内各时刻的状态,确定观
测数据,第一区域用于表征目标城市中的区域,第一时刻为预设时间段内的时刻。
[0166] 可选的,目标城市满足一致性假设、序列随机化假设、马尔可夫假设和条件平均独立假设;
[0167] 一致性假设,用于表征第一区域在第一时刻的状态,与目标城市从起始时刻至第二时刻为止的策略动作相关,起始时刻为预先设置的时刻,第二时刻为第一时刻之前的时
刻;
[0168] 序列随机化假设,用于表征目标城市在t时刻的策略动作与目标城市的策略动作历史,以及目标城市当前的状态有关;
[0169] 马尔可夫假设,用于表征目标城市在第一时刻的状态,取决于目标城市在第二时刻的状态和策略动作;
[0170] 条件平均独立假设,用于表征第一区域对应的策略分值期望基于预设期望算法确定,预设期望算法包括第一区域对应的策略动作和状态。
[0171] 可选的,目标策略分值模块43,具体用于:
[0172] 基于预设的第一策略分值算法,确定目标策略的目标策略分值,第一策略分值算法基于重要性采样模型构建。
[0173] 可选的,目标策略分值模块43,具体用于:
[0174] 基于预设的第二策略分值算法,确定目标策略的目标策略分值,第二策略分值算法基于具有鲁棒性的模型构建。
[0175] 可选的,分值差异模块44,具体用于:
[0176] 基于目标策略对应的策略分值期望、预设策略对应的策略分值期望和预先设置的分值差异算法,确定目标策略分值与预设策略分值之间的分值差异。
[0177] 可选的,该装置还包括:
[0178] 平均状态模块,用于基于目标城市中各区域状态的平均函数,确定目标城市中各区域的平均状态,基于目标城市中各区域策略动作的平均函数,确定目标城市中各区域的
平均策略动作。
[0179] 通过本发明实施例,服务器可以基于目标策略的观测数据,确定目标策略的目标策略分值,由于该分值可以用于对目标策略进行评估,因此,服务器可以通过目标策略分值
判断目标策略的可行性,若目标策略为有益策略,则服务器可以针对目标城市执行该目标
策略,这样,提高了策略调整的效率,节省了人力,解决了供需错配的问题。
[0180] 图5是本发明实施例的电子设备的示意图。如图5所示,图5所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器51和存储器52。处理器51
和存储器52通过总线53连接。存储器52适于存储处理器51可执行的指令或程序。处理器51
可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器51通过执行存
储器52所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理
和对于其它装置的控制。总线53将上述多个组件连接在一起,同时将上述组件连接到显示
控制器54和显示装置以及输入/输出(I/O)装置55。输入/输出(I/O)装置55可以是鼠标、键
盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装
置。典型地,输入/输出装置55通过输入/输出(I/O)控制器56与系统相连。
[0181] 本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的
实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算
机可读存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序
产品。
[0182] 本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
[0183] 这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指
令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
[0184] 也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设
备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
[0185] 本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
[0186] 即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使
得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各实施例所述方法
的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only 
Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程
序代码的介质。
[0187] 以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同
替换、改进等,均应包含在本发明的保护范围之内。