订单派发方法、装置、电子设备及计算机可读存储介质转让专利

申请号 : CN201910281576.2

文献号 : CN111798283A

文献日 : 2020-10-20

相似专利: 请登录后查看

本申请实施例提供了一种订单派发方法、装置、电子设备及计算机可读存储介质，其中，该方法包括：获取服务提供方的属性信息和所述服务提供方接收到的所有关联订单的订单信息；将所述属性信息和所有所述订单信息输入到订单派发策略网络，得到所述服务提供方与各所述关联订单之间的关联度；根据各所述关联度，为服务提供方确定派发订单。本申请实施例能够提高服务提供方对订单的响应率。

1.一种订单派发方法，其特征在于，该方法包括：

获取服务提供方的属性信息和所述服务提供方接收到的所有关联订单的订单信息；

将所述属性信息和所述所有关联订单的订单信息输入到订单派发策略网络，得到所述服务提供方与各所述关联订单之间的关联度；

根据得到的所有关联度，为所述服务提供方确定派发订单，所述派发订单使得所述服务提供方的实际资源和后续订单的预估资源的总量最多。

2.如权利要求1所述的方法，其特征在于，所述属性信息包括所述服务提供方的位置信息和时间信息，所述订单信息至少包括服务起始位置信息、服务结束位置信息和当前订单预估资源。

3.如权利要求1所述的方法，其特征在于，所述根据各所述关联度，为所述服务提供方确定派发订单，包括：将所述关联度最大的订单作为所述服务提供方的派发订单。

4.如权利要求1所述的方法，其特征在于，还包括：

获取第一历史订单；

将所述第一历史订单对应的历史服务提供方的第一历史属性信息、所述第一历史订单对应的第一历史关联度、所述第一历史订单的历史订单特征和所述历史服务提供方的第一历史平均动作输入到第一动作值网络，得到所述第一历史订单的第一预估资源，其中，所述第一历史平均动作为所述历史服务提供方在所述第一历史订单的服务结束位置的历史服务提供方与历史订单的供求关系；

根据所述第一预估资源和所述第一历史关联度，调整所述订单派发策略网络的参数。

5.如权利要求4所述的方法，其特征在于，还包括：

获取第二历史订单，所述第二历史订单为所述第一历史订单服务结束位置处的所述历史服务提供方的关联订单；

将所述历史服务提供方的第二历史属性信息、第二历史关联度、第二历史派发订单的历史订单特征和所述历史服务提供方的第二历史平均动作输入到第二动作值网络，得到所述第二历史订单的第二预估资源，其中，所述第二历史平均动作为所述历史服务提供方在所述第二历史派发订单的服务结束位置的历史服务提供方与历史订单的供求关系；

根据所述第二预估资源和所述第一预估资源，调整所述第一动作值网络的参数。

6.如权利要求5所述的方法，其特征在于，还包括：

获取所述第一动作值网络的参数和所述第二动作值网络的参数；

对所述第一动作值网络的参数和所述第二动作值网络的参数进行加权处理；

基于加权处理结果更新所述第二动作值网络的参数。

7.如权利要求5所述的方法，其特征在于，所述供求关系为历史服务提供方的数量与历史订单的数量的比值。

8.如权利要求4所述的方法，其特征在于，所述第一历史订单是基于将与所述历史服务提供方关联的各第一历史关联订单的关联度输入到玻尔兹曼选择器得到的选择结果确定的。

9.如权利要求1所述的方法，其特征在于，所述关联订单为所述服务提供方所处位置的派单范围内的所有订单。

10.如权利要求1所述的方法，其特征在于，所述实际资源为对所述服务提供方的实际应得资源、所述服务提供方在所述派发订单的服务结束位置的需求潜力和惩罚进行加权处理得到的。

11.一种订单派发装置，其特征在于，该装置包括：

获取模块，用于获取服务提供方的属性信息和所述服务提供方接收到的所有关联订单的订单信息；

处理模块，用于将所述属性信息和所述所有关联订单的订单信息输入到订单派发策略网络，得到所述服务提供方与各所述关联订单之间的关联度；

派发模块，用于根据得到的所有关联度，为所述服务提供方确定派发订单，所述派发订单使得所述服务提供方的实际资源和后续订单的预估资源的总量最多。

12.如权利要求11所述的装置，其特征在于，所述属性信息包括所述服务提供方的位置信息和时间信息，所述订单信息至少包括服务起始位置信息、服务结束位置信息和当前订单预估资源。

13.如权利要求11所述的装置，其特征在于，所述派发模块具体用于：将所述关联度最大的订单作为所述服务提供方的派发订单。

14.如权利要求11所述的装置，其特征在于，还包括：调整模块，所述调整模块用于：获取第一历史订单；

根据所述第一预估资源和所述第一历史关联度，调整所述订单派发策略网络的参数。

15.如权利要求14所述的装置，其特征在于，所述调整模块还用于：获取第二历史订单，所述第二历史订单为所述第一历史订单服务结束位置处的所述历史服务提供方的关联订单；

根据所述第二预估资源和所述第一预估资源，调整所述第一动作值网络的参数。

16.如权利要求15所述的装置，其特征在于，所述调整模块还用于：获取所述第一动作值网络的参数和所述第二动作值网络的参数；

对所述第一动作值网络的参数和所述第二动作值网络的参数进行加权处理；

基于加权处理结果更新所述第二动作值网络的参数。

17.如权利要求16所述的装置，其特征在于，所述供求关系为历史服务提供方的数量与历史订单的数量的比值。

18.如权利要求14所述的装置，其特征在于，所述第一历史订单是基于将与所述历史服务提供方关联的各第一历史关联订单的关联度输入到玻尔兹曼选择器得到的选择结果确定的。

19.如权利要求11所述的装置，其特征在于，所述关联订单为所述服务提供方所处位置的派单范围内的所有订单。

20.如权利要求11所述的装置，其特征在于，所述实际资源为对所述服务提供方的实际应得资源、所述服务提供方在所述派发订单的服务结束位置的需求潜力和惩罚进行加权处理得到的。

21.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至10任一项所述的方法的步骤。

22.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至10任一项所述的方法的步骤。

订单派发方法、装置、电子设备及计算机可读存储介质

技术领域

[0001] 本申请涉及数据处理领域，具体而言，涉及一种订单派发方法、装置、电子设备及计算机可读存储介质。

背景技术

[0002] 随着汽车电子技术的持续快速发展，乘坐出租车出行和预约乘坐私家车出行等出行方式得到了长足发展，在人们日常生活出行中起到了不可替代的作用，为广大人民的日常生活、交通出行带来了极大方便。

[0003] 随着社会的进一步发展，传统的出租车已经不能满足人们出行的需求，为了满足用户的需求，目前市面上出现了网络预约车，方便用户通过用车软件预定符合自己行程的车辆。

[0004] 随着提供服务的出租车和私家车数量的增多，已有的网约车平台在派单时通常通过贪心算法实现派单，贪心算法一般是按照司机和乘客之间的距离派单，优先把订单派给距离最近的司机，或者按照订单的价值排序，优先将价值最高的订单派给派单范围内的司机。但是，通过贪心算法派单时，只关注当前订单队列中的最优订单(如距离最近的订单或价值最高的订单)，无法考虑订单队列中的其它订单，在分配过程中导致部分服务提供方的响应率比较低。

发明内容

[0005] 有鉴于此，本申请的目的在于提供一种订单派发方法、装置、电子设备及计算机可读存储介质，以解决现有技术中服务提供方对订单响应率低的问题。

[0006] 第一方面，本申请实施例提供了一种订单派发方法，该方法包括：

[0007] 获取服务提供方的属性信息和所述服务提供方接收到的所有关联订单的订单信息；

[0008] 将所述属性信息和所述所有关联订单的订单信息输入到订单派发策略网络，得到所述服务提供方与各所述关联订单之间的关联度；

[0009] 根据得到的所有关联度，为所述服务提供方确定派发订单，所述派发订单使得所述服务提供方的实际资源和后续订单的预估资源的总量最多。

[0010] 可选地，所述属性信息包括所述服务提供方的位置信息和时间信息，所述订单信息至少包括服务起始位置信息、服务结束位置信息和当前订单预估资源。

[0011] 可选地，所述根据各所述关联度，为所述服务提供方确定派发订单，包括：

[0012] 将所述关联度最大的订单作为所述服务提供方的派发订单。

[0013] 可选地，还包括：

[0014] 获取第一历史订单；

[0015] 将所述第一历史订单对应的历史服务提供方的第一历史属性信息、所述第一历史订单对应的第一历史关联度、所述第一历史订单的历史订单特征和所述历史服务提供方的第一历史平均动作输入到第一动作值网络，得到所述第一历史订单的第一预估资源，其中，所述第一历史平均动作为所述历史服务提供方在所述第一历史订单的服务结束位置的历史服务提供方与历史订单的供求关系；

[0016] 根据所述第一预估资源和所述第一历史关联度，调整所述订单派发策略网络的参数。

[0017] 可选地，还包括：

[0018] 获取第二历史订单，所述第二历史订单为所述第一历史订单服务结束位置处的所述历史服务提供方的关联订单；

[0019] 将所述历史服务提供方的第二历史属性信息、第二历史关联度、第二历史派发订单的历史订单特征和所述历史服务提供方的第二历史平均动作输入到第二动作值网络，得到所述第二历史订单的第二预估资源，其中，所述第二历史平均动作为所述历史服务提供方在所述第二历史派发订单的服务结束位置的历史服务提供方与历史订单的供求关系；

[0020] 根据所述第二预估资源和所述第一预估资源，调整所述第一动作值网络的参数。

[0021] 可选地，还包括：

[0022] 获取所述第一动作值网络的参数和所述第二动作值网络的参数；

[0023] 对所述第一动作值网络的参数和所述第二动作值网络的参数进行加权处理；

[0024] 基于加权处理结果更新所述第二动作值网络的参数。

[0025] 可选地，所述供求关系为历史服务提供方的数量与历史订单的数量的比值。

[0026] 可选地，所述第一历史订单是基于将与所述历史服务提供方关联的各第一历史关联订单的关联度输入到玻尔兹曼选择器得到的选择结果确定的。

[0027] 可选地，所述关联订单为所述服务提供方所处位置的派单范围内的所有订单。

[0028] 可选地，所述实际资源为对所述服务提供方的实际应得资源、所述服务提供方在所述派发订单的服务结束位置的需求潜力和惩罚进行加权处理得到的。

[0029] 第二方面，本申请实施例提供了一种订单派发装置，该装置包括：

[0030] 获取模块，用于获取服务提供方的属性信息和所述服务提供方接收到的所有关联订单的订单信息；

[0031] 处理模块，用于将所述属性信息和所述所有关联订单的订单信息输入到订单派发策略网络，得到所述服务提供方与各所述关联订单之间的关联度；

[0032] 派发模块，用于根据得到的所有关联度，为所述服务提供方确定派发订单，所述派发订单使得所述服务提供方的实际资源和后续订单的预估资源的总量最多。

[0033] 可选地，所述属性信息包括所述服务提供方的位置信息和时间信息，所述订单信息至少包括服务起始位置信息、服务结束位置信息和当前订单预估资源。

[0034] 可选地，所述派发模块具体用于：

[0035] 将所述关联度最大的订单作为所述服务提供方的派发订单。

[0036] 可选地，还包括：调整模块，所述调整模块用于：

[0037] 获取第一历史订单；

[0038] 将所述第一历史订单对应的历史服务提供方的第一历史属性信息、所述第一历史订单对应的第一历史关联度、所述第一历史订单的历史订单特征和所述历史服务提供方的第一历史平均动作输入到第一动作值网络，得到所述第一历史订单的第一预估资源，其中，所述第一历史平均动作为所述历史服务提供方在所述第一历史订单的服务结束位置的历史服务提供方与历史订单之间的供求关系；

[0039] 根据所述第一预估资源和所述第一历史关联度，调整所述订单派发策略网络的参数。

[0040] 可选地，所述调整模块还用于：

[0041] 获取第二历史订单，所述第二历史订单为所述第一历史订单服务结束位置处的所述历史服务提供方的关联订单；

[0042] 将所述历史服务提供方的第二历史属性信息、第二历史关联度、第二历史派发订单的历史订单特征和所述历史服务提供方的第二历史平均动作输入到第二动作值网络，得到所述第二历史订单的第二预估资源，其中，所述第二历史平均动作为所述历史服务提供方在所述第二历史派发订单的服务结束位置的历史服务提供方与历史订单的供求关系；

[0043] 根据所述第二预估资源和所述第一预估资源，调整所述第一动作值网络的参数。

[0044] 可选地，所述调整模块还用于：

[0045] 获取所述第一动作值网络的参数和所述第二动作值网络的参数；

[0046] 对所述第一动作值网络的参数和所述第二动作值网络的参数进行加权处理；

[0047] 基于加权处理结果更新所述第二动作值网络的参数。

[0048] 可选地，所述供求关系为历史服务提供方的数量与历史订单的数量的比值。

[0049] 可选地，所述第一历史订单是基于将与所述历史服务提供方关联的各第一历史关联订单的关联度输入到玻尔兹曼选择器得到的选择结果确定的。

[0050] 可选地，所述关联订单为所述服务提供方所处位置的派单范围内的所有订单。

[0051] 可选地，所述实际资源为对所述服务提供方的实际应得资源、所述服务提供方在所述派发订单的服务结束位置的需求潜力和惩罚进行加权处理得到的。

[0052] 第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如第一方面所述的方法的步骤。

[0053] 第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面所述方法的步骤。

[0054] 本申请实施例提供的订单派发方法、装置、电子设备及计算机可读存储介质，通过将获取的服务提供方的属性信息和服务提供方接收到的所有关联订单的订单信息输入到订单派发策略网络，得到服务提供方和各关联订单的关联度，进而基于得到的关联度为服务提供方确定派发订单，订单派发策略网络为服务提供方派发的订单使得服务提供方当前和未来的资源最多，这样，可以提高服务提供方对订单的响应率，减少订单响应延迟时长。

[0055] 为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

[0056] 为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

[0057] 图1示出了本申请实施例所提供的一种订单派发方法的第一种流程流程图；

[0058] 图2示出了本申请实施例所提供的一种订单派发方法的第二种流程流程图；

[0059] 图3示出了本申请实施例所提供的一种服务提供方所处派单环境的示意图；

[0060] 图4示出了本申请实施例所提供的一种订单派发方法的第三种流程流程图；

[0061] 图5示出了本申请实施例所提供的一种订单派发方法的第四种流程流程图；

[0062] 图6示出了本申请实施例所提供的一种订单派发装置的结构示意图；

[0063] 图7示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

[0064] 为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

[0065] 另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

[0066] 目前，随着出行需求的增长，用车平台每时每刻都会产生大量的订单，然而在用车平台中，司机的数量通常是小于订单的数量，也就是说，服务提供方的供给小于订单的需求。这种供给需求之间的不平衡使得一些乘客的订单无法分配给相应的司机，进而导致乘客等待时间较长，降低乘客的体验，同时，部分司机也可能没有被派到能带来较大潜在资源的订单，降低司机对订单的响应率，进而导致乘客和司机双方的体验均下降。

[0067] 综合考虑用车平台、乘客、司机的需求，实现司机和乘客的智能匹配具有重要意义。为了提高服务提供方对订单的响应率，用车平台在派单时，考虑司机和订单之间的最佳匹配，在派单时，多个司机之间通常存在接单动作交互，如，位置接近的司机之间派单范围重叠，这种交互潜在地影响着司机对订单的响应率以及局部地区的供求关系，考虑到司机之间的交互，在司机数量一定的情况下，能够实现司机之间的相互协作，然而，在司机数量较多的情况下，导致司机对订单的响应率下降、响应时间延长，所以，亟需一种派单方法以解决服务提供方对订单的响应率低的问题。

[0068] 为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“智能派单”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于出行场景。虽然本申请主要围绕出行场景进行描述，但是应该理解，这仅是一个示例性实施例。

[0069] 本申请实施例可以服务于用车平台，该用车平台用于根据接收的客户端的出行服务请求为用户提供相应的服务。用车平台可以包括多个打车系统，如包括出租车打车系统、快车打车系统、专车打车系统、顺风车打车系统等。

[0070] 本申请实施例通过将获取服务提供方的属性信息和服务提供方接收到的所有关联订单的订单信息输入到订单派发策略网络，得到服务提供方和各关联订单的关联度，进而基于得到的关联度为服务提供方确定派发订单。本申请的订单派发方法不容易受司机数量过多的影响，适用于司机和订单数量随时间变化而变化的场景，具有更好的鲁棒性和实时性。以下针对本申请的技术方案进行详细说明。

[0071] 本申请实施例提供了一种订单派发方法，应用于用车平台服务器，如图1所示，具体包括以下：

[0072] S101，获取服务提供方的属性信息和所述服务提供方接收到的所有关联订单的订单信息；

[0073] 服务提供方一般为司机方，本申请中的服务提供方指用车平台中能够实时为乘客方提供服务的司机，如，服务提供方能够实时接收用车平台广播的订单；服务提供方的属性信息一般包括服务提供方的位置信息和时间信息，位置信息一般为通过全球卫星定位系统(GPS)获得的定位信息，时间信息一般为服务提供方所在位置的时间，如，司机2018年12月20日16:00位于Q街道，位置信息为Q街道的定位信息(北纬40度54分20秒，东经116度23分30秒)，时间信息为16:00。

[0074] 关联订单为所述服务提供方所处位置的派单范围内的所有订单，派单范围一般为预先设置的范围，可以根据实际情况设置，例如，派单范围可以为司机所处位置为中心、半径2公里的圆形范围；订单信息至少包括服务起始位置信息、服务结束位置信息和当前订单预估资源，服务起始位置信息表征当前订单中的服务起始位置，服务结束位置信息表征当前订单中的服务结束位置，当前订单预估资源表征预估的当前订单的价值。

[0075] 在具体实施中，用车平台服务器在获取到服务提供方的位置和时间后，用车平台服务器获取服务提供方所处位置的派单范围中的所有订单的订单信息。

[0076] S102，将所述属性信息和所有所述订单信息输入到订单派发策略网络，得到所述服务提供方与各所述关联订单之间的关联度。

[0077] 这里，订单派发策略网络一般可以为感知器(Perceptron)神经网络，例如，多层感知器(Multilayer Perceptron，MLP)神经网络，感知器神经网络在现有技术已有详细的介绍，此处不进行过多介绍；订单派发策略网络可以通过观察服务提供方所处环境的状态，也就是，服务提供方所处位置的派单范围中的订单，从而对服务提供方的后续订单的不确定性进行估计，使得服务提供方的派发订单的实际资源和后续订单的预估资源的总量最多，而派发订单的实际资源和后续订单的预估资源的总量取决于折扣因子，折扣因子越高，对后续订单的预估资源的考虑程度越高，也就是说，派发订单的实际资源和后续订单的总量也越多，通过订单派发策略网络输出的实际资源和后续订单的预估资源的总量越多的派发订单对应的关联度越大，其中，资源可以为物品、价值等；关联度表征服务提供方与关联订单之间的匹配程度，该关联度可以为打分，关联度越大，表征关联订单与服务提供方之间的匹配程度越高，也就意味着，服务提供方对关联度高的订单的响应率高。

[0078] 在具体实施过程中，获取服务提供方的位置信息、时间信息，以及获取服务提供方所处位置的派单范围中各关联订单的服务起始位置信息、服务结束位置信息以及预估资源，针对每个关联订单，将该关联订单的服务起始位置信息、服务结束位置信息以及预估资源，以及服务提供方的位置信息和时间信息输入到订单派发策略网络，得到服务提供方与该关联订单之间的关联度。

[0079] 例如，服务提供方为司机A，服务提供方上午8:00所处位置为S(定位信息)，司机A的属性信息包括位置S和8:00，司机A在位置S处的派单范围内的订单有T1、T2，订单T1的订单信息为服务起始位置S11、服务结束位置S12、预估资源为M1，订单T2的订单信息为服务起始位置S21、服务结束位置S22、预估资源为M2，将司机A的位置信息、时间信息和订单T1的上述订单信息输入到订单派发策略网络，得到司机A和订单T1的关联度R1，将司机A的位置信息、时间信息和订单T2的订单信息输入到订单派发策略网络，得到司机A和订单T2的关联度R2。

[0080] S103，根据各所述关联度，为所述服务提供方确定派发订单，所述派发订单使得所述服务提供方的实际资源和后续订单的预估资源最多。

[0081] 这里，实际资源表征服务提供方完成订单后实际得到的资源，后续订单为服务提供方完成派发订单之后的订单，预估资源为预估的服务提供方完成后续订单能够得到的资源。其中，资源可以为物品、价值等。

[0082] 在所述根据各所述关联度，为所述服务提供方确定派发订单时，具体包括以下步骤：

[0083] 将所述关联度最大的订单作为所述服务提供方的派发订单。

[0084] 在具体实施中，在得到服务提供方与派单范围内各关联订单之间的关联度后，将关联度按照由大到小的顺序进行排序，将排在首位(也就是，关联度最大)的订单作为服务提供方的派发订单。

[0085] 例如，服务提供方为司机A，司机A的派单范围内包括四个订单，分别为T1、T2、T3、T4，司机A与订单T1的关联度为0.8，司机A与订单T2的关联度为0.9，司机A与订单T3的关联度为0.6，司机A与订单T4的关联度为0.5，最大的关联度为0.9，0.9对应的订单为T1，因此，将订单T1作为派单订单发送给司机A。

[0086] 为了提高订单派发策略网络的准确度，需要调整订单派发策略网络中的参数，以在订单派发过程中使用当前订单数据调整订单派发策略网络的参数，也可以使用用车平台中的历史订单数据对订单派发策略网络的参数进行调整，可以根据实际应用情况确定，本申请对此不予限制。

[0087] 以下针对订单派发策略网络中的参数调整过程进行说明，在具体实施过程中，一般通过对动作值网络的预估值和订单派发策略网络中输出的匹配度进行梯度下降调整订单派发策略网络中的参数，在调整订单派发策略网络中的参数过程中，为了提高订单派发策略网络的准确度，进一步调整动作值网络的参数，以下详细叙述。

[0088] 在调整订单派发策略网络中的参数时，参考图2，该方法还包括以下步骤：

[0089] S201，获取第一历史订单；

[0090] 这里，第一历史订单为历史服务提供方所处位置的派单范围中的订单。

[0091] 第一历史订单是基于将与所述历史服务提供方关联的各第一历史关联订单的关联度输入到玻尔兹曼(Boltzmann)选择器得到的选择结果确定的。其中，玻尔兹曼选择器在现有技术中已有详细的介绍，此处不再进行过多说明。

[0092] 在具体实施中，通过将订单派发策略网络得到的历史服务提供方与各第一历史关联订单之间的关联度输入到玻尔兹曼选择器，得到表征历史服务提供方与各第一历史关联订单的匹配概率，匹配概率越大，表征第一历史关联订单与历史服务提供方之间的匹配度越高，依照玻尔兹曼选择器输出的分布进行一次抽样(如，抽取匹配概率最大的)得到对应的第一历史关联订单作为第一历史订单。其中，第一历史关联订单为历史服务提供方所处位置的派单范围中的所有订单。

[0093] 玻尔兹曼选择器对应的公式如下：

[0094] 其中，j＝1，...，Mi

[0095] 其中，πi(ai，j|oi)为第i个历史服务提供方的第j个第一历史关联订单的概率，μi(oi，ai，j)为第i个历史服务提供方与其第j个第一历史关联订单之间的关联度，β是尺度因子，一般为0到1之间的小数，Mi为第i个历史服务提供方的所有第一历史关联订单，oi为第i个历史服务提供方在第一历史订单的服务起始位置和时间，ai，j为第i个历史服务提供方在服务起始位置的第j个第一历史关联订单，ai，m为第i个历史服务提供方在服务起始位置的第m个关联订单。

[0096] 例如，司机A1的第一历史关联订单为T01、T02、T03，司机A1与T01订单之间的关联度为R1，司机A1与T02订单之间的关联度为R2，司机A1与T02订单之间的关联度为R3，分别将R1、R2、R3输入到玻尔兹曼选择器，得到司机A1的第一历史关联订单为T01之间的匹配概率G1、司机A1的历史关联订单为T02之间的匹配概率G2、司机A1的第一历史关联订单为T03之间的匹配概率G3，若G1为最大匹配概率，则历史关联订单T01为司机A1的第一历史订单。

[0097] S202，将所述第一历史订单对应的历史服务提供方的第一历史属性信息、所述第一历史订单对应的第一历史关联度、所述第一历史订单的历史订单特征和所述历史服务提供方的第一历史平均动作输入到第一动作值网络，得到所述第一历史订单的第一预估资源，其中，所述第一历史平均动作为所述历史服务提供方在所述第一历史订单的服务结束位置的历史服务提供方与历史订单之间的供求关系；

[0098] 这里，第一历史属性信息为历史服务提供方接收第一历史订单时所处位置信息和时间信息，第一历史关联度为订单派发策略网络输出的历史服务提供方与第一历史订单之间的关联度，第一历史订单的历史订单特征为第一历史订单中的服务起始位置信息和服务结束位置信息，第一历史平均动作表征历史服务提供方所处位置的供求关系，第一历史平均动作可以为历史服务提供方在第一历史订单的服务结束位置时，历史服务提供方邻域中的历史服务提供方的数量与派单范围中所有历史订单的数目的比值，其中，邻域为服务提供方所处位置的预设范围内，该预设范围大于派单范围，优选地，在邻域和派单范围为圆形时，邻域的半径是派单范围的半径的两倍，以单独一个服务提供方的派单环境为例，派单环境中服务提供方的邻域以及派单范围可以参考图3；第一动作值网络用于预估历史服务提供方位于第一历史订单对应的服务起始位置的价值，第一动作值网络可以为感知器(Perceptron)神经网络，例如，多层感知器(Multilayer Perceptron，MLP)神经网络，感知器神经网络在现有技术已有详细的介绍，此处不进行过多介绍。

[0099] 在具体实施过程中，将第一历史订单对应的历史服务提供方所处位置的位置信息和时间信息、第一历史订单与历史服务提供方的第一历史关联度、第一历史订单的服务起始位置信息和服务结束位置信息、以及历史服务提供方在第一历史订单的服务结束位置处的供求关系输入到第一动作值网络，得到第一历史订单的第一预估资源。

[0100] 例如，第一历史订单为T0，第一历史订单对应的订单特征为服务起始位置为S01、服务结束位置为S02，历史服务提供方为司机A1，司机A1与第一历史订单之间的关联度为R0，司机A1上午8:00所处位置为S0(GPS信息)，司机A1的第一历史属性信息包括位置S0和8:00，司机A1位于S02位置时，司机A1的邻域内包括N1个历史服务提供方，司机A1的派单范围内包括M1个订单，司机A1的第一历史平均动作为N1/M1，将上述第一历史属性信息、第一历史关联度、第一历史订单的订单特征、以及历史服务提供方的第一历史平均动作输入到第一动作值网络，得到司机A1服务接收到第一历史订单T0的第一预估资源。

[0101] S203，根据所述第一预估资源和所述第一历史关联度，调整所述订单派发策略网络的参数。

[0102] 在具体实施中，采用小批量梯度下降算法对所述第一预估资源和第一历史关联度进行梯度下降迭代处理，调整订单派发策略网络的参数。其中，小批量梯度下降算法在现有技术中已有详细的介绍，此处不再进行过多解释。

[0103] 通过以下公式计算第一预估资源和第一历史关联度之间的梯度：

[0104]

[0105] 其中，为第i个历史服务提供方的订单派发策略网络的输出结果的梯度，为第i个历史服务提供方的第一历史订单对应的第一历史关联度的梯度，为第i个历史服务提供方的第一历史订单对应的第一预估资源的梯
i i
度，a为第i个历史服务提供方在第一历史订单的服务起始位置的关联订单，o 表征第i个历史服务提供方在第一历史订单的服务起始位置和时间，为第i个历史服务提供方的第一历史平均动作。

[0106] 在调整订单派发策略网络的参数时，需要对第一动作值网络的预估资源和订单配发策略网络的输出结果进行梯度下降处理，第一动作值网络得到的预估资源的准确度直接影响调整的订单派发策略网络参数的准确度，提高第一动作值网络的预估准确度可以提高订单派发策略网络的准确度。

[0107] 在调整订单派发策略网络的参数过程中，如图4所示，该方法还包括以下步骤：

[0108] S401，获取第二历史订单，所述第二历史订单为所述第一历史订单服务结束位置处的所述历史服务提供方的关联订单；

[0109] 这里，第二历史订单为所述第一历史订单的服务结束位置处的历史服务提供方的派单范围中的所有订单。

[0110] S402，将所述历史服务提供方的第二历史属性信息、第二历史关联度、第二历史派发订单的历史订单特征和所述历史服务提供方的第二历史平均动作输入到第二动作值网络，得到所述第二历史订单的第二预估资源，其中，所述第二历史平均动作为所述历史服务提供方在所述第二历史派发订单的服务结束位置的历史服务提供方与历史订单的供求关系；

[0111] 这里，第二历史属性信息为历史服务提供方在第一历史订单的服务结束位置所处的位置信息和时间信息，第二历史关联度为订单派发策略网络输出的历史服务提供方与各第二历史订单之间的关联度，第二历史派发订单为历史服务提供方服务结束的订单；第二历史派发订单的历史订单特征为第二历史派发订单中的服务起始位置信息和服务结束位置信息，第二历史平均动作表征历史服务提供方所处位置的供求关系，第二历史平均动作可以为历史服务提供方在第二历史派发订单的服务结束位置时，历史服务提供方邻域中的历史服务提供方的数量与派单范围中所有历史订单的数目的比值，第二动作值网络用于预估历史服务提供方位于第二历史派发订单对应的服务起始位置的可能得到的资源；第二动作值网络可以为感知器(Perceptron)神经网络，例如，多层感知器(Multilayer Perceptron，MLP)神经网络，感知器神经网络在现有技术已有详细的介绍，此处不进行过多介绍。

[0112] 在具体实施过程中，将历史服务提供方所处位置的位置信息和时间信息、第二历史订单与历史服务提供方的第二历史关联度、第二历史派发订单的服务起始位置信息和服务结束位置信息、以及历史服务提供方在第二派发订单的服务结束位置处的供求关系输入到第二动作值网络，得到第二历史订单的第二预估资源。

[0113] 例如，第二历史派发订单为T00，第二历史派发订单对应的订单特征为服务起始位置为S001、服务结束位置为S002，历史服务提供方为司机A1，司机A1派单范围中的第二历史订单包括T001、T002和T003，司机A1与第二历史派发订单之间的关联度为R0，司机A1与第二历史订单T001之间的第二关联度为R11，司机A1与第二历史订单T002之间的第二关联度为R12，司机A1与第二历史订单T003之间的第二关联度为R13，司机A1上午9:00所处位置为S00(GPS信息)，司机A1的第二历史属性信息包括位置S00和9:00，司机A1位于S002位置时，司机A1的邻域内包括N2个历史服务提供方，司机A1的派单范围内包括M2个订单，司机A1的第一历史平均动作为N2/M2，针对每个第二历史订单，将该司机A1的第二历史属性信息、第二历史关联度、第二历史派发订单的订单特征、以及历史服务提供方的第二历史平均动作输入到第二动作值网络，得到司机A1服务各第二历史订单T001、第二历史订单T002、第二历史订单T003对应的各第二预估资源。

[0114] S403，根据所述第二预估资源和所述第一预估资源，调整所述第一动作值网络的参数。

[0115] 在具体实施中，对各第二历史订单的第二预估资源进行加权计算，得到加权平均值，将上述加权平均值、第一历史订单的实际资源以及第一预估资源输入到损失函数，使得损失函数最小调整第一动作值网络的参数。其中，对各第二历史订单的第二预估资源进行加权计算可以为各第二预估资源的和值的平均值。

[0116] 第一历史订单的实际资源为第一历史订单的实际应得资源、第一历史订单在服务结束位置的需求潜力、以及服务第一历史订单的惩罚的加权值，也就是说，分别计算实际应得资源、需求潜力和惩罚与相应权重的乘积的和值，将该和值作为第一历史订单的实际资源。其中，实际应得资源、需求潜力和惩罚的权重可以根据实际情况设定，例如，实际应得资源的权重一般设置为1，需求潜力的权重可以设置为1、3、5、10、20等，惩罚的权重可以设置为3、5、8等。

[0117] 第一历史订单的实际应得资源为历史服务提供方的实际价值，第一历史订单在服务结束位置的需求潜力为，历史服务提供方在第一历史订单的服务结束位置的派单范围中的订单的数量与邻域中的历史服务提供方的数量的差值，接单超时惩罚为基于历史服务提供方与第一历史订单的服务起始位置之间的距离确定的。

[0118] 例如，延续步骤S302中的示例，第一历史订单为T0，T0订单的实际收益(实际资源)为50，第一历史订单对应的订单特征为服务起始位置为S01、服务结束位置为S02，历史服务提供方为司机A1，司机A1与S01之间的距离为1.5公里，此时确定司机A1的接单超时惩罚为-1.5，司机A1位于S02位置时，邻域内服务提供方的数量为5，派单范围内订单数量为7，司机A1的需求潜力为7-5＝2，实际回报资源的权重为1，需求潜力的权重为1，接单超时惩罚的权重为10，司机A1的第一历史订单的实际资源为50+2-15＝37。

[0119] 在调整第一动作值网络参数时，一般通过调整学习目标与第一历史订单的预估资源之间的损失实现的，损失函数的公式如下：

[0120]

[0121] 其中，

[0122]

[0123] 其中，L(φi)为第i个历史服务提供方的损失函数值；ri为第i个历史服务提供方的第一历史订单的实际资源；为第i个历史服务提供方关联的各第二历史订单的预估资源的平均值；为第i个历史服务提供方的第一历史订单的预估资源；γ是折扣因子，一般为0到1之间的小数；oi表征第i个历史服务提供方在其第一历史订单的服务起始位置和时间，ai表征第i个历史服务提供方的第一历史订单，ri表征第i个历史服务提供方的第一历史订单的实际资源，o′i表征第i个历史服务提供方在第一历史订单的服务结束位置和时间；为第i个历史服务提供方的第一历史平均动作；为
第i个历史服务提供方的第二历史订单的预估资源，为玻尔兹曼选择器输出
的第i个历史服务提供方的第二历史订单的概率。

[0124] 在调整第一动作值网络的参数时，将历史服务提供方的第一历史订单的实际资源和第一历史订单之后的各关联订单的预估资源的平均值的和值作为第一历史订单的预估资源的学习目标，也就是说，使得第一历史订单的预估资源无限接近学习目标，当第一历史订单的预估资源与学习目标无限接近时，确定的参数为第一动作值网络的参数。这样，可以使得第一动作值网络得到的预估资源更加准确。

[0125] 由于在调整第一动作值网络的参数时，需要使用第二动作值网络估计的预估资源，第二动作值网络的预估准确度越高，那么，调整的第一动作值网络的准确度越高，因此，在对第一动作值网络的参数进行调整时，同时也会调整第二动作值网络的参数，以下详细介绍第二动作值网络的参数的调整过程。

[0126] 在调整第二动作值网络的参数时，参考图5，包括以下步骤：

[0127] S501，获取所述第一动作值网络的参数和所述第二动作值网络的参数；

[0128] 这里，在更新第二动作值网络参数时获取当前时刻第一动作值网络的参数以及第二动作值网络的参数，第一动作值网络的参数的数目与第二动作值网络的参数的数目相同。

[0129] 为了提高订单派发策略网络的准确度，第一动作值网络的参数会实时进行调整，而第二动作值网络的参数可以在第一动作值网络的参数调整预设次数后再进行调整，这样，可以在不增加处理量的前提下，提高第一动作值网络预估的价值的准确度。

[0130] S502，对所述第一动作值网络的参数和所述第二动作值网络的参数进行加权处理；

[0131] S503，基于加权处理结果更新所述第二动作值网络的参数。

[0132] 预先设置第一动作值网络的参数的权重和第二动作值网络的参数的权重，第一动作值网络的权重大于第二动作值网络的权重，且第一动作值网络的权重与第二动作值网络的权重的和值为1，例如，第一动作值网络的权重设置为0.9，第二动作值网络的权重设置为0.1。这样，使得第二动作值网络的参数不会降低太多。

[0133] 在具体实施中，针对第一动作值网络中的每个参数，计算该参数与相应权重的乘积，将该乘积作为该参数的第一值，针对第二动作值网络中的每个参数，计算该参数与相应权重的乘积，将该乘积作为该参数的第二值，分别计算各第一值与相应第二值的和值，根据计算的各和值，更新第二动作值网络中的参数。

[0134] 例如，第一动作值网络和第二动作值网络中包含的参数均为3个，第一动作值网络的权重为0.9，第二动作值网络的权重为0.1，第一动作值网络中的参数分别为α1、α2、α3，第二动作值网络的参数为γ1、γ2、γ3，第一动作值网络中参数与权重的乘积分别为0.9*α1、0.9*α2、0.9*α3，第二动作值网络中参数与权重的乘积分别为0.1*γ1、0.1*γ2、0.1*γ3，将第二动作值网络中的参数γ1更新为0.9*α1+0.1*γ1，将第二动作值网络中的参数γ2更新为0.9*α2+0.1*γ2，将第二动作值网络中的参数γ3更新为0.9*α3+0.1*γ3。

[0135] 在一种实施方式中，在用车平台中的各服务提供方服务完的历史订单数据后，记录各服务提供方的当前订单的关联信息，当前订单的关联信息包括当前订单的服务开始位置时的服务提供方的历史属性信息、当前订单的关联度和订单特征、当前订单的服务结束位置处的平均动作，以及相应各服务提供方的下一个订单的服务起始位置的关联订单的关联信息，下一个订单的服务起始位置的关联订单的关联信息包括服务提供方的历史属性信息、下一个订单的关联订单的关联度，下一个订单的订单特征、下一个订单的服务结束位置处的平均动作，将每个服务提供方的当前订单和下一个订单作为一个订单对。

[0136] 从获取的各历史订单数据中，选择部分订单对，将订单对中当前订单的关联信息输入到第一动作值网络，得到当前订单的预估资源，将订单对中下一个订单的服务起始位置的关联订单的关联信息输入到第二动作值网络得到各关联订单的预估资源。

[0137] 分别计算各关联订单的预估资源的平均值，将当前订单的实际资源和上述平均值作为第一动作值网络的学习目标，使得第一动作值网络的预估资源与学习目标之间的差最小调整第一动作值网络的参数。

[0138] 在调整完第一动作值网络的参数后，从获取的各历史订单数据中，选择另外一部分订单对，将选择的该部分订单对中的当前订单的关联信息输入到第一动作值网络，得到当前订单的预估资源，利用小批量梯度下降算法来降低第一动作值网络的预估资源和订单派发策略网络的匹配度之间的梯度，目的在于调整订单派发策略网络的参数。

[0139] 事实上每次调整订单派发策略网络的参数时，均会调整第一动作值网络的参数，为了减少订单派网络网络的参数调整过程的数据处理量，第二动作值网络的参数可以在第一动作值网络的参数调整过如100次之后，调整一次第二动作值网络的参数，在调整第二动作值网络参数时，获取第100次调整后的第一动作值网络的参数以及当前第二动作值网络中的参数，对第一动作值网络的参数和第二动作值网络中的参数进行加权处理，基于处理结果，更新第二动作值网络的参数。

[0140] 每调整完一次订单派发策略网络的参数，可以将该订单派发策略网络应用于用车平台进行派单，事实上，在订单派发策略网络参数调整过程中，会得到大量的订单派发策略网络，不同的订单派发策略网络的参数不同，为了使得用车平台尽可能为服务提供方派发更多的、响应率高的订单，从历史订单数据中，选取多个派单周期中的已完成订单，其中，派单周期可以为预设天数，例如，派单周期为1天、2天、7天等。

[0141] 将派单周期中的各服务提供方的属性信息和关联订单的订单信息输入到订单派发策略网络，得到各服务提供方的派发订单，预估各派发订单的预估资源，判断每个派单周期中所有服务提供方的预估资源是否收敛，也就是说，判断派单周期中所有服务提供方的预估资源的总和是否不再增加，在确定当前派单周期中所有服务提供方的预估资源收敛后，也就是，派单周期中所有服务提供方的预估资源的总和不再增加，则确定当前的订单派发策略网络为最终确定的订单派发策略网络，该订单派发策略网络派发的订单会得到较高的响应率，也会提高乘客的体验。

[0142] 本申请实施例提供的订单派发方法、装置、电子设备及计算机可读存储介质，通过将获取的服务提供方的属性信息和服务提供方接收到的所有关联订单的订单信息输入到订单派发策略网络，得到服务提供方和各关联订单的关联度，进而基于得到的关联度为服务提供方确定派发订单，订单派发策略网络为服务提供方派发的订单使得服务提供方当前和未来的资源最多，且该方法不容易受派单环境中服务提供方数量过大的影响，适用于服务提供方和订单数量随时间变化而变化的派单场景，具有更好的鲁棒性和实时性，通过订单派发策略网络派发的订单，一方面，提高了服务提供方对订单的响应率，减少由于订单不平衡带来的订单响应延迟时长，另一方面，提高了服务请求方的体验。

[0143] 本申请实施例提供了一种订单派发装置60，如图6所示，包括：

[0144] 获取模块61，用于获取服务提供方的属性信息和所述服务提供方接收到的所有关联订单的订单信息；

[0145] 处理模块62，用于将所述属性信息和所述所有关联订单的订单信息输入到订单派发策略网络，得到所述服务提供方与各所述关联订单之间的关联度；

[0146] 派发模块63，用于根据得到的所有关联度，为所述服务提供方确定派发订单，所述派发订单使得所述服务提供方的实际资源和后续订单的预估资源的总量最多。

[0147] 在一种实施方式中，所述属性信息包括所述服务提供方的位置信息和时间信息，所述订单信息至少包括服务起始位置信息、服务结束位置信息和当前订单预估资源。

[0148] 在一种实施方式中，所述派发模块63具体用于：

[0149] 将所述关联度最大的订单作为所述服务提供方的派发订单。

[0150] 在一种实施方式中，还包括：调整模块64，所述调整模块64用于：

[0151] 获取第一历史订单；

[0152] 将所述第一历史订单对应的历史服务提供方的第一历史属性信息、所述第一历史订单对应的第一历史关联度、所述第一历史订单的历史订单特征和所述历史服务提供方的第一历史平均动作输入到第一动作值网络，得到所述第一历史订单的第一预估资源，其中，所述第一历史平均动作为所述历史服务提供方在所述第一历史订单的服务结束位置的历史服务提供方与历史订单的供求关系；

[0153] 根据所述第一预估资源和所述第一历史关联度，调整所述订单派发策略网络的参数。

[0154] 在一种实施方式中，所述调整模块64还用于：

[0155] 获取第二历史订单，所述第二历史订单为所述第一历史订单服务结束位置处的所述历史服务提供方的关联订单；

[0156] 将所述历史服务提供方的第二历史属性信息、第二历史关联度、第二历史派发订单的历史订单特征和所述历史服务提供方的第二历史平均动作输入到第二动作值网络，得到所述第二历史订单的第二预估资源，其中，所述第二历史平均动作为所述历史服务提供方在所述第二历史派发订单的服务结束位置的历史服务提供方与历史订单的供求关系；

[0157] 根据所述第二预估资源和所述第一预估资源，调整所述第一动作值网络的参数。

[0158] 在一种实施方式中，所述调整模块64还用于：

[0159] 获取所述第一动作值网络的参数和所述第二动作值网络的参数；

[0160] 对所述第一动作值网络的参数和所述第二动作值网络的参数进行加权处理；

[0161] 基于加权处理结果更新所述第二动作值网络的参数。

[0162] 在一种实施方式中，所述供求关系为历史服务提供方的数量与历史订单的数量的比值。

[0163] 在一种实施方式中，所述第一历史订单是基于将与所述历史服务提供方关联的各第一历史关联订单的关联度输入到玻尔兹曼选择器得到的选择结果确定的。

[0164] 在一种实施方式中，所述关联订单为所述服务提供方所处位置的派单范围内的所有订单。

[0165] 在一种实施方式中，所述实际资源为对所述服务提供方的实际应得资源、所述服务提供方在所述派发订单的服务结束位置的需求潜力和惩罚进行加权处理得到的。

[0166] 本申请实施例还提供了一种电子设备700，电子设备700可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的订单派发方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

[0167] 如图7所示，电子设备700可以包括连接到网络的网络端口701、用于执行程序指令的一个或多个处理器702、通信总线703、和不同形式的存储介质704，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备700还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口705。

[0168] 为了便于说明，在电子设备700中仅描述了一个处理器。然而，应当注意，本申请中的电子设备700还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备700的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

[0169] 下面以一个处理器为例，处理器702执行存储介质704中存储的如下程序指令：

[0170] 获取服务提供方的属性信息和所述服务提供方接收到的所有关联订单的订单信息；

[0171] 将所述属性信息和所述所有关联订单的订单信息输入到订单派发策略网络，得到所述服务提供方与各所述关联订单之间的关联度；

[0172] 根据得到的所有关联度，为所述服务提供方确定派发订单，所述派发订单使得所述服务提供方的实际资源和后续订单的预估资源的总量最多。

[0173] 上述属性信息包括所述服务提供方的位置信息和时间信息，所述订单信息至少包括服务起始位置信息、服务结束位置信息和当前订单预估资源。

[0174] 在一种实施方式中，处理器702执行的程序指令具体用于根据各所述关联度，为所述服务提供方确定派发订单，包括：

[0175] 将所述关联度最大的订单作为所述服务提供方的派发订单。

[0176] 在一种实施方式中，处理器702执行的程序指令具体还用于：

[0177] 获取第一历史订单；

[0178] 将所述第一历史订单对应的历史服务提供方的第一历史属性信息、所述第一历史订单对应的第一历史关联度、所述第一历史订单的历史订单特征和所述历史服务提供方的第一历史平均动作输入到第一动作值网络，得到所述第一历史订单的第一预估资源，其中，所述第一历史平均动作为所述历史服务提供方在所述第一历史订单的服务结束位置的历史服务提供方与历史订单的供求关系；

[0179] 根据所述第一预估资源和所述第一历史关联度，调整所述订单派发策略网络的参数。

[0180] 在一种实施方式中，处理器702执行的程序指令具体还用于：

[0181] 获取第二历史订单，所述第二历史订单为所述第一历史订单服务结束位置处的所述历史服务提供方的关联订单；

[0182] 将所述历史服务提供方的第二历史属性信息、第二历史关联度、第二历史派发订单的历史订单特征和所述历史服务提供方的第二历史平均动作输入到第二动作值网络，得到所述第二历史订单的第二预估资源，其中，所述第二历史平均动作为所述历史服务提供方在所述第二历史派发订单的服务结束位置的历史服务提供方与历史订单的供求关系；

[0183] 根据所述第二预估资源和所述第一预估资源，调整所述第一动作值网络的参数。

[0184] 在一种实施方式中，处理器702执行的程序指令具体还用于：

[0185] 获取所述第一动作值网络的参数和所述第二动作值网络的参数；

[0186] 对所述第一动作值网络的参数和所述第二动作值网络的参数进行加权处理；

[0187] 基于加权处理结果更新所述第二动作值网络的参数。

[0188] 上述供求关系为历史服务提供方的数量与历史订单的数量的比值。

[0189] 上述第一历史订单是基于将与所述历史服务提供方关联的各第一历史关联订单的关联度输入到玻尔兹曼选择器得到的选择结果确定的。

[0190] 上述关联订单为所述服务提供方所处位置的派单范围内的所有订单。

[0191] 上述实际资源为对所述服务提供方的实际应得资源、所述服务提供方在所述派发订单的服务结束位置的需求潜力和惩罚进行加权处理得到的。

[0192] 对应于图1至图5中的订单派发方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述订单派发方法的步骤。

[0193] 具体地，该计算机可读存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述订单派发方法，从而解决现有技术中派单不平衡的问题。

[0194] 基于相同的技术构思，本申请实施例还提供了一种计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行上述订单派发方法的步骤，具体实现可参见上述方法实施例，在此不再赘述。

[0195] 本申请实施例提供的订单派发方法、装置、电子设备及计算机可读存储介质，通过将获取的服务提供方的属性信息和服务提供方接收到的所有关联订单的订单信息输入到订单派发策略网络，得到服务提供方和各关联订单的关联度，进而基于得到的关联度为服务提供方确定派发订单，订单派发策略网络为服务提供方派发的订单使得服务提供方当前和未来的资源最多，且该方法不容易受派单环境中服务提供方数量过大的影响，适用于服务提供方和订单数量随时间变化而变化的派单场景，具有更好的鲁棒性和实时性，通过订单派发策略网络派发的订单，一方面，提高了服务提供方对订单的响应率，减少由于订单不平衡带来的订单响应延迟时长，另一方面，提高了服务请求方的体验。

[0196] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

[0197] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0198] 另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

[0199] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

[0200] 以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

订单派发方法、装置、电子设备及计算机可读存储介质转让专利

申请号 : CN201910281576.2

文献号 : CN111798283A

文献日 : 2020-10-20

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 秦志伟 , 焦岩 , 黎敏讷 , 王晨曦 , 汪军 , 吴国斌 , 叶杰平 , 宫志晨 , 杨耀东

申请人 : 北京嘀嘀无限科技发展有限公司

摘要 :

权利要求 :

说明书 :