产品交付强化学习

一篇关于在AnyLogic中使用Pathmind Reinforcement Learning的客座博客文章阿古斯丁埃森哲的。Pathmind RL在AnyLogic的Pathmind RL实验中可用-了解更多.


随着新技术的出现,市场力量驱使行业寻找实现新技术的方法,以获得优势或保持竞争力。18luck手机官网随着时间的推移,新的工具被开发出来,帮助使这项技术更容易使用和更广泛地应用。为了专注于改进供应链决策过程,埃森哲采用了AnyLogic产品交付示例模型(也可在AnyLogic云)并用它来证明新强化学习(RL)机会的力量。


继续阅读,了解该模型及其如何使用强化学习,然后按照教程进行操作。

Pathmind机会

为了实现这一目标,埃森哲与总部位于旧金山的人工智能公司Pathmind合作。Pathmind将最新的RL算法与AnyLogic仿真建模相结合。这种配对对于政策培训是至关重要的,因为学习算法需要时间来学习在不同情况下哪种行动最有效——而这种时间在计算环境之外是很难提供的。

在这种情况下,没有比模拟环境更好的训练场地了,因为与实际测试相比,相关成本最低。此外,一个模拟环境可以在不同的条件下运行多次,允许RL算法在数千年的模拟可能性上进行训练。


RL模型

定义神经网络有三个关键要素。这些元素是:观察空间、行动空间和奖励功能。

观测空间

这是RL代理看到的。它只会在决定采取何种行动时调查这些变量。提供在真实环境中可用的信息是很重要的,因为最终目标是让它在那里工作。

对于我们的模型,我们选择给代理以下数据:

  • 股票信息:每个制造中心的当前库存18新利luck娱乐官网
  • 启动车辆:每个制造中心拥有的车辆数量18新利luck娱乐官网
  • 免费的汽车:每个制造中心拥有的可用车辆数量18新利luck娱乐官网
  • 订单数量:订购的项目数。如果没有为配送中心下订单,则为0

动作空间

动作空间是RL代理可以做出决策的动作范围。在本例中,动作空间是一个大小为15x3的向量。当15个配送中心创建订单时,RL代理决定3个制造中心中的哪一个应该完成每一个订单。18新利luck娱乐官网如果没有生成订单,则忽略该配送中心的操作。

奖励函数

奖励功能是告知RL代理其表现是否良好的方式。RL将接受培训,以最大限度地发挥这一功能。我们的奖励功能非常简单:


奖励=。avgWaitingTime——之后。AvgWaitingTime


这意味着我们只会尽量缩短等待时间。如果等待时间增加,函数将变得越来越负,因此RL代理知道它的性能很差。

图1:训练时的AvgWaitingTime(蓝色)和avgdistancetravelled(绿色)

图1:训练时的AvgWaitingTime(蓝色)和avgdistancetravelled(绿色)

图2:训练时的平均奖励

图2:培训期间的平均奖励。

结果

等待时间结果。
等待时间结果。

结果非常好。该方法产生的等待时间比最近的代理启发式算法短四倍多。RL之所以比其他启发式方法有如此大的差异,是因为它可以解释这样一个事实,即有时工厂因需求而超负荷。这里的主要区别在于RL策略学习了动态分配订单。当离配送中心最近的工厂即将达到产能时,RL代理商会在更远的工厂下订单。这有助于使生产能力与需求相匹配。其他方法是静态的,不能适应需求的突然变化。



尝试一下,然后按照教程进行操作

此仿真模型在AnyLogic云中公开可用。你可以你自己试试吧.

遵循从Pathmind教程.

了解更多有关在我们的专用服务器上使用Pathmind在AnyLogic中进行强化学习的信息Pathmind页面.

相关职位

Baidu