用人工智能和仿真解决的工业问题

AI在生产线上

工程Ingegneria Informatica.(EII),我们看到了集成模拟和机器学习的巨大潜力。这个简短的博客介绍了一个工业问题及其强化学习解决方案,使用AnyLogic制作,由EII开发。AnyLogic的灵活性和可定制性允许我们使用Pathmind,创建一个混合平台。

继续读下去,找出问题所在,并看看如何通过让代理与AnyLogic环境交互来训练它们。您还将学习用于以适合机器学习的方式表述工业问题的技术。

为什么是模拟和机器学习?

虽然机器学习的三个主要范例之间存在许多差异(监督,无监督和加强),但它们也分享一个重要特征:渴望数据。其中,加强学习是不仅需要大多数数据来达到最佳解决方案的学习,而且需要与现场环境建立链接以获取此数据的数据。

由于成本高、风险高以及与之相关的物理时间限制,很难获得实时环境和大型数据源。正因为如此,强化学习领域最近的许多突破都来自于与游戏的互动,游戏提供了一个安全、自由、轻松的互动环境。

除了游戏,模拟建模还消除了与现实世界系统相关的主要限制。它的价格非常低,没有风险,并且有虚拟时间执行的可能性(例如,在几秒钟内模拟整个系统的演变)。这些特性使模拟成为在业务环境中训练强化学习代理的最可行的环境。

问题描述

想象一个制造重工业零部件的工厂。生产线由几个自动化工作站组成,由于产品的重量,重型输送系统连接这些工作站-这是铁芯生产的情况。

对于上述工厂来说,这些铁芯是高度定制的,以满足每个变压器的具体要求,因此,生产周期和铁芯在生产线上的移动不容易实现自动化。

在任何时候,生产线经理都需要考虑每个单独的生产周期并提前计划几个核心的生产过程。尽管尽了最大的努力,瓶颈和线路堵塞还是会发生,工厂的钱也要花。最大的问题是生产线上不同物体的移动和如何管理它们。

在制造过程的最后一个铁磁核心18新利luck娱乐官网

在制造过程的最后一个铁磁核心18新利luck娱乐官网

阻塞和瓶颈的一个例子

在不同生产周期的岩心制造中出现堵塞和瓶颈的一个例子18新利luck娱乐官网

解决方案

解决方案涉及到决定生产线上核心的移动的强化学习代理。这些代理的目标是在工作站之间找到完成核心生产的最短路径。

真实世界系统的稳健模拟模型是培训代理的策略,也需要将问题分解为较小的任务。这些较小的任务被分配给单个学习代理,然后学习如何使用任何初始布局。换句话说,到达工作站目标的主要任务被分解为由代理的集合管理的较小任务。

加强学习使用DDQN算法,因为它们已经显示了合理的采样效率,并且当动作空间是离散的方式时,可以有效地使用 - 此问题的任何给定时间的可能动作的数量是64。

每种运动都会收到小的负奖励(rn)直到达到最终位置并获得大量奖励(Rp)。然而,考虑到大量的国家行动对(大约3600万对),这样的奖励计划是相当稀少的。为了解决这个问题,添加另一种奖励机制创造了一个更密集的奖励功能——每当一个代理决定移动一个靠近核心的物体,或者核心本身,它就会得到一个小奖励(r)关于rp。奖励机制可概括为:

  • rp:所采取的行动在最终位置结束时的奖励(如rp= 1000)
  • r:如果采取的操作将核心或靠近核心的对象移动(例如,r= 1)
  • rn:其他情况下的奖励(例如,rn= 1)。

r的引入通过了解移动核心或接近它的对象来支持,将增加到达最终位置的概率。值得注意的是,RL试图在集中累计奖励最大化;因此,R.应该足够小,使这些小奖励的最大积累远远小于rp(例如,一集的最大动作< rp)。

如果r如果不够小,代理可能会学习到一种策略,在这种策略中,它只是重复为自己提供小奖励的行为。例如,考虑到上面列表中给出的奖励,如果每个章节的长度是1000个动作,那么代理就不需要学习如何到达最终位置;只要它学会如何来回移动核心,它就可以在整个章节中做到这一点,并获得1000个累积奖励。OpenAI将在本文中进一步观察和讨论这个问题在野外错误的奖励功能的例子。

一开始,agent不知道对象的位置和可用操作之间的联系,所以它会做出随机决策,有时这些决策在物理上是无效的(下面视频中的红色箭头),并且不会导致状态改变。


代理人的早期决策

从上面的视频中可以看出,大多数agent的随机决策不能移动布局中的对象。无论如何,代理将所有这些交互作用存储在内存中,并通过探索新动作发现更好的动作。与环境交互的丰富经验使代理能够最终推断出任何给定情况下的最佳决策。经过训练,agent可以高效地执行任务,如下图所示。

在下面的短视频中,agent需要取一个core,从任意给定的位置,到中间的平台T16。每次它到达目标时,布局就会随机化,并重新开始模拟。然后,代理再次成功地执行必要的动作。


选择路径的代理

最后,通过将一组训练有素的特工组合在一起,就像上面视频中显示的那样,他们可以在布局中达到一系列目标。


一群代理人

健壮的建模和连通性

通过准确地捕获AnyLogic仿真模型中的生产线,EII能够成功地应用深层增强学习。结果提供了一种可以有效地管理生产线运动的策略。该项目成功的关键是AnyLogic以适当的方式捕获系统的能力以及它提供与机器学习技术连接的可能性 - 了解更多信息AnyLogic人工智能

这个例子是由Engineering Ingegneria Informatica使用AnyLogic和Pathmind强化学习。

相关的帖子

Baidu