可拓展性:在大规模的多智能体系统中,就会涉及到高维度的状态空间和动作空间,对于模型表达能力和真实场景中的硬件算力有一定的要求。
图 1:强化学习的框架(同时也表示了马尔科夫决策过程)。图源:[1]
在这篇综述性文章中,作者详尽地先容了多智能强化学习的理论基础,并阐述了解决各类多智能题目的经典算法。此外,作者还以 AlphaGo、AlphaStar为例,概述了多智能体强化学习的实际应用。
均衡求解方法是多智能体强化学习的基本方法,它对于多智能体学习的题目,跨境铁路 国际物流,结合了强化学习的经典方法(如 Q-learning)和博弈论中的均衡概念,通过 RL 的方法来求解该均衡目标,从而完成多智能体的相关任务。这种思路在后面先容具体的学习方法中会有所体现。
在这个表格中,当 A 和 B 都选择撒谎时,能够达到全局最优的回报。但是每个个体都不知道另外的个体会做出怎样的行为,对于 A 或者是来 B 说,假如改成选择坦白,则能够获得更优的回报。实际上,对于 A 或者 B 来说,此时不管另外的个体选择了哪种行为,坦白是它能够获得最优回报的选择。所以,终极会收敛到 A 和 B 都选择坦白,即囚徒困境中的纳什均衡策略。
值得留意的是,纳什均衡不一定是全局最优,但它是在概率上最轻易产生的结果,是在学习时较轻易收敛到的状态,特别是假如当前智能体无法知道其他智能体将会采取怎样的策略。这里举个简单的例子来帮助理解,即博弈论中经典的囚徒困境。根据两个人不同的交代情况,判刑的时间是不一样的:
在该式中,π^表示智能体 i 的纳什均衡策略。
环境的不稳定性:智能体在做决策的同时,其他智能体也在采取动作;环境状态的变化与所有智能体的联合动作相关;
个体的目标一致性:各智能体的目标可能是最优的全局回报;也可能是各自局部回报的最优;
1.1 多智能体题目的建模——博弈论基础
相比于单智能体系统,强化学习应用在多智能体系统中会碰到哪些题目和挑战?
在马尔科夫博弈中,所有智能体根据当前的环境状态(或者是观测值)来同时选择并执行各自的动作,该各自动作带来的联合动作影响了环境状态的转移和更新,并决定了智能体获得的奖励反馈。它可以通过元组 < S,A1,...,An,T,R1,...,Rn > 来表示,其中 S 表示状态集合,Ai 和 Ri 分别表示智能体 i 的动作集合和奖励集合,T 表示环境状态转移概率,表示损失因子。此时,某个智能体 i 获得的累积奖励的期看可以表示为:
本文将首先扼要地先容多智能体强化学习(multi-agent reinforcement learning, MARL)的相关理论基础,包括题目的定义、题目的建模,铁路运输 上海空运,以及涉及到的核心思想和概念等。然后,根据具体应用中智能体之间的关系,将多智能体题目分为完全合作式、完全竞争式、混合关系式三种类型,并扼要阐述解决各类多智能体题目的经典算法。最后,本文列举深度强化学习在多智能体研究工作中提出的一些方法(multi-agent deep reinforcement learning)。
对于马尔科夫博弈,纳什均衡(Nash equilibrium)是一个很重要的概念,它是在多个智能体中达成的一个不动点,对于其中任意一个智能体来说,无法通过采取其他的策略来获得更高的累积回报,在数学形式上可以表达为:
我们知道,强化学习的核心思想是“试错”(trial-and-error):智能体通过与环境的交互,根据获得的反馈信息迭代地优化。在 RL 领域,待解决的题目通常被描述为马尔科夫决策过程。
近年来,随着强化学习(reinforcement learning)在多个应用领域取得了令人瞩目的成果,并且考虑到在现实场景中通常会同时存在多个决策个体(智能体),部分研究者逐渐将眼光从单智能体领域延伸到多智能体。
1.2 多智能体题目的求解——多智能体强化学习算法先容
马尔科夫决策过程拓展到多智能体系统,被定义为马尔科夫博弈(又称为随机博弈,Markov/stochastic game)。当我们对博弈论有一定了解后,能够借助博弈论来对多智能体强化学习题目进行建模,并更清楚地找到求解题目的方法。
图 2:马尔科夫博弈过程。图源:[2]
当同时存在多个智能体与环境交互时,整个系统就变成一个多智能体系统(multi-agent system)。每个智能体仍然是遵循着强化学习的目标,也就是是最大化能够获得的累积回报,而此时环境全局状态的改变就和所有智能体的联合动作(joint action)相关了。因此在智能体策略学习的过程中,需要考虑联合动作的影响。
1. 强化学习和多智能体强化学习
智能体获取信息的局限性:不一定能够获得全局的信息,智能体仅能获取局部的观测信息,但无法得知其他智能体的观测信息、动作和奖励等信息;
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
千航国际 |
国际空运 |
国际海运 |
国际快递 |
跨境铁路 |
多式联运 |