起运港:
目的港:
国际空运
国际海运
国际快递

当 A 和 B 都选择撒谎时 -国际快递

 新闻     |      2021-06-21 13:01

可拓展性:在大规模的多智能体系统中,就会涉及到高维度的状态空间和动作空间,对于模型表达能力和真实场景中的硬件算力有一定的要求。

图 1:强化学习的框架(同时也表示了马尔科夫决策过程)。图源:[1]

AlphaGo原来是这样运行的,一文详解多智能体强化学习

在这篇综述性文章中,作者详尽地先容了多智能强化学习的理论基础,并阐述了解决各类多智能题目的经典算法。此外,作者还以 AlphaGo、AlphaStar为例,概述了多智能体强化学习的实际应用。

均衡求解方法是多智能体强化学习的基本方法,它对于多智能体学习的题目,跨境铁路 国际物流,结合了强化学习的经典方法(如 Q-learning)和博弈论中的均衡概念,通过 RL 的方法来求解该均衡目标,从而完成多智能体的相关任务。这种思路在后面先容具体的学习方法中会有所体现。

在这个表格中,当 A 和 B 都选择撒谎时,能够达到全局最优的回报。但是每个个体都不知道另外的个体会做出怎样的行为,对于 A 或者是来 B 说,假如改成选择坦白,则能够获得更优的回报。实际上,对于 A 或者 B 来说,此时不管另外的个体选择了哪种行为,坦白是它能够获得最优回报的选择。所以,终极会收敛到 A 和 B 都选择坦白,即囚徒困境中的纳什均衡策略。

值得留意的是,纳什均衡不一定是全局最优,但它是在概率上最轻易产生的结果,是在学习时较轻易收敛到的状态,特别是假如当前智能体无法知道其他智能体将会采取怎样的策略。这里举个简单的例子来帮助理解,即博弈论中经典的囚徒困境。根据两个人不同的交代情况,判刑的时间是不一样的:

在该式中,π^表示智能体 i 的纳什均衡策略。

环境的不稳定性:智能体在做决策的同时,其他智能体也在采取动作;环境状态的变化与所有智能体的联合动作相关;

个体的目标一致性:各智能体的目标可能是最优的全局回报;也可能是各自局部回报的最优;

1.1 多智能体题目的建模——博弈论基础

AlphaGo原来是这样运行的,一文详解多智能体强化学习

相比于单智能体系统,强化学习应用在多智能体系统中会碰到哪些题目和挑战?

在马尔科夫博弈中,所有智能体根据当前的环境状态(或者是观测值)来同时选择并执行各自的动作,该各自动作带来的联合动作影响了环境状态的转移和更新,并决定了智能体获得的奖励反馈。它可以通过元组 < S,A1,...,An,T,R1,...,Rn > 来表示,其中 S 表示状态集合,Ai 和 Ri 分别表示智能体 i 的动作集合和奖励集合,T 表示环境状态转移概率,表示损失因子。此时,某个智能体 i 获得的累积奖励的期看可以表示为:

本文将首先扼要地先容多智能体强化学习(multi-agent reinforcement learning, MARL)的相关理论基础,包括题目的定义、题目的建模,铁路运输 上海空运,以及涉及到的核心思想和概念等。然后,根据具体应用中智能体之间的关系,将多智能体题目分为完全合作式、完全竞争式、混合关系式三种类型,并扼要阐述解决各类多智能体题目的经典算法。最后,本文列举深度强化学习在多智能体研究工作中提出的一些方法(multi-agent deep reinforcement learning)。

对于马尔科夫博弈,纳什均衡(Nash equilibrium)是一个很重要的概念,它是在多个智能体中达成的一个不动点,对于其中任意一个智能体来说,无法通过采取其他的策略来获得更高的累积回报,在数学形式上可以表达为:

我们知道,强化学习的核心思想是“试错”(trial-and-error):智能体通过与环境的交互,根据获得的反馈信息迭代地优化。在 RL 领域,待解决的题目通常被描述为马尔科夫决策过程。

近年来,随着强化学习(reinforcement learning)在多个应用领域取得了令人瞩目的成果,并且考虑到在现实场景中通常会同时存在多个决策个体(智能体),部分研究者逐渐将眼光从单智能体领域延伸到多智能体。

1.2 多智能体题目的求解——多智能体强化学习算法先容

马尔科夫决策过程拓展到多智能体系统,被定义为马尔科夫博弈(又称为随机博弈,Markov/stochastic game)。当我们对博弈论有一定了解后,能够借助博弈论来对多智能体强化学习题目进行建模,并更清楚地找到求解题目的方法。

图 2:马尔科夫博弈过程。图源:[2]

当同时存在多个智能体与环境交互时,整个系统就变成一个多智能体系统(multi-agent system)。每个智能体仍然是遵循着强化学习的目标,也就是是最大化能够获得的累积回报,而此时环境全局状态的改变就和所有智能体的联合动作(joint action)相关了。因此在智能体策略学习的过程中,需要考虑联合动作的影响。

1. 强化学习和多智能体强化学习

智能体获取信息的局限性:不一定能够获得全局的信息,智能体仅能获取局部的观测信息,但无法得知其他智能体的观测信息、动作和奖励等信息;

AlphaGo原来是这样运行的,一文详解多智能体强化学习

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

千航国际
国际空运
国际海运
国际快递
跨境铁路
多式联运
起始地 目的地 45+ 100 300 详情
深圳 迪拜 30 25 20 详情
广州 南非 26 22 16 详情
上海 巴西 37 28 23 详情
宁波 欧洲 37 27 23 详情
香港 南亚 30 27 25 详情

在线咨询-给我们留言