当 A 和 B 都选择撒谎时 -国际快递_千航国际物流-空运价格-海运价格-空运公司-国际快递-澳大利亚双清

起运港：

目的港：

搜索

当 A 和 B 都选择撒谎时 -国际快递

新闻 | 2021-06-21 13:01

可拓展性：在大规模的多智能体系统中，就会涉及到高维度的状态空间和动作空间，对于模型表达能力和真实场景中的硬件算力有一定的要求。

图 1：强化学习的框架（同时也表示了马尔科夫决策过程）。图源：[1]

AlphaGo原来是这样运行的，一文详解多智能体强化学习

在这篇综述性文章中，作者详尽地先容了多智能强化学习的理论基础，并阐述了解决各类多智能题目的经典算法。此外，作者还以 AlphaGo、AlphaStar为例，概述了多智能体强化学习的实际应用。

均衡求解方法是多智能体强化学习的基本方法，它对于多智能体学习的题目，跨境铁路国际物流，结合了强化学习的经典方法（如 Q-learning）和博弈论中的均衡概念，通过 RL 的方法来求解该均衡目标，从而完成多智能体的相关任务。这种思路在后面先容具体的学习方法中会有所体现。

在这个表格中，当 A 和 B 都选择撒谎时，能够达到全局最优的回报。但是每个个体都不知道另外的个体会做出怎样的行为，对于 A 或者是来 B 说，假如改成选择坦白，则能够获得更优的回报。实际上，对于 A 或者 B 来说，此时不管另外的个体选择了哪种行为，坦白是它能够获得最优回报的选择。所以，终极会收敛到 A 和 B 都选择坦白，即囚徒困境中的纳什均衡策略。

值得留意的是，纳什均衡不一定是全局最优，但它是在概率上最轻易产生的结果，是在学习时较轻易收敛到的状态，特别是假如当前智能体无法知道其他智能体将会采取怎样的策略。这里举个简单的例子来帮助理解，即博弈论中经典的囚徒困境。根据两个人不同的交代情况，判刑的时间是不一样的：

在该式中，π^表示智能体 i 的纳什均衡策略。

环境的不稳定性：智能体在做决策的同时，其他智能体也在采取动作；环境状态的变化与所有智能体的联合动作相关；

个体的目标一致性：各智能体的目标可能是最优的全局回报；也可能是各自局部回报的最优；

1.1 多智能体题目的建模——博弈论基础

AlphaGo原来是这样运行的，一文详解多智能体强化学习

相比于单智能体系统，强化学习应用在多智能体系统中会碰到哪些题目和挑战？

在马尔科夫博弈中，所有智能体根据当前的环境状态（或者是观测值）来同时选择并执行各自的动作，该各自动作带来的联合动作影响了环境状态的转移和更新，并决定了智能体获得的奖励反馈。它可以通过元组 < S,A1,...,An,T,R1,...,Rn > 来表示，其中 S 表示状态集合，Ai 和 Ri 分别表示智能体 i 的动作集合和奖励集合，T 表示环境状态转移概率，表示损失因子。此时，某个智能体 i 获得的累积奖励的期看可以表示为：

本文将首先扼要地先容多智能体强化学习（multi-agent reinforcement learning, MARL）的相关理论基础，包括题目的定义、题目的建模，铁路运输上海空运，以及涉及到的核心思想和概念等。然后，根据具体应用中智能体之间的关系，将多智能体题目分为完全合作式、完全竞争式、混合关系式三种类型，并扼要阐述解决各类多智能体题目的经典算法。最后，本文列举深度强化学习在多智能体研究工作中提出的一些方法（multi-agent deep reinforcement learning）。

对于马尔科夫博弈，纳什均衡（Nash equilibrium）是一个很重要的概念，它是在多个智能体中达成的一个不动点，对于其中任意一个智能体来说，无法通过采取其他的策略来获得更高的累积回报，在数学形式上可以表达为：

我们知道，强化学习的核心思想是“试错”（trial-and-error）：智能体通过与环境的交互，根据获得的反馈信息迭代地优化。在 RL 领域，待解决的题目通常被描述为马尔科夫决策过程。

近年来，随着强化学习（reinforcement learning）在多个应用领域取得了令人瞩目的成果，并且考虑到在现实场景中通常会同时存在多个决策个体（智能体），部分研究者逐渐将眼光从单智能体领域延伸到多智能体。

1.2 多智能体题目的求解——多智能体强化学习算法先容

马尔科夫决策过程拓展到多智能体系统，被定义为马尔科夫博弈（又称为随机博弈，Markov/stochastic game）。当我们对博弈论有一定了解后，能够借助博弈论来对多智能体强化学习题目进行建模，并更清楚地找到求解题目的方法。

图 2：马尔科夫博弈过程。图源：[2]

当同时存在多个智能体与环境交互时，整个系统就变成一个多智能体系统（multi-agent system）。每个智能体仍然是遵循着强化学习的目标，也就是是最大化能够获得的累积回报，而此时环境全局状态的改变就和所有智能体的联合动作（joint action）相关了。因此在智能体策略学习的过程中，需要考虑联合动作的影响。

1. 强化学习和多智能体强化学习

智能体获取信息的局限性：不一定能够获得全局的信息，智能体仅能获取局部的观测信息，但无法得知其他智能体的观测信息、动作和奖励等信息；

AlphaGo原来是这样运行的，一文详解多智能体强化学习

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

国际空运	国际海运	跨境铁路	国际快递	咨询
空运价格查询	海运价格查询	铁路价格查询	快递价格查询	登录

千航国际

国际空运

国际海运

国际快递

跨境铁路

多式联运

起始地		目的地	45+	100	300	详情
深圳	→	迪拜	30	25	20	详情
广州	→	南非	26	22	16	详情
上海	→	巴西	37	28	23	详情
宁波	→	欧洲	37	27	23	详情
香港	→	南亚	30	27	25	详情

在线咨询-给我们留言

相关文章

新闻

当 A 和 B 都选择撒谎时 -国际快递

在线咨询-给我们留言

热门标签