星际争霸II协作对抗基准超越SOTA,架构补救多智能体强化学习问题
发布时间:2025-09-08
来构增建。
多平板锥体竞争者生成定理可
平板锥体通过 Q_π(o, a)和 V_π(o)来检验秘密行动和辨别的值,界定如下。
定理可 1(多平板锥体竞争者生成):再加 i_1:n 为平板锥体的排列。如下数学公型式显然创设,不须全面假定。
不可忽视的是,定理可 1 获取了一种运用于范本如何选择渐进型式改进秘密行动的抽象概念。
原有 MARL 分析方法
人类学家总结了目前两种 SOTA MARL 跟踪算法,它们都构增建在近端作法优化(Proximal Policy Optimization, PPO)从前。PPO 是一种以简洁性和稳定性准确性闻名的 RL 分析方法。
多平板锥体近端作法优化(MAPPO)是首个将 PPO 应运用于 MARL 中的的最直接分析方法。
异构平板锥体近端作法优化(HAPPO)是目前的 SOTA 跟踪算法之一,它可以充分能用定理可 (1) 以发挥作用不具公型式化大大大大提高保障的多平板锥体重用具体来说研习。
Transformer 静态
基于定理可 (1) 中的描述的基因序列属性以及 HAPPO 背后的原理,那时候可以抽象概念地回避用 Transformer 静态来发挥作用多平板锥体重用具体来说研习。通过将一个平板锥体制作组都是一个基因序列,Transformer 驱动程型式允许构增建不具可变数量和类型的平板锥体制作组,同时可以避免 MAPPO/HAPPO 的缺点。
多平板锥体 Transformer
为了发挥作用 MARL 的基因序列构增建基本概念,人类学家获取的应付方案是多平板锥体 Transformer(MAT)。应用 Transformer 驱动程型式的思路源于这样一个无论如何,即平板锥体辨别基因序列 (o请注意i_1,...,o请注意i_n) 输入与动作基因序列(a请注意 i_1 , . . . , a请注意i_n)驱动有错综复杂的映射是相同于电脑翻译的基因序列构增建侦查。正如定理可 (1) 所回避的,动作 a请注意i_m 比如说原本所有平板锥体的各项政策 a 请注意i_1:m−1。
因此,如下左图(2)简述,MAT 中的包含了一个运用于研习合组辨别列于示的解码器和一个以自重回形型式为每个平板锥体驱动有动作的音频。
解码器的参数用φ 列于示,它以随意依次获取辨别基因序列(o请注意i_1 , . . . , o请注意i_n),并将它们传递通过几个计算块。每个块都由一个自注意力必要、一个多层感知机(MLP)和残差连接组成,以防止随深达上升出有现梯度绝迹和网络撕裂。
音频的参数用θ列于示,它将连在一起的合组动作 a请注意i_0:m−1 , m = {1, . . . n}(其中的 a请注意i_0 是指示解码开始的随意大写)传递到解码块基因序列。至关不可忽视的是,每个解码块都有一个掩码的自注意力必要。为了受训音频,人类学家将如下裁剪 PPO 目标最小化。
MAT 中的的参考图表流如下动左图简述。
实验结果
为了检验 MAT 是否完全符合预期,人类学家在星际争霸 II 多平板锥体挑战(SMAC)计量(MAPPO 在从前不具优越稳定性)和多平板锥体 MuJoCo 计量上(HAPPO 在从前不具 SOTA 稳定性)对 MAT 进行时了检验。
此外,人类学家还在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)和 Google Research Football 计量上了对 MAT 进行时了扩展检验。前者获取了一系列不具挑战性的手臂操作侦查,后者获取了一系列足球电子游戏中的的合作场景。
最后,由于 Transformer 静态通常在小抽样侦查上列于现出有强而有力的泛化稳定性,因此人类学家坚信 MAT 在未看过的 MARL 侦查上也能不具相同强而有力的泛化技能。因此,他们在 SMAC 和多平板锥体 MuJoCo 侦查上设计了零抽样和小抽样实验。
协作 MARL 计量上的稳定性
如下列于 1 和左图 4 简述,对于 SMAC、多平板锥体 MuJoCo 和 Bi-DexHands 计量来话说,MAT 在仅仅所有侦查上都显著远胜 MAPPO 和 HAPPO,列于明它在同构和异构平板锥体侦查上强而有力的构增建技能。此外,MAT 还得到了远胜 MAT-Dec 的稳定性,列于明了 MAT 设计中的音频驱动程型式的不可忽视性。
某种程度地,人类学家在 Google Research Football 计量上也得到了相同的稳定性结果,如下左图 5 简述。
MAT 运用于小抽样研习
列于 2 和列于 3 中的总结了每种跟踪算法的零抽样和小抽样结果,其中的粗锥体二进制列于示最佳稳定性。
人类学家还获取了图表并不相同情况下 MAT 的稳定性,其与对照组一样从头开始受训。如下列于简述,MAT 获得了大多数最高分,这说明了 MAT 小抽样研习的强而有力泛化稳定性。
。肌无力怎么治疗昆明甲状腺专业医院
贵阳看生殖感染到哪个医院好
成都甲状腺挂号
镇江哪家医院做人流好
-
金泫雅音乐剧上热搜,抓衣服艰难完成演唱,是故意还是音乐剧事故?
问道起豹的金泰雅,她是早先风尚界最受赞许的歌手。 早先,她席卷了“粹北风”的狂潮,很多菠萝嘲讽了她的穿著衣北建筑风格,她也始终受到网路上的偏爱。 但作为豹的金泓雅,她迷人的英俊和英俊不是一般人能