非完全信息下人机合作对抗博弈专题
编者按
康宇, 段海滨, 赵云波
中国科学: 信息科学, 2022, 52(12): 2163-2164
非完全信息下人机合作对抗博弈专题
非全时有效人类决策下的人机共享自主方法
游诗艺, 康宇, 赵云波, 张倩倩
中国科学: 信息科学, 2022, 52(12): 2165-2177
摘要 在人机共享自主中,人和智能机器以互补的能力共同完成实时控制任务,以实现双方单独控制无法达到的性能.现有的许多人机共享自主方法倾向于假设人的决策始终“有效”,即这些决策促进了任务的完成,且有效地反映了人类的真实意图.然而,在现实中,由于疲劳、分心等多种原因,人的决策会在一定程度上“无效”,不满足这些方法的基本假设,导致方法失效,进而导致任务失败.本文提出了一种新的基于深度强化学习的人机共享自主方法,使系统能够在人类决策长期无效的情况下完成正确的目标.具体来说,我们使用深度强化学习训练从系统状态和人类决策到决策价值的端到端映射,以显式判断人类决策是否无效.如果无效,机器将接管系统以获得更好的性能.我们将该方法应用于实时控制任务中,结果表明该方法能够及时、准确地判断人类决策的有效性,分配相应的控制权限,并最终提高了系统性能.
关键词 人机系统; 共享自主; 非全时有效决策; 深度强化学习; 仲裁; human-machine system; shared autonomy; non-full-time effective decision; deep reinforcement learning; arbitration;
Shiyi YOU, Yu KANG, Yun-Bo ZHAO, et al. Human-machine shared autonomy approach for non-full-time effective human decisions. Sci Sin Inform, 2022, 52(12): 2165-2177, doi: 10.1360/SSI-2022-0225
非完全信息下人机合作对抗博弈专题
非完全信息下基于PPO-CFR的扩展式博弈决策
黄蕾, 朱进, 段福庆
中国科学: 信息科学, 2022, 52(12): 2178-2194
摘要 非完全信息下的人机对抗通常可以通过双人零和博弈模型加以描述,反事实后悔最小化(counterfactual regret minimization, CFR)是处理非完全信息双人零和博弈的一种流行算法.然而现有CFR及其变体算法在迭代过程中使用固定的后悔值计算和策略更新类型,在非完全信息扩展式博弈下表现各有优劣,泛化性能薄弱.针对这一问题,本文将强化学习近端策略优化(proximal policy optimization,PPO)算法与CFR算法相结合,提出一种PPO-CFR算法,通过训练出理性的智能体,从而实现CFR迭代过程后悔值计算和策略更新类型的自适应选择,以提高算法的泛化性能,并实现非完全信息扩展式博弈的策略优化.本文采用通用的扑克博弈实验验证所提算法,并制定逐步奖励函数训练智能体的动作策略,实验结果表明,与现有方法相比, PPO-CFR算法具有更好的泛化性能和更低的可利用度,迭代策略更为逼近纳什均衡策略.
关键词 非完全信息; 扩展式博弈; 反事实后悔最小化; 近端策略优化; 博弈决策; incomplete information; extensive game; counterfactual regret minimization; proximal policy optimization; game decision-making;
Lei HUANG, Jin ZHU, Fuqing DUAN. Extensive game decision based on the PPO-CFR algorithm under incomplete information. Sci Sin Inform, 2022, 52(12): 2178-2194, doi: 10.1360/SSI-2022-0216
非完全信息下人机合作对抗博弈专题
基于虚拟排斥力的移动多智能体覆盖控制动态博弈算法
宿浩, 张宝琳, 籍艳, 蔡智辉, 薛健, 马慧, 郑元世
中国科学: 信息科学, 2022, 52(12): 2195-2212
摘要 为提高移动多智能体系统的覆盖控制效率,通常要求移动智能体在覆盖控制过程中进行多信息甚至全信息交互.在此情形下,覆盖控制成本和能耗将大幅增加.如何在提高移动智能体覆盖效率的同时,尽可能降低控制成本一直是移动智能体覆盖控制领域的重要课题之一.本文研究非完全信息条件下的移动多智能体覆盖控制方法,提出了基于虚拟排斥力的移动多智能体覆盖控制合作博弈算法.首先,将移动多智能体集群分解为若干个子集群,群中每个智能体只能观测到各自周围一定范围内其他智能体的信息,将移动多智能体集群的覆盖控制问题转化为非完全信息条件下移动多智能体子群的合作博弈分布覆盖问题;其次,给出了各移动智能体子群的博弈规则,并提出了一种基于虚拟排斥力的智能体分布覆盖博弈决策策略,用以计算并确定集群中每个智能体在覆盖控制过程中的新候选位置;第三,将移动多智能体系统覆盖控制问题分解为以刚性虚拟结构为参照系的覆盖控制问题,简化了多智能体系统覆盖控制中位移路径的规划设计.仿真算例表明,本文提出的基于虚拟排斥力的覆盖控制合作博弈算法,可以实现不完全信息条件下移动多智能体系统的分布覆盖控制任务,有效节约移动智能体的覆盖控制成本;同时,和已有的覆盖控制算法相比,本文提出的动态合作博弈覆盖算法,覆盖控制过程中智能体移动次数更少,覆盖率更高.
关键词 动态博弈; 网络覆盖; 分布算法; 多智能体系统; 虚拟排斥力; dynamic game; network coverage; distributed algorithms; multi-agent systems; virtual repulsive force;
Hao SU, Bao-Lin ZHANG, Yan JI, et al. Dynamic game coverage control algorithms for multiple mobile agents through virtual repulsive force. Sci Sin Inform, 2022, 52(12): 2195-2212, doi: 10.1360/SSI-2022-0219
非完全信息下人机合作对抗博弈专题
障碍环境下基于生物捕食逃逸行为的多运动体边界防御博弈方法
仝秉达, 段海滨, 夏洁, 刘小峰
中国科学: 信息科学, 2022, 52(12): 2213-2224
摘要 基于微分对策的追逃博弈和疆土防御问题是多智能体对抗博弈控制的关键问题之一.本文研究了含障碍物的有界区域中多运动体边界防御博弈方法.首先通过对自然界中生物的捕食逃逸行为进行分析,对多运动体边界防御博弈系统进行了建模,得到不同情况下博弈终止条件和价值函数.其次,本文对含障碍环境下博弈双方的主导区域和界栅面进行了分析,并与无障碍情况进行了对比.最后,数值仿真验证了本文提出的多运动体边界防御方法满足微分对策中的鞍点策略条件和有效性.
关键词 捕食逃逸; 协同控制; 边界防御; 微分对策; 鞍点策略; predation and escape; cooperative control; border defense; differential games; saddle point strategy;
Bingda TONG, Haibin DUAN, Jie XIA, et al. Multi-agent border defense differential game based on biological predation and escape behavior in an obstacle environment. Sci Sin Inform, 2022, 52(12): 2213-2224, doi: 10.1360/SSI-2022-0211
非完全信息下人机合作对抗博弈专题
分层决策多机空战对抗方法
王欢, 周旭, 邓亦敏, 刘小峰
中国科学: 信息科学, 2022, 52(12): 2225-2238
摘要 在空战研究领域,战术决策旨在提高博弈对抗收益,进而提升战机攻击效率.现有战术决策算法大多基于规则方法设计,当应用于多机空战的复杂环境时则存在设计难度大,难以求解最优解等问题.本文提出一种分层决策多机空战对抗方法,首先,在训练初始阶段借鉴已有人类专家经验,指导模型训练;其次,根据战术动作类型设计分层动作决策网络,降低动作决策空间维度;最后,将训练产生的对抗经验按阶段分解,降低策略学习难度.在多机空战仿真环境中进行了实验验证,相比于现有多机空战决策方法,本文提出的方法在训练收敛性和决策性能方面均具有更好的表现.
关键词 多机空战; 动作决策网络; 博弈; 分层强化学习; 决策收益; multi-aircraft air combat; action decision-making network; game; hierarchical reinforcement learning; decision gain;
Huan WANG, Xu ZHOU, Yimin DENG, et al. A hierarchical decision-making method for multi-aircraft air combat confrontation. Sci Sin Inform, 2022, 52(12): 2225-2238, doi: 10.1360/SSI-2022-0185
非完全信息下人机合作对抗博弈专题
非完备策略集下人机对抗空战决策方法
李守义, 陈谋, 王玉惠, 吴庆宪, 贺建良
中国科学: 信息科学, 2022, 52(12): 2239-2253
摘要 在真实的空战对抗环境中,不确定性广泛存在.本文考虑人机对抗场景中的空战决策问题,提出了一种非完备策略集下的博弈决策方法.首先,将对抗的无人机群和有人机群的动态博弈过程分解为不同的决策阶段,并将当前的决策阶段建模为一个零和博弈模型.所建模型考虑了有人机群的策略不完全可知的情形,并用一个不确定效用矩阵来描述这种非完备策略.随后,基于矩阵博弈中的最大最小策略概念,提出了非完备策略下博弈模型的求解方法,从而给出了无人机群的决策序列.最后通过仿真实验验证了所提方法的有效性.
关键词 无人机; 空战决策; 人机对抗; 非完备策略集; 博弈论; 最大最小策略; unmanned air vehicle(UAV); air combat decision-making; human-computer gaming; incomplete strategy set; game theory; maximum-minimum strategy;
Shouyi LI, Mou CHEN, Yuhui WANG, et al. Human-computer gaming decision-making method in air combat under an incomplete strategy set. Sci Sin Inform, 2022, 52(12): 2239-2253, doi: 10.1360/SSI-2022-0222
非完全信息下人机合作对抗博弈专题
基于MASAC的无人机集群对抗博弈方法
王尔申, 刘帆, 宏晨, 郭靖, 何宁, 赵琳, 薛健
中国科学: 信息科学, 2022, 52(12): 2254-2269
摘要 随着无人机智能化水平的提高和集群控制技术的发展,无人机集群对抗智能决策方法将成为未来无人机作战的关键技术.无人机集群对抗学习环境具有维度高、非线性、信息有缺失、动作空间连续等复杂特点.近年来,以深度学习和强化学习为代表的人工智能技术取得了很大突破,深度强化学习在解决复杂环境下智能决策问题方面展现出了不俗能力.本文受多智能体集中式训练–分布式执行框架和最大化策略熵思想的启发,提出一种基于非完全信息的多智能体柔性行动器–评判器(multi-agent soft actor-critic, MASAC)深度强化学习方法,建立基于多智能体深度强化学习的无人机集群对抗博弈模型,构建连续空间多无人机作战环境,对红蓝双方无人机集群的非对称性对抗进行仿真实验,实验结果表明MASAC优于现有流行的多智能体深度强化学习方法,能使博弈双方收敛到收益更高的博弈均衡点.进一步对MASAC的收敛情况进行实验和分析,结果显示MASAC具有良好的收敛性和稳定性,能够保证MASAC在无人机集群对抗智能决策方面的实用性.
关键词 深度强化学习; 多智能体; 对抗博弈; MASAC; 无人机集群; deep reinforcement learning; multi-agent; confrontation game; MASAC; UAV clusters;
Ershen WANG, Fan LIU, Chen HONG, et al. MASAC-based confrontation game method of UAV clusters. Sci Sin Inform, 2022, 52(12): 2254-2269, doi: 10.1360/SSI-2022-0303