控制 人工智能系统 论文 Website Google Scholar PDF

单样本学习下时序约束稀疏表示的物体识别方法

童小宝, 熊鹏文, 宋爱国, 刘小平
中国科学: 信息科学, 2024, 54(1): 191-209

摘要 非接触式传感器相比接触式触觉传感器可以避免与物体直接接触过程中产生的噪声,因而能够获取更有价值的原始数据表征物体内在属性;然而针对非接触式传感器感知的物体属性数据而言,现有算法难以实现单样本学习下的物体准确识别.为解决这一问题,本文提出一种新颖的单样本学习下时序约束稀疏表示方法 (one-shot learning with temporally constrained sparse representation, OSL-TCSR)用于识别5种不同材料下的50个物体类别.首先将两种原始数据(Lumini光谱和SCiO光谱)并行投影至共享子空间,并且使用聚类典型关联分析法(cluster canonical correlation analysis, C-CCA)计算两种原始数据的聚类相关性特征;其次通过稀疏表示分别计算得到聚类相关性特征数据以及原始数据的编码向量,并利用原始数据的编码向量对相关性特征数据的编码向量进行二次投影映射;然后将两次映射后的原始数据和相关性特征数据进行重构,以充分耦合化两种光谱数据,解决了单样本学习下的数据稀缺问题;进一步地,设计新颖的时序约束稀疏表示方法计算重构后的原始数据和相关性特征数据,以充分考虑每个光谱序列的时序特征;最后与最新的物体识别方法进行实验对比,结果表明提出的OSL-TCSR方法提高了单样本学习情况下的物体识别结果.此外, OSL-TCSR还可灵活迁移至多种应用场景,比如材料识别或纹理识别等.

关键词 物体识别; 聚类相关性特征; 单样本学习; 时序约束正则化; object recognition; clustering correlation characteristics; one-shot learning; temporally constrained regularization

引用格式 童小宝, 熊鹏文, 宋爱国, 等. 单样本学习下时序约束稀疏表示的物体识别方法. 中国科学: 信息科学, 2024, 54(1): 191-209, doi: 10.1360/SSI-2022-0256
Xiaobao TONG, Pengwen XIONG, Aiguo SONG, et al. Object recognition based on one-shot learning with temporally constrained sparse representation. Sci Sin Inform, 2024, 54(1): 191-209, doi: 10.1360/SSI-2022-0256

控制 人工智能系统 论文 Website Google Scholar PDF

舰载机保障作业人机协同决策方法

李亚飞, 高磊, 蒿宏杰, 靳远远, 王可, 徐明亮
中国科学: 信息科学, 2023, 53(12): 2493-2510

摘要 舰载机保障作业是航空母舰航空保障系统的重要组成部分,其调度效率不仅影响舰载机出动架次率,而且严重制约航空母舰作战效能发挥.在多舰载机保障的动态甲板作业环境下,安全高效地为舰载机分配保障资源,最大限度地减少舰载机因资源分配冲突产生的时间开销,是提高舰载机保障作业调度效率的关键途经.现有基于启发式、机器学习等方法舰载机保障作业调度策略,存在计算量大、鲁棒性差、训练效率低等问题.为此,本文将舰载机保障作业调度问题建模为分布式多智能体协同控制的顺序决策问题,构建了一种新颖的基于人机协同的多智能体作业调度决策框架HCMTPF(human-machine collaborative multi-agent task planning framework),有效地提高了保障作业调度决策模型的学习效率.在此基础上,提出了一种基于人类行为可信度的自适应作业分配方法,进一步提高了智能体自主探索能力和人类指导经验利用率.经大量仿真实验验证,本文提出的舰载机保障作业人机协同决策方法比其他方法在计算性能和学习效率方面具有明显优势.

关键词 舰载机; 人机协同; 深度强化学习; 任务分配; 资源分配; carrier aircraft; human-machine collaboration; deep reinforcement learning; task allocation; resource allocation

引用格式 李亚飞, 高磊, 蒿宏杰, 等. 舰载机保障作业人机协同决策方法. 中国科学: 信息科学, 2023, 53(12): 2493-2510, doi: 10.1360/SSI-2022-0403
Yafei LI, Lei GAO, Hongjie HAO, et al. Human-machine collaborative decision-making for carrier aircraft support operations. Sci Sin Inform, 2023, 53(12): 2493-2510, doi: 10.1360/SSI-2022-0403

控制 人工智能系统 评述 Website Google Scholar PDF SCOPUS引次: 2

博弈智能的研究与应用

郝建业, 邵坤, 李凯, 李栋, 毛航宇, 胡舒悦, 王震
中国科学: 信息科学, 2023, 53(10): 1892-1923

摘要 博弈智能是一个涵盖博弈论、人工智能等方向的交叉领域,重点研究个体或组织间的交互作用,以及如何通过对博弈关系的定量建模进而实现最优策略的精确求解,最终形成智能化决策和决策知识库.近年来,随着行为数据的海量爆发和博弈形式的多样化,博弈智能吸引了越来越多学者的研究兴趣,并在现实生活中得到广泛应用.本文围绕博弈智能这一研究领域,分别从3个方面进行了系统的调研、分析和总结.首先,回顾了博弈智能的相关背景,涵盖了单智能体马尔可夫(Markov)决策过程,基于博弈论的多智能体建模技术,以及强化学习、博弈学习等多智能体求解方案.其次,依照智能体之间的博弈关系不同,将博弈分为合作博弈、对抗博弈以及混合博弈这三大类范式,并分别介绍了每种博弈智能范式下的主要研究问题、主流研究方法以及当前典型应用.最后,总结了博弈智能的研究现状,以及亟待解决的主要问题与研究挑战,并展望了学术界和工业界的未来应用前景,为相关研究人员提供参考,进一步推动国家人工智能发展战略.

关键词 博弈智能; 博弈论; 人工智能; 多智能体系统; 强化学习; 均衡求解; game intelligence; game theory; artificial intelligence; multiagent systems; reinforcement learning; equilibrium computing

引用格式 郝建业, 邵坤, 李凯, 等. 博弈智能的研究与应用. 中国科学: 信息科学, 2023, 53(10): 1892-1923, doi: 10.1360/SSI-2023-0010
Jianye HAO, Kun SHAO, Kai LI, et al. Research and applications of game intelligence. Sci Sin Inform, 2023, 53(10): 1892-1923, doi: 10.1360/SSI-2023-0010

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

面向人机序贯决策实现共享控制下的仲裁优化

张倩倩, 赵云波, 吕文君, 陈谋
中国科学: 信息科学, 2023, 53(9): 1768-1783

摘要 共享控制存在于众多由人类智能和机器智能共同参与的序贯决策场景.由于人的决策范围和智能机器的决策范围尚未予以明确划分,需要加以实时仲裁从而达到人机共存并且共享决策权限.为此本文提出了一种仲裁优化方法,该方法的独特之处在于引入自主性边界概念,优化了共享控制中人机决策动作的仲裁机制.本文为自主性边界的计算和更新维护提供了思路,能够基于贝叶斯规则的意图推理分析人机共享系统可能要实现的目标,从而确定仲裁参数.此外,本文还分析了自主性边界的不确定性以促进边界信息对共享控制中决策质量的优化效果.实验结果表明,所提出的方法在累积奖励、成功率、撞击率方面表现出色,这些说明了本文提出的共享控制中的仲裁优化方法在求解人机序贯决策问题时的有效性和价值.

关键词 共享控制; 仲裁优化; 自主性边界; 人机序贯决策; 强化学习; shared control; arbitration optimization; autonomous boundary; human-machine sequential decision-making; reinforcement learning

引用格式 张倩倩, 赵云波, 吕文君, 等. 面向人机序贯决策实现共享控制下的仲裁优化. 中国科学: 信息科学, 2023, 53(9): 1768-1783, doi: 10.1360/SSI-2022-0295
Qianqian ZHANG, Yun-Bo ZHAO, Wenjun LV, et al. Shared control with optimized arbitration for human-machine sequential decision-making. Sci Sin Inform, 2023, 53(9): 1768-1783, doi: 10.1360/SSI-2022-0295

控制 人工智能系统 评述 Website Google Scholar PDF SCOPUS引次: 1

数据驱动的策略优化控制律设计最新研究综述

赵斐然, 游科友
中国科学: 信息科学, 2023, 53(6): 1027-1049

摘要 随着通信技术和新一代人工智能的迅速发展,强化学习这一数据驱动的控制方法引起了极大的关注.本文回顾了强化学习中的一类典型方法——策略优化法——在系统控制律设计上的最新研究进展.主要讨论了其在各种重要线性最优控制问题上的收敛性及样本复杂度,例如线性二次控制、输出反馈控制、■控制、分布式控制等.此外,对策略优化法在网络化系统控制中的应用作了展望.

关键词 线性系统; 最优控制; 策略梯度法; 强化学习; 数据驱动控制; linear system; optimal control; policy gradient method; reinforcement learning; data-driven control;

引用格式 赵斐然, 游科友. 数据驱动的策略优化控制律设计最新研究综述. 中国科学: 信息科学, 2023, 53(6): 1027-1049, doi: 10.1360/SSI-2022-0455
Feiran ZHAO, Keyou YOU. Survey of recent progress in data-driven policy optimization for controller design. Sci Sin Inform, 2023, 53(6): 1027-1049, doi: 10.1360/SSI-2022-0455

控制 人工智能系统 评述 Website Google Scholar PDF SCOPUS引次: 1

博弈收益控制研究进展

王龙, 陈芳, 陈星如
中国科学: 信息科学, 2023, 53(4): 623-646

摘要 在博弈论中,单个个体控制全部个体的收益通常被认为是不可能的.一个例外是20世纪末在重复囚徒困境中提出的均衡器策略:使用这种策略的个体可以将对手的收益设置为由收益函数所决定的某个区间内的任意值.十余年后发现的零行列式策略通过单方面设置个体收益的线性关系,将该结果一般化.在此基础上,关于博弈收益控制的研究取得了一系列成果.本文概述了博弈收益控制的研究现状;介绍了单次博弈和重复博弈中的收益控制技术;从收益控制的基本概念、能控制的收益关系、收益控制策略的形式和收益控制策略的演化特性等方面总结了博弈中收益控制的主要进展和成果;并讨论了博弈收益控制的未来发展趋势.

关键词 博弈论; 收益控制; 零行列式策略; 演化博弈论; 策略设计; game theory; payoff control; zero-determinant strategy; evolutionary game theory; strategy design;

引用格式 王龙, 陈芳, 陈星如. 博弈收益控制研究进展. 中国科学: 信息科学, 2023, 53(4): 623-646, doi: 10.1360/SSI-2022-0263
Long WANG, Fang CHEN, Xingru CHEN. Payoff control in game theory. Sci Sin Inform, 2023, 53(4): 623-646, doi: 10.1360/SSI-2022-0263

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 1

非完全信息下人机合作对抗博弈专题

基于MASAC的无人机集群对抗博弈方法

王尔申, 刘帆, 宏晨, 郭靖, 何宁, 赵琳, 薛健
中国科学: 信息科学, 2022, 52(12): 2254-2269

摘要 随着无人机智能化水平的提高和集群控制技术的发展,无人机集群对抗智能决策方法将成为未来无人机作战的关键技术.无人机集群对抗学习环境具有维度高、非线性、信息有缺失、动作空间连续等复杂特点.近年来,以深度学习和强化学习为代表的人工智能技术取得了很大突破,深度强化学习在解决复杂环境下智能决策问题方面展现出了不俗能力.本文受多智能体集中式训练–分布式执行框架和最大化策略熵思想的启发,提出一种基于非完全信息的多智能体柔性行动器–评判器(multi-agent soft actor-critic, MASAC)深度强化学习方法,建立基于多智能体深度强化学习的无人机集群对抗博弈模型,构建连续空间多无人机作战环境,对红蓝双方无人机集群的非对称性对抗进行仿真实验,实验结果表明MASAC优于现有流行的多智能体深度强化学习方法,能使博弈双方收敛到收益更高的博弈均衡点.进一步对MASAC的收敛情况进行实验和分析,结果显示MASAC具有良好的收敛性和稳定性,能够保证MASAC在无人机集群对抗智能决策方面的实用性.

关键词 深度强化学习; 多智能体; 对抗博弈; MASAC; 无人机集群; deep reinforcement learning; multi-agent; confrontation game; MASAC; UAV clusters;

引用格式 王尔申, 刘帆, 宏晨, 等. 基于MASAC的无人机集群对抗博弈方法. 中国科学: 信息科学, 2022, 52(12): 2254-2269, doi: 10.1360/SSI-2022-0303
Ershen WANG, Fan LIU, Chen HONG, et al. MASAC-based confrontation game method of UAV clusters. Sci Sin Inform, 2022, 52(12): 2254-2269, doi: 10.1360/SSI-2022-0303

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 1

非完全信息下人机合作对抗博弈专题

非完备策略集下人机对抗空战决策方法

李守义, 陈谋, 王玉惠, 吴庆宪, 贺建良
中国科学: 信息科学, 2022, 52(12): 2239-2253

摘要 在真实的空战对抗环境中,不确定性广泛存在.本文考虑人机对抗场景中的空战决策问题,提出了一种非完备策略集下的博弈决策方法.首先,将对抗的无人机群和有人机群的动态博弈过程分解为不同的决策阶段,并将当前的决策阶段建模为一个零和博弈模型.所建模型考虑了有人机群的策略不完全可知的情形,并用一个不确定效用矩阵来描述这种非完备策略.随后,基于矩阵博弈中的最大最小策略概念,提出了非完备策略下博弈模型的求解方法,从而给出了无人机群的决策序列.最后通过仿真实验验证了所提方法的有效性.

关键词 无人机; 空战决策; 人机对抗; 非完备策略集; 博弈论; 最大最小策略; unmanned air vehicle(UAV); air combat decision-making; human-computer gaming; incomplete strategy set; game theory; maximum-minimum strategy;

引用格式 李守义, 陈谋, 王玉惠, 等. 非完备策略集下人机对抗空战决策方法. 中国科学: 信息科学, 2022, 52(12): 2239-2253, doi: 10.1360/SSI-2022-0222
Shouyi LI, Mou CHEN, Yuhui WANG, et al. Human-computer gaming decision-making method in air combat under an incomplete strategy set. Sci Sin Inform, 2022, 52(12): 2239-2253, doi: 10.1360/SSI-2022-0222

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 1

非完全信息下人机合作对抗博弈专题

分层决策多机空战对抗方法

王欢, 周旭, 邓亦敏, 刘小峰
中国科学: 信息科学, 2022, 52(12): 2225-2238

摘要 在空战研究领域,战术决策旨在提高博弈对抗收益,进而提升战机攻击效率.现有战术决策算法大多基于规则方法设计,当应用于多机空战的复杂环境时则存在设计难度大,难以求解最优解等问题.本文提出一种分层决策多机空战对抗方法,首先,在训练初始阶段借鉴已有人类专家经验,指导模型训练;其次,根据战术动作类型设计分层动作决策网络,降低动作决策空间维度;最后,将训练产生的对抗经验按阶段分解,降低策略学习难度.在多机空战仿真环境中进行了实验验证,相比于现有多机空战决策方法,本文提出的方法在训练收敛性和决策性能方面均具有更好的表现.

关键词 多机空战; 动作决策网络; 博弈; 分层强化学习; 决策收益; multi-aircraft air combat; action decision-making network; game; hierarchical reinforcement learning; decision gain;

引用格式 王欢, 周旭, 邓亦敏, 等. 分层决策多机空战对抗方法. 中国科学: 信息科学, 2022, 52(12): 2225-2238, doi: 10.1360/SSI-2022-0185
Huan WANG, Xu ZHOU, Yimin DENG, et al. A hierarchical decision-making method for multi-aircraft air combat confrontation. Sci Sin Inform, 2022, 52(12): 2225-2238, doi: 10.1360/SSI-2022-0185

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

非完全信息下人机合作对抗博弈专题

非完全信息下基于PPO-CFR的扩展式博弈决策

黄蕾, 朱进, 段福庆
中国科学: 信息科学, 2022, 52(12): 2178-2194

摘要 非完全信息下的人机对抗通常可以通过双人零和博弈模型加以描述,反事实后悔最小化(counterfactual regret minimization, CFR)是处理非完全信息双人零和博弈的一种流行算法.然而现有CFR及其变体算法在迭代过程中使用固定的后悔值计算和策略更新类型,在非完全信息扩展式博弈下表现各有优劣,泛化性能薄弱.针对这一问题,本文将强化学习近端策略优化(proximal policy optimization,PPO)算法与CFR算法相结合,提出一种PPO-CFR算法,通过训练出理性的智能体,从而实现CFR迭代过程后悔值计算和策略更新类型的自适应选择,以提高算法的泛化性能,并实现非完全信息扩展式博弈的策略优化.本文采用通用的扑克博弈实验验证所提算法,并制定逐步奖励函数训练智能体的动作策略,实验结果表明,与现有方法相比, PPO-CFR算法具有更好的泛化性能和更低的可利用度,迭代策略更为逼近纳什均衡策略.

关键词 非完全信息; 扩展式博弈; 反事实后悔最小化; 近端策略优化; 博弈决策; incomplete information; extensive game; counterfactual regret minimization; proximal policy optimization; game decision-making;

引用格式 黄蕾, 朱进, 段福庆. 非完全信息下基于PPO-CFR的扩展式博弈决策. 中国科学: 信息科学, 2022, 52(12): 2178-2194, doi: 10.1360/SSI-2022-0216
Lei HUANG, Jin ZHU, Fuqing DUAN. Extensive game decision based on the PPO-CFR algorithm under incomplete information. Sci Sin Inform, 2022, 52(12): 2178-2194, doi: 10.1360/SSI-2022-0216

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

非完全信息下人机合作对抗博弈专题

非全时有效人类决策下的人机共享自主方法

游诗艺, 康宇, 赵云波, 张倩倩
中国科学: 信息科学, 2022, 52(12): 2165-2177

摘要 在人机共享自主中,人和智能机器以互补的能力共同完成实时控制任务,以实现双方单独控制无法达到的性能.现有的许多人机共享自主方法倾向于假设人的决策始终“有效”,即这些决策促进了任务的完成,且有效地反映了人类的真实意图.然而,在现实中,由于疲劳、分心等多种原因,人的决策会在一定程度上“无效”,不满足这些方法的基本假设,导致方法失效,进而导致任务失败.本文提出了一种新的基于深度强化学习的人机共享自主方法,使系统能够在人类决策长期无效的情况下完成正确的目标.具体来说,我们使用深度强化学习训练从系统状态和人类决策到决策价值的端到端映射,以显式判断人类决策是否无效.如果无效,机器将接管系统以获得更好的性能.我们将该方法应用于实时控制任务中,结果表明该方法能够及时、准确地判断人类决策的有效性,分配相应的控制权限,并最终提高了系统性能.

关键词 人机系统; 共享自主; 非全时有效决策; 深度强化学习; 仲裁; human-machine system; shared autonomy; non-full-time effective decision; deep reinforcement learning; arbitration;

引用格式 游诗艺, 康宇, 赵云波, 等. 非全时有效人类决策下的人机共享自主方法. 中国科学: 信息科学, 2022, 52(12): 2165-2177, doi: 10.1360/SSI-2022-0225
Shiyi YOU, Yu KANG, Yun-Bo ZHAO, et al. Human-machine shared autonomy approach for non-full-time effective human decisions. Sci Sin Inform, 2022, 52(12): 2165-2177, doi: 10.1360/SSI-2022-0225

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

具有学习和推理能力的空间无人系统智能架构

黄煌, 李谋, 刘磊, 汤亮, 刘昊, 谢心如, 刘乃龙, 魏春岭, 邢琰, 姜甜甜, 胡海东, 常亚菲, 胡勇, 杨孟飞
中国科学: 信息科学, 2022, 52(11): 2093-2105

摘要 以卫星、飞船、深空探测器为代表的航天器是一类典型的无人系统,经历了从自动化到自主化的不断发展.为提升航天器对未知空间环境和复杂空间任务的适应能力和智能自主水平,以空间无人系统为研究对象设计了具有学习和推理能力的无人系统智能架构,给出架构的组成及功能;接着分析该架构中学习和推理能力的运作机制,并针对架构所需的动作库和知识库的构建、更新与扩展方法等关键技术提出解决方案;最后通过地外星表巡视采样任务示例,具体说明在该智能架构下的新知识生成、基于知识的推理和自主执行任务的过程,以及过程中知识库、环境、任务和动作库之间的交互关系.

关键词 学习和推理能力; 空间无人系统; 智能架构; 动作库; 知识库; learning and reasoning capabilities; space unmanned system; intelligent architecture; action library; knowledge library;

引用格式 黄煌, 李谋, 刘磊, 等. 具有学习和推理能力的空间无人系统智能架构. 中国科学: 信息科学, 2022, 52(11): 2093-2105, doi: 10.1360/SSI-2022-0036
Huang HUANG, Mou LI, Lei LIU, et al. Intelligent architecture of space unmanned system with learning and reasoning capabilities. Sci Sin Inform, 2022, 52(11): 2093-2105, doi: 10.1360/SSI-2022-0036

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 3

基于强化学习的高速列车群运行调整方法

代学武, 程丽娟, 崔东亮, 俞胜平, 袁志明, 应志鹏
中国科学: 信息科学, 2022, 52(5): 890-906

摘要 随着我国高速铁路建设成网,行车密度不断提高,在出现突发事件导致列车晚点时,行车调度的复杂性和难度急剧增加,如何动态调整列车群运行,以减少晚点,提高准点率是运行调整的核心.本文提出了一种适用于突发事件下高速列车群运行调整的无模型强化学习方法.首先将多个列车在多个车站和闭塞区间的运行调整建模为受约束的资源占用和配置的多阶段序贯决策过程,提出了基于动态时空拓扑矩阵的车站和区间统一化建模方法.针对高铁列车群时空关联强的特点,首次提出了一种包含车辆位置、路网资源等时空分布信息的强化学习状态空间、动作空间和回报函数,构建了有效的奖励反馈机制.然后,针对高铁运行系统搜索空间巨大的难点,提出了启发式动作子空间自适应生成方法,利用部分显式静态约束构建启发式规则减少搜索空间,有效减少了无模型强化学习的试错次数,提高了求解效率,也保留了无模型通用性好的优点.最后,基于京广高铁实际案例的仿真分析表明,在发生不同时空范围的大风限速,导致多车延误的事件下,所提出的算法均能较好收敛,明显减少列车群内晚点传播,与MILP, ACO, FCFS方法相比,列车群的平均晚点时间可减少2%~20%.

关键词 强化学习; 时空拓扑矩阵; 列车运行调整; FCFS算法; 优化; reinforcement learning; spatio-temporal topology matrix; train rescheduling; FCFS algorithm; optimization;

引用格式 代学武, 程丽娟, 崔东亮, 等. 基于强化学习的高速列车群运行调整方法. 中国科学: 信息科学, 2022, 52(5): 890-906, doi: 10.1360/SSI-2021-0073
Xuewu DAI, Lijuan CHENG, Dongliang CUI, et al. Rescheduling of high-speed trains: a reinforcement learning approach. Sci Sin Inform, 2022, 52(5): 890-906, doi: 10.1360/SSI-2021-0073