控制 人工智能系统 论文 Website Google Scholar PDF

工业大模型: 体系架构、关键技术与典型应用

任磊, 王海腾, 董家宝, 贾子翟, 李世祥, 王宇清, 赖李媛君, 黄迪, 张霖, 吴文峻, 李伯虎
中国科学: 信息科学, 2024, 54(11): 2606-2622

摘要 随着新一代人工智能的发展,大模型(如GPT-4o等)凭借大规模训练数据、网络参数和算力涌现出强大的生成能力、泛化能力和自然交互能力,展现出改变工业世界的巨大潜力.尽管大模型已在自然语言等多个领域取得突破性进展,但其在工业应用中的探索仍处于初级阶段,当前工业大模型的系统性研究仍属空白.工业应用中特有的异质数据模态、复杂多样的专业化场景、长流程的关联性决策、以及对于可信性实时性的高要求,使得通用大模型无法直接用于解决复杂的工业问题,亟需开展全新的工业大模型基础理论和关键技术研究.本文系统地探讨了工业大模型的挑战问题、概念内涵、体系架构、构建方法、关键技术与典型应用.从5个挑战问题的分析出发,提出了工业大模型的全新定义和体系架构;同时,提出了工业大模型的四阶段构建方法,阐述了工业大模型核心关键技术;然后,基于所提出的工业大模型6种核心应用能力,探讨了面向产品全生命周期的工业大模型典型应用场景,并给出了“基石”工业大模型原型系统在生成式人工智能方面的应用实例;最后,探讨和展望了工业大模型未来的研究方向和开放性问题.本文将为工业大模型这一全新研究方向的开辟与发展,提供基础理论、关键技术和行业应用的全面指导.

关键词 工业大模型; 工业基础模型; 生成式人工智能; 具身智能; 工业智能体; 智能制造; industrial foundation model; industrial AI foundation model; AIGC; embodied intelligence; industrial agent; intelligent manufacturing

引用格式 任磊, 王海腾, 董家宝, 等. 工业大模型: 体系架构、关键技术与典型应用. 中国科学: 信息科学, 2024, 54(11): 2606-2622, doi: 10.1360/SSI-2024-0185
Lei REN, Haiteng WANG, Jiabao DONG, et al. Industrial foundation model: architecture, key technologies, and typical applications. Sci Sin Inform, 2024, 54(11): 2606-2622, doi: 10.1360/SSI-2024-0185

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

基于深度强化学习的卫星动态任务实时调度时效性优化方法

李可, 熊顺蕊, 戴朋林, 宋彤雨, 禹旭敏, 李天瑞
中国科学: 信息科学, 2024, 54(10): 2443-2469

摘要 随着全球卫星数量的快速增长和天基网络的蓬勃发展,优化卫星任务调度以确保任务观测时效性变得至关重要.任务调度方法不仅影响观测数据采集的效率,还直接关系到天基信息系统能否及时响应多种实时应用需求.然而,针对非周期动态任务,传统批处理调度方法存在局限性,需收集完所有任务信息后才能作出决策,而现有基于深度强化学习的实时调度方法也无法保证紧急任务的观测时效性.鉴于此,本文首次提出了“时效性优化的敏捷卫星动态任务实时调度”问题,该问题定义任务观测时效性指标,综合考虑任务观测延迟和接收任务的总收益,以最大化所有任务观测时效性.为了求解该问题,设计了两阶段时效性优化算法PPODL-HR.在任务选择阶段,提出了基于深度神经网络和长短期记忆网络的近端策略优化以加快模型的收敛速度;在资源分配阶段,设计了启发式规则,通过任务合并进一步降低任务切换所需的卫星转换时间.通过数值仿真和STK仿真验证, PPODL-HR算法在任务观测时效性方面优于传统的静态批处理调度和现有的动态任务实时调度算法,且适用于不同任务密度和不同紧急性任务占比的情况.特别地,与经典的动态任务实时调度算法相比,任务观测时效性提高了21.14%,任务观测延迟降低了4.55%,接收任务的总收益增加了20.70%.

关键词 时效性优化; 卫星任务调度; 动态任务实时调度; 深度强化学习; 任务观测时效性; 启发式; timeliness optimization; satellite task scheduling; real-time scheduling for dynamic tasks; deep reinforcement learning; timeliness of task observation; heuristic rule

引用格式 李可, 熊顺蕊, 戴朋林, 等. 基于深度强化学习的卫星动态任务实时调度时效性优化方法. 中国科学: 信息科学, 2024, 54(10): 2443-2469, doi: 10.1360/SSI-2023-0368
Ke LI, Shunrui XIONG, Penglin DAI, et al. Timeliness optimization of real-time scheduling for satellite dynamic tasks based on deep reinforcement learning. Sci Sin Inform, 2024, 54(10): 2443-2469, doi: 10.1360/SSI-2023-0368

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

基于MASAC强化学习算法的多无人机协同路径规划

方城亮, 杨飞生, 潘泉
中国科学: 信息科学, 2024, 54(8): 1871-1883

摘要 针对动态不确定环境下异构多无人机协同路径规划问题,提出了一种新的多智能体深度强化学习算法.首先,开发了一个空域场景下多无人机到达目标地点的强化学习环境,环境引入了无人机动力学方程,并考虑了无人机异构的因素以及安全避障的需求.其次,设计了任务完成率、编队保持率、飞行时间等性能指标,用以衡量算法的优劣.然后,将多无人机协同路径规划问题建模为部分可观Markov决策过程,提出了一种多智能体柔性执行评价(multi-agent soft actor critic, MASAC)算法寻求该问题的近似最优策略.最后,通过仿真实验验证了所提算法的有效性和优越性.

关键词 多无人机; 路径规划; 多智能体深度强化学习; 部分可观Markov决策过程; MASAC算法; multi-UAV; path planning; multi-agent deep reinforcement learning; partially observable Markov decision process; multi-agent soft actor critic algorithm

引用格式 方城亮, 杨飞生, 潘泉. 基于MASAC强化学习算法的多无人机协同路径规划. 中国科学: 信息科学, 2024, 54(8): 1871-1883, doi: 10.1360/SSI-2024-0050
Chengliang FANG, Feisheng YANG, Quan PAN. Multi-UAV collaborative path planning based on multi-agent soft actor critic. Sci Sin Inform, 2024, 54(8): 1871-1883, doi: 10.1360/SSI-2024-0050

控制 人工智能系统 论文 Website Google Scholar PDF

基于深度强化学习和知识迁移的飞机装配脉动生产线调度方法

钟金成, 马浩宇, 龙明盛, 王建民
中国科学: 信息科学, 2024, 54(6): 1441-1457

摘要 飞机装配是飞机制造中的关键环节,如何对飞机装配脉动生产线进行合理调度,实现降本增效,是智能制造领域的重要科学问题.然而,飞机装配脉动生产线场景复杂,装配单架飞机就包含上万道工序,这为飞机装配调度问题的形式化建模和高效求解带来新的挑战,因而当前生产实践中主要依靠人类专家经验进行手工调度.本文聚焦降低人力负载的优化目标,提出两种领域特定的技术以解决飞机装配调度问题.首先,将飞机装配脉动生产线调度问题建模为两个马尔可夫(Markov)决策过程,通过双重强化学习智能体决策生成飞机装配的近似调度方案.其次,针对强化学习决策鲁棒性不足的缺陷,提出领域知识迁移方法,将强化学习的求解知识迁移到整数规划约束剪枝中,最后利用整数规划求解器优化得到综合性能优异的调度方案.在飞机装配生产线的真实数据上完成了实验验证,结果表明本文提出的基于深度强化学习和知识迁移的调度方法能够成功扩展到年产量近百架次的飞机装配脉动生产线调度问题,将组合优化方法难以求解的问题优化到分钟级求解,相较于基线方法取得显著性能优势.

关键词 飞机装配; 智能调度; 组合优化; 强化学习; 知识迁移; aircraft assembly; intelligent scheduling; combinatorial optimization; reinforcement learning; knowledge transfer

引用格式 钟金成, 马浩宇, 龙明盛, 等. 基于深度强化学习和知识迁移的飞机装配脉动生产线调度方法. 中国科学: 信息科学, 2024, 54(6): 1441-1457, doi: 10.1360/SSI-2023-0197
Jincheng ZHONG, Haoyu MA, Mingsheng LONG, et al. Scheduling approach for aircraft assembly pulsation production lines with deep reinforcement learning and knowledge transfer. Sci Sin Inform, 2024, 54(6): 1441-1457, doi: 10.1360/SSI-2023-0197

控制 人工智能系统 评述 Website Google Scholar PDF

自动驾驶开源数据体系: 现状与未来

李弘扬, 李阳, 王晖杰, 曾嘉, 徐慧琳, 蔡品隆, 陈立, 严骏驰, 徐丰, 熊璐, 王井东, 朱福堂, 许春景, 汪天才, 夏飞, 穆北鹏, 彭志辉, 林达华, 乔宇
中国科学: 信息科学, 2024, 54(6): 1283-1318

摘要 随着自动驾驶技术的不断成熟与应用,系统性梳理开源自动驾驶数据集有利于产业生态良性循环.现有自动驾驶数据集可大致分为两代,第一代数据集的传感模态复杂度相对较低、数据集规模相对较小,且大多局限于感知级任务,以发布于2012年的KITTI为代表.相比于第一代数据集,第二代数据集的特征为传感模态复杂度较高、数据集规模与多样性较丰富、所设置任务从感知扩展到预测、规控上,以2019年前后提出的nu Scenes, Waymo为代表.本文联合学术界、产业界同仁,首次系统性梳理了国内外70余种开源自动驾驶数据集,对如何构建高质量数据集、数据在算法闭环体系中发挥的核心作用、如何利用生成式大模型规模化生产数据等进行了总结.此外,就未来第三代自动驾驶数据集应该具备的特质和数据规模,以及需要解决的科学与技术问题,进行了详细分析与讨论.希望本文的归纳与展望能促进新一代自动驾驶数据集与生态体系的建设、推动关键领域自主原创与科技自强的发展.

关键词 自动驾驶; 数据算法闭环; 基础模型; 数据集与挑战赛; autonomous driving; data pipeline; foundation model; dataset and challenge

引用格式 李弘扬, 李阳, 王晖杰, 等. 自动驾驶开源数据体系: 现状与未来. 中国科学: 信息科学, 2024, 54(6): 1283-1318, doi: 10.1360/SSI-2023-0313
Hongyang LI, Yang LI, Huijie WANG, et al. Open-sourced data ecosystem in autonomous driving: the present and future. Sci Sin Inform, 2024, 54(6): 1283-1318, doi: 10.1360/SSI-2023-0313

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 1

单样本学习下时序约束稀疏表示的物体识别方法

童小宝, 熊鹏文, 宋爱国, 刘小平
中国科学: 信息科学, 2024, 54(1): 191-209

摘要 非接触式传感器相比接触式触觉传感器可以避免与物体直接接触过程中产生的噪声,因而能够获取更有价值的原始数据表征物体内在属性;然而针对非接触式传感器感知的物体属性数据而言,现有算法难以实现单样本学习下的物体准确识别.为解决这一问题,本文提出一种新颖的单样本学习下时序约束稀疏表示方法 (one-shot learning with temporally constrained sparse representation, OSL-TCSR)用于识别5种不同材料下的50个物体类别.首先将两种原始数据(Lumini光谱和SCiO光谱)并行投影至共享子空间,并且使用聚类典型关联分析法(cluster canonical correlation analysis, C-CCA)计算两种原始数据的聚类相关性特征;其次通过稀疏表示分别计算得到聚类相关性特征数据以及原始数据的编码向量,并利用原始数据的编码向量对相关性特征数据的编码向量进行二次投影映射;然后将两次映射后的原始数据和相关性特征数据进行重构,以充分耦合化两种光谱数据,解决了单样本学习下的数据稀缺问题;进一步地,设计新颖的时序约束稀疏表示方法计算重构后的原始数据和相关性特征数据,以充分考虑每个光谱序列的时序特征;最后与最新的物体识别方法进行实验对比,结果表明提出的OSL-TCSR方法提高了单样本学习情况下的物体识别结果.此外, OSL-TCSR还可灵活迁移至多种应用场景,比如材料识别或纹理识别等.

关键词 物体识别; 聚类相关性特征; 单样本学习; 时序约束正则化; object recognition; clustering correlation characteristics; one-shot learning; temporally constrained regularization

引用格式 童小宝, 熊鹏文, 宋爱国, 等. 单样本学习下时序约束稀疏表示的物体识别方法. 中国科学: 信息科学, 2024, 54(1): 191-209, doi: 10.1360/SSI-2022-0256
Xiaobao TONG, Pengwen XIONG, Aiguo SONG, et al. Object recognition based on one-shot learning with temporally constrained sparse representation. Sci Sin Inform, 2024, 54(1): 191-209, doi: 10.1360/SSI-2022-0256

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 1

舰载机保障作业人机协同决策方法

李亚飞, 高磊, 蒿宏杰, 靳远远, 王可, 徐明亮
中国科学: 信息科学, 2023, 53(12): 2493-2510

摘要 舰载机保障作业是航空母舰航空保障系统的重要组成部分,其调度效率不仅影响舰载机出动架次率,而且严重制约航空母舰作战效能发挥.在多舰载机保障的动态甲板作业环境下,安全高效地为舰载机分配保障资源,最大限度地减少舰载机因资源分配冲突产生的时间开销,是提高舰载机保障作业调度效率的关键途经.现有基于启发式、机器学习等方法舰载机保障作业调度策略,存在计算量大、鲁棒性差、训练效率低等问题.为此,本文将舰载机保障作业调度问题建模为分布式多智能体协同控制的顺序决策问题,构建了一种新颖的基于人机协同的多智能体作业调度决策框架HCMTPF(human-machine collaborative multi-agent task planning framework),有效地提高了保障作业调度决策模型的学习效率.在此基础上,提出了一种基于人类行为可信度的自适应作业分配方法,进一步提高了智能体自主探索能力和人类指导经验利用率.经大量仿真实验验证,本文提出的舰载机保障作业人机协同决策方法比其他方法在计算性能和学习效率方面具有明显优势.

关键词 舰载机; 人机协同; 深度强化学习; 任务分配; 资源分配; carrier aircraft; human-machine collaboration; deep reinforcement learning; task allocation; resource allocation

引用格式 李亚飞, 高磊, 蒿宏杰, 等. 舰载机保障作业人机协同决策方法. 中国科学: 信息科学, 2023, 53(12): 2493-2510, doi: 10.1360/SSI-2022-0403
Yafei LI, Lei GAO, Hongjie HAO, et al. Human-machine collaborative decision-making for carrier aircraft support operations. Sci Sin Inform, 2023, 53(12): 2493-2510, doi: 10.1360/SSI-2022-0403

控制 人工智能系统 评述 Website Google Scholar PDF SCOPUS引次: 4

博弈智能的研究与应用

郝建业, 邵坤, 李凯, 李栋, 毛航宇, 胡舒悦, 王震
中国科学: 信息科学, 2023, 53(10): 1892-1923

摘要 博弈智能是一个涵盖博弈论、人工智能等方向的交叉领域,重点研究个体或组织间的交互作用,以及如何通过对博弈关系的定量建模进而实现最优策略的精确求解,最终形成智能化决策和决策知识库.近年来,随着行为数据的海量爆发和博弈形式的多样化,博弈智能吸引了越来越多学者的研究兴趣,并在现实生活中得到广泛应用.本文围绕博弈智能这一研究领域,分别从3个方面进行了系统的调研、分析和总结.首先,回顾了博弈智能的相关背景,涵盖了单智能体马尔可夫(Markov)决策过程,基于博弈论的多智能体建模技术,以及强化学习、博弈学习等多智能体求解方案.其次,依照智能体之间的博弈关系不同,将博弈分为合作博弈、对抗博弈以及混合博弈这三大类范式,并分别介绍了每种博弈智能范式下的主要研究问题、主流研究方法以及当前典型应用.最后,总结了博弈智能的研究现状,以及亟待解决的主要问题与研究挑战,并展望了学术界和工业界的未来应用前景,为相关研究人员提供参考,进一步推动国家人工智能发展战略.

关键词 博弈智能; 博弈论; 人工智能; 多智能体系统; 强化学习; 均衡求解; game intelligence; game theory; artificial intelligence; multiagent systems; reinforcement learning; equilibrium computing

引用格式 郝建业, 邵坤, 李凯, 等. 博弈智能的研究与应用. 中国科学: 信息科学, 2023, 53(10): 1892-1923, doi: 10.1360/SSI-2023-0010
Jianye HAO, Kun SHAO, Kai LI, et al. Research and applications of game intelligence. Sci Sin Inform, 2023, 53(10): 1892-1923, doi: 10.1360/SSI-2023-0010

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

面向人机序贯决策实现共享控制下的仲裁优化

张倩倩, 赵云波, 吕文君, 陈谋
中国科学: 信息科学, 2023, 53(9): 1768-1783

摘要 共享控制存在于众多由人类智能和机器智能共同参与的序贯决策场景.由于人的决策范围和智能机器的决策范围尚未予以明确划分,需要加以实时仲裁从而达到人机共存并且共享决策权限.为此本文提出了一种仲裁优化方法,该方法的独特之处在于引入自主性边界概念,优化了共享控制中人机决策动作的仲裁机制.本文为自主性边界的计算和更新维护提供了思路,能够基于贝叶斯规则的意图推理分析人机共享系统可能要实现的目标,从而确定仲裁参数.此外,本文还分析了自主性边界的不确定性以促进边界信息对共享控制中决策质量的优化效果.实验结果表明,所提出的方法在累积奖励、成功率、撞击率方面表现出色,这些说明了本文提出的共享控制中的仲裁优化方法在求解人机序贯决策问题时的有效性和价值.

关键词 共享控制; 仲裁优化; 自主性边界; 人机序贯决策; 强化学习; shared control; arbitration optimization; autonomous boundary; human-machine sequential decision-making; reinforcement learning

引用格式 张倩倩, 赵云波, 吕文君, 等. 面向人机序贯决策实现共享控制下的仲裁优化. 中国科学: 信息科学, 2023, 53(9): 1768-1783, doi: 10.1360/SSI-2022-0295
Qianqian ZHANG, Yun-Bo ZHAO, Wenjun LV, et al. Shared control with optimized arbitration for human-machine sequential decision-making. Sci Sin Inform, 2023, 53(9): 1768-1783, doi: 10.1360/SSI-2022-0295

控制 人工智能系统 评述 Website Google Scholar PDF SCOPUS引次: 2

数据驱动的策略优化控制律设计最新研究综述

赵斐然, 游科友
中国科学: 信息科学, 2023, 53(6): 1027-1049

摘要 随着通信技术和新一代人工智能的迅速发展,强化学习这一数据驱动的控制方法引起了极大的关注.本文回顾了强化学习中的一类典型方法——策略优化法——在系统控制律设计上的最新研究进展.主要讨论了其在各种重要线性最优控制问题上的收敛性及样本复杂度,例如线性二次控制、输出反馈控制、■控制、分布式控制等.此外,对策略优化法在网络化系统控制中的应用作了展望.

关键词 线性系统; 最优控制; 策略梯度法; 强化学习; 数据驱动控制; linear system; optimal control; policy gradient method; reinforcement learning; data-driven control;

引用格式 赵斐然, 游科友. 数据驱动的策略优化控制律设计最新研究综述. 中国科学: 信息科学, 2023, 53(6): 1027-1049, doi: 10.1360/SSI-2022-0455
Feiran ZHAO, Keyou YOU. Survey of recent progress in data-driven policy optimization for controller design. Sci Sin Inform, 2023, 53(6): 1027-1049, doi: 10.1360/SSI-2022-0455

控制 人工智能系统 评述 Website Google Scholar PDF SCOPUS引次: 1

博弈收益控制研究进展

王龙, 陈芳, 陈星如
中国科学: 信息科学, 2023, 53(4): 623-646

摘要 在博弈论中,单个个体控制全部个体的收益通常被认为是不可能的.一个例外是20世纪末在重复囚徒困境中提出的均衡器策略:使用这种策略的个体可以将对手的收益设置为由收益函数所决定的某个区间内的任意值.十余年后发现的零行列式策略通过单方面设置个体收益的线性关系,将该结果一般化.在此基础上,关于博弈收益控制的研究取得了一系列成果.本文概述了博弈收益控制的研究现状;介绍了单次博弈和重复博弈中的收益控制技术;从收益控制的基本概念、能控制的收益关系、收益控制策略的形式和收益控制策略的演化特性等方面总结了博弈中收益控制的主要进展和成果;并讨论了博弈收益控制的未来发展趋势.

关键词 博弈论; 收益控制; 零行列式策略; 演化博弈论; 策略设计; game theory; payoff control; zero-determinant strategy; evolutionary game theory; strategy design;

引用格式 王龙, 陈芳, 陈星如. 博弈收益控制研究进展. 中国科学: 信息科学, 2023, 53(4): 623-646, doi: 10.1360/SSI-2022-0263
Long WANG, Fang CHEN, Xingru CHEN. Payoff control in game theory. Sci Sin Inform, 2023, 53(4): 623-646, doi: 10.1360/SSI-2022-0263

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 9

非完全信息下人机合作对抗博弈专题

基于MASAC的无人机集群对抗博弈方法

王尔申, 刘帆, 宏晨, 郭靖, 何宁, 赵琳, 薛健
中国科学: 信息科学, 2022, 52(12): 2254-2269

摘要 随着无人机智能化水平的提高和集群控制技术的发展,无人机集群对抗智能决策方法将成为未来无人机作战的关键技术.无人机集群对抗学习环境具有维度高、非线性、信息有缺失、动作空间连续等复杂特点.近年来,以深度学习和强化学习为代表的人工智能技术取得了很大突破,深度强化学习在解决复杂环境下智能决策问题方面展现出了不俗能力.本文受多智能体集中式训练–分布式执行框架和最大化策略熵思想的启发,提出一种基于非完全信息的多智能体柔性行动器–评判器(multi-agent soft actor-critic, MASAC)深度强化学习方法,建立基于多智能体深度强化学习的无人机集群对抗博弈模型,构建连续空间多无人机作战环境,对红蓝双方无人机集群的非对称性对抗进行仿真实验,实验结果表明MASAC优于现有流行的多智能体深度强化学习方法,能使博弈双方收敛到收益更高的博弈均衡点.进一步对MASAC的收敛情况进行实验和分析,结果显示MASAC具有良好的收敛性和稳定性,能够保证MASAC在无人机集群对抗智能决策方面的实用性.

关键词 深度强化学习; 多智能体; 对抗博弈; MASAC; 无人机集群; deep reinforcement learning; multi-agent; confrontation game; MASAC; UAV clusters;

引用格式 王尔申, 刘帆, 宏晨, 等. 基于MASAC的无人机集群对抗博弈方法. 中国科学: 信息科学, 2022, 52(12): 2254-2269, doi: 10.1360/SSI-2022-0303
Ershen WANG, Fan LIU, Chen HONG, et al. MASAC-based confrontation game method of UAV clusters. Sci Sin Inform, 2022, 52(12): 2254-2269, doi: 10.1360/SSI-2022-0303

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 3

非完全信息下人机合作对抗博弈专题

非完备策略集下人机对抗空战决策方法

李守义, 陈谋, 王玉惠, 吴庆宪, 贺建良
中国科学: 信息科学, 2022, 52(12): 2239-2253

摘要 在真实的空战对抗环境中,不确定性广泛存在.本文考虑人机对抗场景中的空战决策问题,提出了一种非完备策略集下的博弈决策方法.首先,将对抗的无人机群和有人机群的动态博弈过程分解为不同的决策阶段,并将当前的决策阶段建模为一个零和博弈模型.所建模型考虑了有人机群的策略不完全可知的情形,并用一个不确定效用矩阵来描述这种非完备策略.随后,基于矩阵博弈中的最大最小策略概念,提出了非完备策略下博弈模型的求解方法,从而给出了无人机群的决策序列.最后通过仿真实验验证了所提方法的有效性.

关键词 无人机; 空战决策; 人机对抗; 非完备策略集; 博弈论; 最大最小策略; unmanned air vehicle(UAV); air combat decision-making; human-computer gaming; incomplete strategy set; game theory; maximum-minimum strategy;

引用格式 李守义, 陈谋, 王玉惠, 等. 非完备策略集下人机对抗空战决策方法. 中国科学: 信息科学, 2022, 52(12): 2239-2253, doi: 10.1360/SSI-2022-0222
Shouyi LI, Mou CHEN, Yuhui WANG, et al. Human-computer gaming decision-making method in air combat under an incomplete strategy set. Sci Sin Inform, 2022, 52(12): 2239-2253, doi: 10.1360/SSI-2022-0222

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 5

非完全信息下人机合作对抗博弈专题

分层决策多机空战对抗方法

王欢, 周旭, 邓亦敏, 刘小峰
中国科学: 信息科学, 2022, 52(12): 2225-2238

摘要 在空战研究领域,战术决策旨在提高博弈对抗收益,进而提升战机攻击效率.现有战术决策算法大多基于规则方法设计,当应用于多机空战的复杂环境时则存在设计难度大,难以求解最优解等问题.本文提出一种分层决策多机空战对抗方法,首先,在训练初始阶段借鉴已有人类专家经验,指导模型训练;其次,根据战术动作类型设计分层动作决策网络,降低动作决策空间维度;最后,将训练产生的对抗经验按阶段分解,降低策略学习难度.在多机空战仿真环境中进行了实验验证,相比于现有多机空战决策方法,本文提出的方法在训练收敛性和决策性能方面均具有更好的表现.

关键词 多机空战; 动作决策网络; 博弈; 分层强化学习; 决策收益; multi-aircraft air combat; action decision-making network; game; hierarchical reinforcement learning; decision gain;

引用格式 王欢, 周旭, 邓亦敏, 等. 分层决策多机空战对抗方法. 中国科学: 信息科学, 2022, 52(12): 2225-2238, doi: 10.1360/SSI-2022-0185
Huan WANG, Xu ZHOU, Yimin DENG, et al. A hierarchical decision-making method for multi-aircraft air combat confrontation. Sci Sin Inform, 2022, 52(12): 2225-2238, doi: 10.1360/SSI-2022-0185

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

非完全信息下人机合作对抗博弈专题

非完全信息下基于PPO-CFR的扩展式博弈决策

黄蕾, 朱进, 段福庆
中国科学: 信息科学, 2022, 52(12): 2178-2194

摘要 非完全信息下的人机对抗通常可以通过双人零和博弈模型加以描述,反事实后悔最小化(counterfactual regret minimization, CFR)是处理非完全信息双人零和博弈的一种流行算法.然而现有CFR及其变体算法在迭代过程中使用固定的后悔值计算和策略更新类型,在非完全信息扩展式博弈下表现各有优劣,泛化性能薄弱.针对这一问题,本文将强化学习近端策略优化(proximal policy optimization,PPO)算法与CFR算法相结合,提出一种PPO-CFR算法,通过训练出理性的智能体,从而实现CFR迭代过程后悔值计算和策略更新类型的自适应选择,以提高算法的泛化性能,并实现非完全信息扩展式博弈的策略优化.本文采用通用的扑克博弈实验验证所提算法,并制定逐步奖励函数训练智能体的动作策略,实验结果表明,与现有方法相比, PPO-CFR算法具有更好的泛化性能和更低的可利用度,迭代策略更为逼近纳什均衡策略.

关键词 非完全信息; 扩展式博弈; 反事实后悔最小化; 近端策略优化; 博弈决策; incomplete information; extensive game; counterfactual regret minimization; proximal policy optimization; game decision-making;

引用格式 黄蕾, 朱进, 段福庆. 非完全信息下基于PPO-CFR的扩展式博弈决策. 中国科学: 信息科学, 2022, 52(12): 2178-2194, doi: 10.1360/SSI-2022-0216
Lei HUANG, Jin ZHU, Fuqing DUAN. Extensive game decision based on the PPO-CFR algorithm under incomplete information. Sci Sin Inform, 2022, 52(12): 2178-2194, doi: 10.1360/SSI-2022-0216

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

非完全信息下人机合作对抗博弈专题

非全时有效人类决策下的人机共享自主方法

游诗艺, 康宇, 赵云波, 张倩倩
中国科学: 信息科学, 2022, 52(12): 2165-2177

摘要 在人机共享自主中,人和智能机器以互补的能力共同完成实时控制任务,以实现双方单独控制无法达到的性能.现有的许多人机共享自主方法倾向于假设人的决策始终“有效”,即这些决策促进了任务的完成,且有效地反映了人类的真实意图.然而,在现实中,由于疲劳、分心等多种原因,人的决策会在一定程度上“无效”,不满足这些方法的基本假设,导致方法失效,进而导致任务失败.本文提出了一种新的基于深度强化学习的人机共享自主方法,使系统能够在人类决策长期无效的情况下完成正确的目标.具体来说,我们使用深度强化学习训练从系统状态和人类决策到决策价值的端到端映射,以显式判断人类决策是否无效.如果无效,机器将接管系统以获得更好的性能.我们将该方法应用于实时控制任务中,结果表明该方法能够及时、准确地判断人类决策的有效性,分配相应的控制权限,并最终提高了系统性能.

关键词 人机系统; 共享自主; 非全时有效决策; 深度强化学习; 仲裁; human-machine system; shared autonomy; non-full-time effective decision; deep reinforcement learning; arbitration;

引用格式 游诗艺, 康宇, 赵云波, 等. 非全时有效人类决策下的人机共享自主方法. 中国科学: 信息科学, 2022, 52(12): 2165-2177, doi: 10.1360/SSI-2022-0225
Shiyi YOU, Yu KANG, Yun-Bo ZHAO, et al. Human-machine shared autonomy approach for non-full-time effective human decisions. Sci Sin Inform, 2022, 52(12): 2165-2177, doi: 10.1360/SSI-2022-0225

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

具有学习和推理能力的空间无人系统智能架构

黄煌, 李谋, 刘磊, 汤亮, 刘昊, 谢心如, 刘乃龙, 魏春岭, 邢琰, 姜甜甜, 胡海东, 常亚菲, 胡勇, 杨孟飞
中国科学: 信息科学, 2022, 52(11): 2093-2105

摘要 以卫星、飞船、深空探测器为代表的航天器是一类典型的无人系统,经历了从自动化到自主化的不断发展.为提升航天器对未知空间环境和复杂空间任务的适应能力和智能自主水平,以空间无人系统为研究对象设计了具有学习和推理能力的无人系统智能架构,给出架构的组成及功能;接着分析该架构中学习和推理能力的运作机制,并针对架构所需的动作库和知识库的构建、更新与扩展方法等关键技术提出解决方案;最后通过地外星表巡视采样任务示例,具体说明在该智能架构下的新知识生成、基于知识的推理和自主执行任务的过程,以及过程中知识库、环境、任务和动作库之间的交互关系.

关键词 学习和推理能力; 空间无人系统; 智能架构; 动作库; 知识库; learning and reasoning capabilities; space unmanned system; intelligent architecture; action library; knowledge library;

引用格式 黄煌, 李谋, 刘磊, 等. 具有学习和推理能力的空间无人系统智能架构. 中国科学: 信息科学, 2022, 52(11): 2093-2105, doi: 10.1360/SSI-2022-0036
Huang HUANG, Mou LI, Lei LIU, et al. Intelligent architecture of space unmanned system with learning and reasoning capabilities. Sci Sin Inform, 2022, 52(11): 2093-2105, doi: 10.1360/SSI-2022-0036

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 3

基于强化学习的高速列车群运行调整方法

代学武, 程丽娟, 崔东亮, 俞胜平, 袁志明, 应志鹏
中国科学: 信息科学, 2022, 52(5): 890-906

摘要 随着我国高速铁路建设成网,行车密度不断提高,在出现突发事件导致列车晚点时,行车调度的复杂性和难度急剧增加,如何动态调整列车群运行,以减少晚点,提高准点率是运行调整的核心.本文提出了一种适用于突发事件下高速列车群运行调整的无模型强化学习方法.首先将多个列车在多个车站和闭塞区间的运行调整建模为受约束的资源占用和配置的多阶段序贯决策过程,提出了基于动态时空拓扑矩阵的车站和区间统一化建模方法.针对高铁列车群时空关联强的特点,首次提出了一种包含车辆位置、路网资源等时空分布信息的强化学习状态空间、动作空间和回报函数,构建了有效的奖励反馈机制.然后,针对高铁运行系统搜索空间巨大的难点,提出了启发式动作子空间自适应生成方法,利用部分显式静态约束构建启发式规则减少搜索空间,有效减少了无模型强化学习的试错次数,提高了求解效率,也保留了无模型通用性好的优点.最后,基于京广高铁实际案例的仿真分析表明,在发生不同时空范围的大风限速,导致多车延误的事件下,所提出的算法均能较好收敛,明显减少列车群内晚点传播,与MILP, ACO, FCFS方法相比,列车群的平均晚点时间可减少2%~20%.

关键词 强化学习; 时空拓扑矩阵; 列车运行调整; FCFS算法; 优化; reinforcement learning; spatio-temporal topology matrix; train rescheduling; FCFS algorithm; optimization;

引用格式 代学武, 程丽娟, 崔东亮, 等. 基于强化学习的高速列车群运行调整方法. 中国科学: 信息科学, 2022, 52(5): 890-906, doi: 10.1360/SSI-2021-0073
Xuewu DAI, Lijuan CHENG, Dongliang CUI, et al. Rescheduling of high-speed trains: a reinforcement learning approach. Sci Sin Inform, 2022, 52(5): 890-906, doi: 10.1360/SSI-2021-0073