控制 人工智能系统 观点与争鸣 Website Google Scholar PDF

工业智能系统及软件专刊

工业大模型赋能的新型流程工业智能工厂核心工业软件体系

侯卫锋, 古绍武, 张志铭, 谢磊, 苏宏业
中国科学: 信息科学, 2025, 55(7): 1783-1800

关键词 流程工业; 智能工厂; 新型核心工业软件; 工业大模型; process industry; smart factory; new core industrial software; industrial large model

引用格式 侯卫锋, 古绍武, 张志铭, 等. 工业大模型赋能的新型流程工业智能工厂核心工业软件体系. 中国科学: 信息科学, 2025, 55(7): 1783-1800, doi: 10.1360/SSI-2025-0109
Weifeng HOU, Shaowu GU, Zhiming ZHANG, et al. Core industrial software system of the new process industrial intelligent factory enabled by the industrial large model. Sci Sin Inform, 2025, 55(7): 1783-1800, doi: 10.1360/SSI-2025-0109

控制 人工智能系统 论文 Website Google Scholar PDF

工业智能系统及软件专刊

数字族谱: 驱动工业具身智能世界模型

任磊, 董家宝, 曾宪超, 王宇清, 杨凌远, 赖李媛君, 张霖, 李伯虎
中国科学: 信息科学, 2025, 55(7): 1748-1765

关键词 数字族谱; 具身智能; 数字族谱DNA; 工业大模型; 多模态大模型; 世界模型; 空间智能; 生成式人工智能; 工业智能体; 智能制造; 数字孪生; digital genealogy; embodied intelligence; digital genealogy DNA; industrial foundation model; multimodal foundation model; world model; spatial intelligence; generative artificial intelligence; industrial agent; smart manufacturing; digital twin

引用格式 任磊, 董家宝, 曾宪超, 等. 数字族谱: 驱动工业具身智能世界模型. 中国科学: 信息科学, 2025, 55(7): 1748-1765, doi: 10.1360/SSI-2025-0093
Lei REN, Jiabao DONG, Xianchao ZENG, et al. Digital genealogy: empowering industrial embodied intelligence world model. Sci Sin Inform, 2025, 55(7): 1748-1765, doi: 10.1360/SSI-2025-0093

控制 人工智能系统 论文 Website Google Scholar PDF

工业智能系统及软件专刊

基于元排产的复杂动态IPPS计算框架

陈智超, 沈冰清, 曾宇欣, 汪敏, 韩子熹, 王敏琦, 蔡鸿明
中国科学: 信息科学, 2025, 55(7): 1723-1747

关键词 复杂制造; 动态排产; 滚动窗口; 变粒度; 冲突检测与消解; complex manufacturing; dynamic scheduling; rolling window; variable granularity; conflict detection and resolution

引用格式 陈智超, 沈冰清, 曾宇欣, 等. 基于元排产的复杂动态IPPS计算框架. 中国科学: 信息科学, 2025, 55(7): 1723-1747, doi: 10.1360/SSI-2025-0089
Zhichao CHEN, Bingqing SHEN, Yuxin ZENG, et al. A complex and dynamic IPPS computing framework based on meta-scheduling. Sci Sin Inform, 2025, 55(7): 1723-1747, doi: 10.1360/SSI-2025-0089

控制 人工智能系统 评述 Website Google Scholar PDF

工业智能系统及软件专刊

材料科学大语言模型关键技术及其应用

罗丹宇, 温李阳, 陈博, 郭思佳, 汪华洋, 万紫平, 陈露, 陈忻
中国科学: 信息科学, 2025, 55(7): 1599-1621

关键词 大语言模型; 材料科学; 多模态; 智能体; large language model; materials science; multimodal; agent

引用格式 罗丹宇, 温李阳, 陈博, 等. 材料科学大语言模型关键技术及其应用. 中国科学: 信息科学, 2025, 55(7): 1599-1621, doi: 10.1360/SSI-2025-0169
Danyu LUO, Liyang WEN, Bo CHEN, et al. Key technologies and applications of large language models for materials science. Sci Sin Inform, 2025, 55(7): 1599-1621, doi: 10.1360/SSI-2025-0169

控制 人工智能系统 评述 Website Google Scholar PDF

工业智能系统及软件专刊

数智赋能流程工业调度决策优化: 综述与展望

王川, 杜文莉, 朱佳雯, 梁梓婷, 康天傲
中国科学: 信息科学, 2025, 55(7): 1571-1598

关键词 流程工业; 智能制造; 调度优化; 工业软件; process industry; smart manufacturing; scheduling optimization; industrial software

引用格式 王川, 杜文莉, 朱佳雯, 等. 数智赋能流程工业调度决策优化: 综述与展望. 中国科学: 信息科学, 2025, 55(7): 1571-1598, doi: 10.1360/SSI-2025-0115
Chuan WANG, Wenli DU, Jiawen ZHU, et al. Digital intelligence enhancing scheduling optimization in process industries: overview and perspectives. Sci Sin Inform, 2025, 55(7): 1571-1598, doi: 10.1360/SSI-2025-0115

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

基于强化联邦学习的车联网DDoS攻击检测

于峻骁, 石润华
中国科学: 信息科学, 2025, 55(5): 1221-1238

摘要 随着车联网技术的普及,在带来了众多便利的同时,也引发了诸如DDoS (分布式拒绝服务)攻击在内的安全性问题.利用深度学习处理DDoS攻击取得了显著成效.然而,为了提高模型的有效性,需要大量高质量的数据.这些数据通常分散在不同的车辆运营公司或组织之间,因此很难通过集中数据集的方式来训练出有效的攻击检测模型.针对这一问题,本文提出了一种基于强化联邦学习的车联网DDoS攻击检测方法.该方法将强化学习应用于联邦学习的聚合过程中,从而优化车联网环境中的DDoS攻击检测算法.在此方法中,车联网的雾节点服务器作为学习的参与方,利用本地数据进行强化学习,并将训练后的模型参数上传至车联网组织的边缘服务器进行聚合.通过研究雾节点模型对环境的适应性能,证明强化联邦学习能够提高DDoS攻击检测模型在数据分布不均衡方面的准确性以及模型收敛效率.使用公开的DDoS攻击数据集CICDDoS2019进行实验,实验结果表明,所提出的方法在车联网环境中展现出优异的性能,为车联网安全领域的研究提供了新的思路和方法.

关键词 车联网; DDoS攻击检测; 强化学习; 联邦学习; Internet of Vehicles; DDoS attack detection; reinforcement learning; federated learning

引用格式 于峻骁, 石润华. 基于强化联邦学习的车联网DDoS攻击检测. 中国科学: 信息科学, 2025, 55(5): 1221-1238, doi: 10.1360/SSI-2024-0236
Junxiao YU, Runhua SHI. DDoS attack detection in the Internet of Vehicles based on reinforced federated learning. Sci Sin Inform, 2025, 55(5): 1221-1238, doi: 10.1360/SSI-2024-0236

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

城市固废焚烧过程动态协同优化方法

黄卫民, 蒙西, 乔俊飞
中国科学: 信息科学, 2025, 55(5): 1200-1220

摘要 城市固废焚烧(municipal solid waste incineration, MSWI)过程是一个多时空、多要素、开放的复杂动态系统,通过固废焚烧、余热利用及烟气处理等环节实现固废污染防治与资源化利用,具有不确定性、强非线性及非平稳等特点,难以安全稳定保障,绿色高效运行.文中提出了一种MSWI过程动态协同优化方法,能够在提高系统发电效率的同时降低烟气污染物排放及运行成本.首先,针对固废焚烧、余热利用以及烟气处理环节的不同时间尺度特性,设计了双层优化方案,实现MSWI过程协同运行优化.其次,采用数据驱动方法建立了MSWI过程运行指标模型,利用自适应Levenberg-Marquardt算法对模型进行在线更新,实现不确定工况下运行性能的动态精准评价.然后,提出了一种双层多目标竞争群优化算法,分别为上层优化和下层优化分别设计寻优策略,以实现合理的优化分工和高效的搜索效率.此外,针对MSWI过程随机动态变化特性,提出一种基于快速映射的动态响应策略,提高问题求解效率.最后,采用北京市某MSWI厂的实际运行数据验证所提算法有效性.

关键词 城市固废焚烧; 动态多目标优化; 竞争群优化; 多时间尺度; 随机变化; municipal solid waste incineration; dynamic multi-objective optimization; competitive swarm optimization; multi-time scale; stochastic changes

引用格式 黄卫民, 蒙西, 乔俊飞. 城市固废焚烧过程动态协同优化方法. 中国科学: 信息科学, 2025, 55(5): 1200-1220, doi: 10.1360/SSI-2024-0320
Weimin HUANG, Xi MENG, Junfei QIAO. A dynamic cooperative optimization method for municipal solid waste incineration process. Sci Sin Inform, 2025, 55(5): 1200-1220, doi: 10.1360/SSI-2024-0320

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

线性多智能体系统期望编队的可实现性问题

王兴平, 朱建栋, 迟殿委, 黄甜甜, 冯俊娥
中国科学: 信息科学, 2025, 55(1): 172-186

摘要 在何种条件下能设计控制协议使一个多智能体系统实现期望编队是编队控制的基本问题.通过分析线性多智能体系统一类可完全实现的期望编队的性质,本文注意到期望编队的可实现性和时变线性方程组的相容性之间存在联系,由此利用时变线性方程组的渐近相容性提出期望编队的渐近相容概念,并利用矩阵的Moore-Penrose广义逆研究其主要性质.利用这一概念,本文给出线性多智能体系统期望编队的可实现性结论:只要智能体动态和连接网络分别满足可控性和连通性条件,所有渐近相容的期望编队都是可实现的.对渐近相容的期望编队,本文利用加权可控性Gram矩阵和Moore-Penrose广义逆设计出状态反馈控制协议.若智能体动态进一步还是可观的,则利用分离原理设计出基于观测器的控制协议.最后,仿真实例的结果验证了本文结论.

关键词 线性多智能体系统; 编队控制; 期望编队的可实现性; 渐近相容; 协议设计; linear multi-agent systems; formation control; achievability of desired formations; asymptotical consistency; protocol design

引用格式 王兴平, 朱建栋, 迟殿委, 等. 线性多智能体系统期望编队的可实现性问题. 中国科学: 信息科学, 2025, 55(1): 172-186, doi: 10.1360/SSI-2024-0077
Xingping WANG, Jiandong ZHU, Dianwei CHI, et al. Achievability problem for desired formations of linear multi-agent systems. Sci Sin Inform, 2025, 55(1): 172-186, doi: 10.1360/SSI-2024-0077

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 2

工业大模型: 体系架构、关键技术与典型应用

任磊, 王海腾, 董家宝, 贾子翟, 李世祥, 王宇清, 赖李媛君, 黄迪, 张霖, 吴文峻, 李伯虎
中国科学: 信息科学, 2024, 54(11): 2606-2622

摘要 随着新一代人工智能的发展,大模型(如GPT-4o等)凭借大规模训练数据、网络参数和算力涌现出强大的生成能力、泛化能力和自然交互能力,展现出改变工业世界的巨大潜力.尽管大模型已在自然语言等多个领域取得突破性进展,但其在工业应用中的探索仍处于初级阶段,当前工业大模型的系统性研究仍属空白.工业应用中特有的异质数据模态、复杂多样的专业化场景、长流程的关联性决策、以及对于可信性实时性的高要求,使得通用大模型无法直接用于解决复杂的工业问题,亟需开展全新的工业大模型基础理论和关键技术研究.本文系统地探讨了工业大模型的挑战问题、概念内涵、体系架构、构建方法、关键技术与典型应用.从5个挑战问题的分析出发,提出了工业大模型的全新定义和体系架构;同时,提出了工业大模型的四阶段构建方法,阐述了工业大模型核心关键技术;然后,基于所提出的工业大模型6种核心应用能力,探讨了面向产品全生命周期的工业大模型典型应用场景,并给出了“基石”工业大模型原型系统在生成式人工智能方面的应用实例;最后,探讨和展望了工业大模型未来的研究方向和开放性问题.本文将为工业大模型这一全新研究方向的开辟与发展,提供基础理论、关键技术和行业应用的全面指导.

关键词 工业大模型; 工业基础模型; 生成式人工智能; 具身智能; 工业智能体; 智能制造; industrial foundation model; industrial AI foundation model; AIGC; embodied intelligence; industrial agent; intelligent manufacturing

引用格式 任磊, 王海腾, 董家宝, 等. 工业大模型: 体系架构、关键技术与典型应用. 中国科学: 信息科学, 2024, 54(11): 2606-2622, doi: 10.1360/SSI-2024-0185
Lei REN, Haiteng WANG, Jiabao DONG, et al. Industrial foundation model: architecture, key technologies, and typical applications. Sci Sin Inform, 2024, 54(11): 2606-2622, doi: 10.1360/SSI-2024-0185

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

基于深度强化学习的卫星动态任务实时调度时效性优化方法

李可, 熊顺蕊, 戴朋林, 宋彤雨, 禹旭敏, 李天瑞
中国科学: 信息科学, 2024, 54(10): 2443-2469

摘要 随着全球卫星数量的快速增长和天基网络的蓬勃发展,优化卫星任务调度以确保任务观测时效性变得至关重要.任务调度方法不仅影响观测数据采集的效率,还直接关系到天基信息系统能否及时响应多种实时应用需求.然而,针对非周期动态任务,传统批处理调度方法存在局限性,需收集完所有任务信息后才能作出决策,而现有基于深度强化学习的实时调度方法也无法保证紧急任务的观测时效性.鉴于此,本文首次提出了“时效性优化的敏捷卫星动态任务实时调度”问题,该问题定义任务观测时效性指标,综合考虑任务观测延迟和接收任务的总收益,以最大化所有任务观测时效性.为了求解该问题,设计了两阶段时效性优化算法PPODL-HR.在任务选择阶段,提出了基于深度神经网络和长短期记忆网络的近端策略优化以加快模型的收敛速度;在资源分配阶段,设计了启发式规则,通过任务合并进一步降低任务切换所需的卫星转换时间.通过数值仿真和STK仿真验证, PPODL-HR算法在任务观测时效性方面优于传统的静态批处理调度和现有的动态任务实时调度算法,且适用于不同任务密度和不同紧急性任务占比的情况.特别地,与经典的动态任务实时调度算法相比,任务观测时效性提高了21.14%,任务观测延迟降低了4.55%,接收任务的总收益增加了20.70%.

关键词 时效性优化; 卫星任务调度; 动态任务实时调度; 深度强化学习; 任务观测时效性; 启发式; timeliness optimization; satellite task scheduling; real-time scheduling for dynamic tasks; deep reinforcement learning; timeliness of task observation; heuristic rule

引用格式 李可, 熊顺蕊, 戴朋林, 等. 基于深度强化学习的卫星动态任务实时调度时效性优化方法. 中国科学: 信息科学, 2024, 54(10): 2443-2469, doi: 10.1360/SSI-2023-0368
Ke LI, Shunrui XIONG, Penglin DAI, et al. Timeliness optimization of real-time scheduling for satellite dynamic tasks based on deep reinforcement learning. Sci Sin Inform, 2024, 54(10): 2443-2469, doi: 10.1360/SSI-2023-0368

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 1

基于MASAC强化学习算法的多无人机协同路径规划

方城亮, 杨飞生, 潘泉
中国科学: 信息科学, 2024, 54(8): 1871-1883

摘要 针对动态不确定环境下异构多无人机协同路径规划问题,提出了一种新的多智能体深度强化学习算法.首先,开发了一个空域场景下多无人机到达目标地点的强化学习环境,环境引入了无人机动力学方程,并考虑了无人机异构的因素以及安全避障的需求.其次,设计了任务完成率、编队保持率、飞行时间等性能指标,用以衡量算法的优劣.然后,将多无人机协同路径规划问题建模为部分可观Markov决策过程,提出了一种多智能体柔性执行评价(multi-agent soft actor critic, MASAC)算法寻求该问题的近似最优策略.最后,通过仿真实验验证了所提算法的有效性和优越性.

关键词 多无人机; 路径规划; 多智能体深度强化学习; 部分可观Markov决策过程; MASAC算法; multi-UAV; path planning; multi-agent deep reinforcement learning; partially observable Markov decision process; multi-agent soft actor critic algorithm

引用格式 方城亮, 杨飞生, 潘泉. 基于MASAC强化学习算法的多无人机协同路径规划. 中国科学: 信息科学, 2024, 54(8): 1871-1883, doi: 10.1360/SSI-2024-0050
Chengliang FANG, Feisheng YANG, Quan PAN. Multi-UAV collaborative path planning based on multi-agent soft actor critic. Sci Sin Inform, 2024, 54(8): 1871-1883, doi: 10.1360/SSI-2024-0050

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 1

基于深度强化学习和知识迁移的飞机装配脉动生产线调度方法

钟金成, 马浩宇, 龙明盛, 王建民
中国科学: 信息科学, 2024, 54(6): 1441-1457

摘要 飞机装配是飞机制造中的关键环节,如何对飞机装配脉动生产线进行合理调度,实现降本增效,是智能制造领域的重要科学问题.然而,飞机装配脉动生产线场景复杂,装配单架飞机就包含上万道工序,这为飞机装配调度问题的形式化建模和高效求解带来新的挑战,因而当前生产实践中主要依靠人类专家经验进行手工调度.本文聚焦降低人力负载的优化目标,提出两种领域特定的技术以解决飞机装配调度问题.首先,将飞机装配脉动生产线调度问题建模为两个马尔可夫(Markov)决策过程,通过双重强化学习智能体决策生成飞机装配的近似调度方案.其次,针对强化学习决策鲁棒性不足的缺陷,提出领域知识迁移方法,将强化学习的求解知识迁移到整数规划约束剪枝中,最后利用整数规划求解器优化得到综合性能优异的调度方案.在飞机装配生产线的真实数据上完成了实验验证,结果表明本文提出的基于深度强化学习和知识迁移的调度方法能够成功扩展到年产量近百架次的飞机装配脉动生产线调度问题,将组合优化方法难以求解的问题优化到分钟级求解,相较于基线方法取得显著性能优势.

关键词 飞机装配; 智能调度; 组合优化; 强化学习; 知识迁移; aircraft assembly; intelligent scheduling; combinatorial optimization; reinforcement learning; knowledge transfer

引用格式 钟金成, 马浩宇, 龙明盛, 等. 基于深度强化学习和知识迁移的飞机装配脉动生产线调度方法. 中国科学: 信息科学, 2024, 54(6): 1441-1457, doi: 10.1360/SSI-2023-0197
Jincheng ZHONG, Haoyu MA, Mingsheng LONG, et al. Scheduling approach for aircraft assembly pulsation production lines with deep reinforcement learning and knowledge transfer. Sci Sin Inform, 2024, 54(6): 1441-1457, doi: 10.1360/SSI-2023-0197

控制 人工智能系统 评述 Website Google Scholar PDF SCOPUS引次: 2

自动驾驶开源数据体系: 现状与未来

李弘扬, 李阳, 王晖杰, 曾嘉, 徐慧琳, 蔡品隆, 陈立, 严骏驰, 徐丰, 熊璐, 王井东, 朱福堂, 许春景, 汪天才, 夏飞, 穆北鹏, 彭志辉, 林达华, 乔宇
中国科学: 信息科学, 2024, 54(6): 1283-1318

摘要 随着自动驾驶技术的不断成熟与应用,系统性梳理开源自动驾驶数据集有利于产业生态良性循环.现有自动驾驶数据集可大致分为两代,第一代数据集的传感模态复杂度相对较低、数据集规模相对较小,且大多局限于感知级任务,以发布于2012年的KITTI为代表.相比于第一代数据集,第二代数据集的特征为传感模态复杂度较高、数据集规模与多样性较丰富、所设置任务从感知扩展到预测、规控上,以2019年前后提出的nu Scenes, Waymo为代表.本文联合学术界、产业界同仁,首次系统性梳理了国内外70余种开源自动驾驶数据集,对如何构建高质量数据集、数据在算法闭环体系中发挥的核心作用、如何利用生成式大模型规模化生产数据等进行了总结.此外,就未来第三代自动驾驶数据集应该具备的特质和数据规模,以及需要解决的科学与技术问题,进行了详细分析与讨论.希望本文的归纳与展望能促进新一代自动驾驶数据集与生态体系的建设、推动关键领域自主原创与科技自强的发展.

关键词 自动驾驶; 数据算法闭环; 基础模型; 数据集与挑战赛; autonomous driving; data pipeline; foundation model; dataset and challenge

引用格式 李弘扬, 李阳, 王晖杰, 等. 自动驾驶开源数据体系: 现状与未来. 中国科学: 信息科学, 2024, 54(6): 1283-1318, doi: 10.1360/SSI-2023-0313
Hongyang LI, Yang LI, Huijie WANG, et al. Open-sourced data ecosystem in autonomous driving: the present and future. Sci Sin Inform, 2024, 54(6): 1283-1318, doi: 10.1360/SSI-2023-0313

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 1

单样本学习下时序约束稀疏表示的物体识别方法

童小宝, 熊鹏文, 宋爱国, 刘小平
中国科学: 信息科学, 2024, 54(1): 191-209

摘要 非接触式传感器相比接触式触觉传感器可以避免与物体直接接触过程中产生的噪声,因而能够获取更有价值的原始数据表征物体内在属性;然而针对非接触式传感器感知的物体属性数据而言,现有算法难以实现单样本学习下的物体准确识别.为解决这一问题,本文提出一种新颖的单样本学习下时序约束稀疏表示方法 (one-shot learning with temporally constrained sparse representation, OSL-TCSR)用于识别5种不同材料下的50个物体类别.首先将两种原始数据(Lumini光谱和SCiO光谱)并行投影至共享子空间,并且使用聚类典型关联分析法(cluster canonical correlation analysis, C-CCA)计算两种原始数据的聚类相关性特征;其次通过稀疏表示分别计算得到聚类相关性特征数据以及原始数据的编码向量,并利用原始数据的编码向量对相关性特征数据的编码向量进行二次投影映射;然后将两次映射后的原始数据和相关性特征数据进行重构,以充分耦合化两种光谱数据,解决了单样本学习下的数据稀缺问题;进一步地,设计新颖的时序约束稀疏表示方法计算重构后的原始数据和相关性特征数据,以充分考虑每个光谱序列的时序特征;最后与最新的物体识别方法进行实验对比,结果表明提出的OSL-TCSR方法提高了单样本学习情况下的物体识别结果.此外, OSL-TCSR还可灵活迁移至多种应用场景,比如材料识别或纹理识别等.

关键词 物体识别; 聚类相关性特征; 单样本学习; 时序约束正则化; object recognition; clustering correlation characteristics; one-shot learning; temporally constrained regularization

引用格式 童小宝, 熊鹏文, 宋爱国, 等. 单样本学习下时序约束稀疏表示的物体识别方法. 中国科学: 信息科学, 2024, 54(1): 191-209, doi: 10.1360/SSI-2022-0256
Xiaobao TONG, Pengwen XIONG, Aiguo SONG, et al. Object recognition based on one-shot learning with temporally constrained sparse representation. Sci Sin Inform, 2024, 54(1): 191-209, doi: 10.1360/SSI-2022-0256

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 2

舰载机保障作业人机协同决策方法

李亚飞, 高磊, 蒿宏杰, 靳远远, 王可, 徐明亮
中国科学: 信息科学, 2023, 53(12): 2493-2510

摘要 舰载机保障作业是航空母舰航空保障系统的重要组成部分,其调度效率不仅影响舰载机出动架次率,而且严重制约航空母舰作战效能发挥.在多舰载机保障的动态甲板作业环境下,安全高效地为舰载机分配保障资源,最大限度地减少舰载机因资源分配冲突产生的时间开销,是提高舰载机保障作业调度效率的关键途经.现有基于启发式、机器学习等方法舰载机保障作业调度策略,存在计算量大、鲁棒性差、训练效率低等问题.为此,本文将舰载机保障作业调度问题建模为分布式多智能体协同控制的顺序决策问题,构建了一种新颖的基于人机协同的多智能体作业调度决策框架HCMTPF(human-machine collaborative multi-agent task planning framework),有效地提高了保障作业调度决策模型的学习效率.在此基础上,提出了一种基于人类行为可信度的自适应作业分配方法,进一步提高了智能体自主探索能力和人类指导经验利用率.经大量仿真实验验证,本文提出的舰载机保障作业人机协同决策方法比其他方法在计算性能和学习效率方面具有明显优势.

关键词 舰载机; 人机协同; 深度强化学习; 任务分配; 资源分配; carrier aircraft; human-machine collaboration; deep reinforcement learning; task allocation; resource allocation

引用格式 李亚飞, 高磊, 蒿宏杰, 等. 舰载机保障作业人机协同决策方法. 中国科学: 信息科学, 2023, 53(12): 2493-2510, doi: 10.1360/SSI-2022-0403
Yafei LI, Lei GAO, Hongjie HAO, et al. Human-machine collaborative decision-making for carrier aircraft support operations. Sci Sin Inform, 2023, 53(12): 2493-2510, doi: 10.1360/SSI-2022-0403

控制 人工智能系统 评述 Website Google Scholar PDF SCOPUS引次: 6

博弈智能的研究与应用

郝建业, 邵坤, 李凯, 李栋, 毛航宇, 胡舒悦, 王震
中国科学: 信息科学, 2023, 53(10): 1892-1923

摘要 博弈智能是一个涵盖博弈论、人工智能等方向的交叉领域,重点研究个体或组织间的交互作用,以及如何通过对博弈关系的定量建模进而实现最优策略的精确求解,最终形成智能化决策和决策知识库.近年来,随着行为数据的海量爆发和博弈形式的多样化,博弈智能吸引了越来越多学者的研究兴趣,并在现实生活中得到广泛应用.本文围绕博弈智能这一研究领域,分别从3个方面进行了系统的调研、分析和总结.首先,回顾了博弈智能的相关背景,涵盖了单智能体马尔可夫(Markov)决策过程,基于博弈论的多智能体建模技术,以及强化学习、博弈学习等多智能体求解方案.其次,依照智能体之间的博弈关系不同,将博弈分为合作博弈、对抗博弈以及混合博弈这三大类范式,并分别介绍了每种博弈智能范式下的主要研究问题、主流研究方法以及当前典型应用.最后,总结了博弈智能的研究现状,以及亟待解决的主要问题与研究挑战,并展望了学术界和工业界的未来应用前景,为相关研究人员提供参考,进一步推动国家人工智能发展战略.

关键词 博弈智能; 博弈论; 人工智能; 多智能体系统; 强化学习; 均衡求解; game intelligence; game theory; artificial intelligence; multiagent systems; reinforcement learning; equilibrium computing

引用格式 郝建业, 邵坤, 李凯, 等. 博弈智能的研究与应用. 中国科学: 信息科学, 2023, 53(10): 1892-1923, doi: 10.1360/SSI-2023-0010
Jianye HAO, Kun SHAO, Kai LI, et al. Research and applications of game intelligence. Sci Sin Inform, 2023, 53(10): 1892-1923, doi: 10.1360/SSI-2023-0010

控制 人工智能系统 论文 Website Google Scholar PDF SCOPUS引次: 0

面向人机序贯决策实现共享控制下的仲裁优化

张倩倩, 赵云波, 吕文君, 陈谋
中国科学: 信息科学, 2023, 53(9): 1768-1783

摘要 共享控制存在于众多由人类智能和机器智能共同参与的序贯决策场景.由于人的决策范围和智能机器的决策范围尚未予以明确划分,需要加以实时仲裁从而达到人机共存并且共享决策权限.为此本文提出了一种仲裁优化方法,该方法的独特之处在于引入自主性边界概念,优化了共享控制中人机决策动作的仲裁机制.本文为自主性边界的计算和更新维护提供了思路,能够基于贝叶斯规则的意图推理分析人机共享系统可能要实现的目标,从而确定仲裁参数.此外,本文还分析了自主性边界的不确定性以促进边界信息对共享控制中决策质量的优化效果.实验结果表明,所提出的方法在累积奖励、成功率、撞击率方面表现出色,这些说明了本文提出的共享控制中的仲裁优化方法在求解人机序贯决策问题时的有效性和价值.

关键词 共享控制; 仲裁优化; 自主性边界; 人机序贯决策; 强化学习; shared control; arbitration optimization; autonomous boundary; human-machine sequential decision-making; reinforcement learning

引用格式 张倩倩, 赵云波, 吕文君, 等. 面向人机序贯决策实现共享控制下的仲裁优化. 中国科学: 信息科学, 2023, 53(9): 1768-1783, doi: 10.1360/SSI-2022-0295
Qianqian ZHANG, Yun-Bo ZHAO, Wenjun LV, et al. Shared control with optimized arbitration for human-machine sequential decision-making. Sci Sin Inform, 2023, 53(9): 1768-1783, doi: 10.1360/SSI-2022-0295

控制 人工智能系统 评述 Website Google Scholar PDF SCOPUS引次: 2

数据驱动的策略优化控制律设计最新研究综述

赵斐然, 游科友
中国科学: 信息科学, 2023, 53(6): 1027-1049

摘要 随着通信技术和新一代人工智能的迅速发展,强化学习这一数据驱动的控制方法引起了极大的关注.本文回顾了强化学习中的一类典型方法——策略优化法——在系统控制律设计上的最新研究进展.主要讨论了其在各种重要线性最优控制问题上的收敛性及样本复杂度,例如线性二次控制、输出反馈控制、■控制、分布式控制等.此外,对策略优化法在网络化系统控制中的应用作了展望.

关键词 线性系统; 最优控制; 策略梯度法; 强化学习; 数据驱动控制; linear system; optimal control; policy gradient method; reinforcement learning; data-driven control;

引用格式 赵斐然, 游科友. 数据驱动的策略优化控制律设计最新研究综述. 中国科学: 信息科学, 2023, 53(6): 1027-1049, doi: 10.1360/SSI-2022-0455
Feiran ZHAO, Keyou YOU. Survey of recent progress in data-driven policy optimization for controller design. Sci Sin Inform, 2023, 53(6): 1027-1049, doi: 10.1360/SSI-2022-0455

控制 人工智能系统 评述 Website Google Scholar PDF SCOPUS引次: 3

博弈收益控制研究进展

王龙, 陈芳, 陈星如
中国科学: 信息科学, 2023, 53(4): 623-646

摘要 在博弈论中,单个个体控制全部个体的收益通常被认为是不可能的.一个例外是20世纪末在重复囚徒困境中提出的均衡器策略:使用这种策略的个体可以将对手的收益设置为由收益函数所决定的某个区间内的任意值.十余年后发现的零行列式策略通过单方面设置个体收益的线性关系,将该结果一般化.在此基础上,关于博弈收益控制的研究取得了一系列成果.本文概述了博弈收益控制的研究现状;介绍了单次博弈和重复博弈中的收益控制技术;从收益控制的基本概念、能控制的收益关系、收益控制策略的形式和收益控制策略的演化特性等方面总结了博弈中收益控制的主要进展和成果;并讨论了博弈收益控制的未来发展趋势.

关键词 博弈论; 收益控制; 零行列式策略; 演化博弈论; 策略设计; game theory; payoff control; zero-determinant strategy; evolutionary game theory; strategy design;

引用格式 王龙, 陈芳, 陈星如. 博弈收益控制研究进展. 中国科学: 信息科学, 2023, 53(4): 623-646, doi: 10.1360/SSI-2022-0263
Long WANG, Fang CHEN, Xingru CHEN. Payoff control in game theory. Sci Sin Inform, 2023, 53(4): 623-646, doi: 10.1360/SSI-2022-0263