具身智能关键算法专题

计算机人工智能评述 Website Google Scholar PDF SCOPUS引次: 0

摘要近年来,具身智能技术展现出巨大潜力,其能够充分释放灵活、通用且灵巧的机器人系统的全部潜能,标志着人工智能由“虚拟智能”向“物理智能”的跨越.模仿学习作为具身智能中的重要学习框架,能够直接从专家示范中学习策略,具有简洁高效的训练优势,但其在数据使用效率、任务建模复杂性和泛化能力等方面仍面临挑战.扩散模型凭借其扎实的理论基础、强大的分布建模能力和稳定的训练过程,已在图像生成领域取得了显著成果.鉴于扩散模型在数据生成、高维数据处理和复杂分布建模上的优势,越来越多的工作将其引入模仿学习,为应对上述挑战提供支持.本文围绕扩散模型在模仿学习中的应用,从原理、改进、应用、数据集和展望五个方面进行深入的调研与分析.首先,介绍了扩散模型的基本原理,并探讨其引入模仿学习后形成扩散策略的背景与意义,然后介绍了扩散策略的基本框架.其次,深入讨论了扩散策略各个组成模块改进的方法,包括条件输入、策略输出、网络架构以及训练和采样方法.第三,介绍了扩散策略在机器人操作控制、移动导航两方面的应用.第四,总结了用于评估扩散策略使用的数据集和基准.最后,分析了当前扩散策略面临的挑战,并给出了几种未来可能的技术发展路线,为研究者提供参考.

关键词 具身智能; 扩散模型; 模仿学习; 扩散策略; 机器人控制; embodied intelligence; diffusion models; imitation learning; diffusion policy; robotic manipulation

引用格式 李牧, 刘雪峰, 李青锋, 等. 基于扩散模型的具身智能模仿学习综述. 中国科学: 信息科学, 2026, 56(2): 245-276, doi: 10.1360/SSI-2025-0307
Mu LI, Xuefeng LIU, Qingfeng LI, et al. Recent advances in diffusion-based embodied imitation learning: a survey. Sci Sin Inform, 2026, 56(2): 245-276, doi: 10.1360/SSI-2025-0307

计算机人工智能评述 Website Google Scholar PDF SCOPUS引次: 0

上下文感知驱动的具身智能: 从环境理解到自主决策

罗晗骞, 曹建农, 齐秀秀, 曹锐, 方勇纯
中国科学: 信息科学, 2026, 56(2): 277-295

摘要近年来,具身智能作为人工智能领域中的重要研究方向,旨在通过感知、交互和决策能力的融合,使智能体能够在复杂环境中自主地实现智能行为.此研究领域不仅关注智能体内部的算法模型计算过程,更将智能体的物理结构特性与外部环境的实时交互视为其智能产生的核心要素.上下文感知为具身智能领域提供了新的研究视角,成为赋能智能体理解环境语义,适应动态变化并自主作出高效决策的关键驱动力之一.基于此,本文从环境理解、信息认知推理和自主决策等方面系统性地梳理了当前具身智能领域的研究进展.针对智能体需要对多源感知数据进行实时语义理解和在长期任务中进行持续决策的挑战,本文进一步分析了基于上下文感知的具身智能感知–决策闭环框架的新范式如何依赖于有效的上下文建模和推理来自主适应动态环境和任务约束,使智能体能够在现实世界中实现更高效、更符合上下文的任务决策.此外,本文还探讨了具身智能领域中的其他挑战以及未来可能的研究方向.

关键词 具身智能; 上下文感知; 认知推理; 感知-决策闭环; 实时交互; 自主系统; embodied intelligence; context awareness; cognitive reasoning; perception-decision closed-loop; real-time interaction; autonomous system

引用格式 罗晗骞, 曹建农, 齐秀秀, 等. 上下文感知驱动的具身智能: 从环境理解到自主决策. 中国科学: 信息科学, 2026, 56(2): 277-295, doi: 10.1360/SSI-2025-0245
Hanqian LUO, Jiannong CAO, Xiuxiu QI, et al. Context-aware embodied intelligence: decision-making. Sci Sin Inform, 2026, 56(2): 277-295, doi: 10.1360/SSI-2025-0245

计算机人工智能论文 Website Google Scholar PDF SCOPUS引次: 0

具身智能关键算法专题

多模态具身大模型: 感知-认知-执行一体化架构及应用

朱霖潮, 杨易, 吴飞
中国科学: 信息科学, 2026, 56(2): 296-311

摘要在复杂动态环境中,当前具身智能体面临着反应迟缓、难以适应环境变化等问题,传统架构难以满足真实具身交互需求.本文聚焦端到端学习的多模态具身大模型,建立从原始多模态输入到最终任务输出的直接映射,实现感知、认知与执行等模块的紧密耦合,提升物理环境中智能体响应速度和跨环境泛化能力.本文详细阐述该一体化架构的设计思路和关键技术挑战,分析该架构在智能制造、服务机器人及自动驾驶等领域的应用前景,探讨其对未来具身智能体演进趋势的影响.

关键词 具身智能; 多模态大模型; 感知-认知-执行一体化架构; 通用人工智能; embodied intelligence; multimodal large language models; unified perception-cognition-action architecture; artificial general intelligence

引用格式 朱霖潮, 杨易, 吴飞. 多模态具身大模型: 感知-认知-执行一体化架构及应用. 中国科学: 信息科学, 2026, 56(2): 296-311, doi: 10.1360/SSI-2025-0238
Linchao ZHU, Yi YANG, Fei WU. Multimodal embodied large models: unified perception-cognition-action architecture and applications. Sci Sin Inform, 2026, 56(2): 296-311, doi: 10.1360/SSI-2025-0238

计算机图形图像论文 Website Google Scholar PDF SCOPUS引次: 0

具身智能关键算法专题

M3Fusion: 面向具身3D感知的统一多视角多模态融合框架

毛潇涵, 朱宸铭, 王泰, 庞江淼
中国科学: 信息科学, 2026, 56(2): 312-326

摘要具身3D感知任务需通过自然语言指令,从第一人称视角理解动态环境.然而,当前基于大语言模型(large language models, LLMs)的具身3D感知方法仍存在局限:一些方法受限于语义输出范围与定位精度,另一些LLM方案缺乏能够有效聚合多视角语义与几何特征的统一编码器,而这些特征对实现精准语言对齐与精确定位至关重要.为了解决这个问题,我们提出M3Fusion,首个面向具身3D感知的端到端多视角多模态统一融合框架.该框架紧密整合来自多个第一人称视角的2D视觉语义与3D几何特征,将其投影至共享3D空间,形成统一的M3-tokens.这些token不仅能够无缝对齐语言指令以理解复杂任务,还能同步解码生成精确的3D边界框.我们提出一种专门的三阶段训练策略以实现跨模态对齐.在3D视觉定位(3D visual grounding, 3DVG)与3D视觉问答(3DQA)数据集上的评估表明:我们的框架在定位精度上显著提升,同时保持问答能力,充分证明了统一表征与框架设计的优越性.

关键词 具身3D感知; 3D视觉定位; 3D问答; 多模态大语言模型; embodied 3D perception; 3D visual grounding; 3D question answering; multimodal large language models

引用格式 毛潇涵, 朱宸铭, 王泰, 等. M3Fusion: 面向具身3D感知的统一多视角多模态融合框架. 中国科学: 信息科学, 2026, 56(2): 312-326, doi: 10.1360/SSI-2025-0293
Xiaohan MAO, Chenming ZHU, Tai WANG, et al. M3Fusion: a unified multi-view multi-modality fusion framework for embodied 3D perception. Sci Sin Inform, 2026, 56(2): 312-326, doi: 10.1360/SSI-2025-0293

计算机图形图像论文 Website Google Scholar PDF SCOPUS引次: 0

具身智能关键算法专题

具身智能与多元行为协同的集群控制方法

胡亚洲, 秦明辉, 巫英才, 王好鑫, 祁韩冰, 琚佳男, 李亚飞, 徐明亮
中国科学: 信息科学, 2026, 56(2): 327-344

摘要针对多智能体系统在动态与资源受限环境中普遍存在的协同效率不足、动态响应迟滞问题,本文提出了一种具身智能与多元行为协同的集群控制方法.通过引入具身智能理论,构建智能体与物理环境的实时感知–决策闭环,增强单智能体对环境扰动与约束条件变化的适应性;结合群体行为多样性机制,设计双策略融合方法,利用异质网络与同质网络的协同优化,动态调节策略融合系数以平衡个体灵活性与群体协作性.为验证所提方法的有效性,本文以航母舰载弹药转运任务为典型场景,分析了方法在无扰动、甲板横摇和突发障碍条件下的性能表现.实验表明,适度调控多智能体系统的行为多样性可有效降低智能体之间的碰撞冲突,显著提升整体协同控制水平.该研究为复杂环境下多智能体协同控制方法提供了理论参考和技术支持,同时也为航母弹药保障体系的智能化重构提供了理论依据.

关键词 具身智能; 行为多样性; 多智能体强化学习; 弹药转运; 航母; embodied intelligence; behavioral diversity; multi-agent reinforcement learning; ammunition transfer; aircraft carrier

引用格式 胡亚洲, 秦明辉, 巫英才, 等. 具身智能与多元行为协同的集群控制方法. 中国科学: 信息科学, 2026, 56(2): 327-344, doi: 10.1360/SSI-2025-0308
Yazhou HU, Minghui QIN, Yingcai WU, et al. A swarm control framework integrating embodied intelligence and multi-behavior coordination. Sci Sin Inform, 2026, 56(2): 327-344, doi: 10.1360/SSI-2025-0308