AI for VR: 虚拟现实中的人工智能
王莉莉, 许威威, 刘烨斌, 汪淼, 王贝贝, 杨旭波, 许岚, 谭张尧, 樊润泽, 王梓竣, 王驰, 张鸿文, 温怡健, 杨浩中, 吴健, 樊家辉, 王晖, 张启煊, 汪国平, 王涌天, 赵沁平
中国科学: 信息科学, 2026, 56(1): 239-240
大模型时代的深度伪造检测
彭春蕾, 李俊烨, 刘德成, 王楠楠, 胡瑞敏, 高新波
中国科学: 信息科学, 2026, 56(1): 1-22
关键词 多模态大模型; 深度伪造检测; 视觉-文本融合; 可解释性检测; 跨模态推理; large multimodal models; Deepfake detection; vision-language fusion; explainability in detection; cross-modal reasoning
Chunlei PENG, Junye LI, Decheng LIU, et al. Deepfake detection in the era of large models. Sci Sin Inform, 2026, 56(1): 1-22, doi: 10.1360/SSI-2025-0289
《中国科学》创刊75周年专刊
三维人体重建与生成的深度学习方法
国孟昊, 李东阳, 彭浩洋, 张嘉鹏, 胡事民
中国科学: 信息科学, 2025, 55(12): 2941-2964
摘要 三维人体建模在虚拟现实、游戏动画、人机交互、数字人等领域展现出广泛应用前景.然而,传统三维建模方法高度依赖于昂贵的设备与人工标注,存在成本高、灵活性差等问题,难以满足大规模、个性化的建模需求.近年来,深度学习的快速发展为三维人体建模带来了全新的技术范式,极大地推动了该领域的发展.本文系统地回顾了基于深度学习的三维人体建模技术,重点围绕三维人体表示、重建方法与生成方法 3个方面展开.在人体表示方面,文章梳理了参数化、显式、隐式及混合形式等主流中间表示的建模思路与适用场景.在人体重建方面,总结了从传统参数回归方法、隐式函数建模到神经辐射场和三维高斯泼溅(3D Gaussian splatting, 3DGS)等最新非参数化方法的发展路径,分析了各类方法在精度、可控性与效率等方面的优劣.在人体生成方面,系统梳理了生成对抗网络(generative adversarial networks, GANs)以及扩散模型(diffusion models)等主流生成框架的应用进展,重点聚焦于文本驱动与图像驱动的生成策略、精度、可控性与细节还原等方面的进展.此外,本文还收集整理了当前主流的公开数据集,并对三维人体建模面临的挑战与未来研究方向进行了深入讨论.本文旨在为计算机视觉与图形学领域的研究者在三维人体建模方面提供全面的参考,推动更加高效、逼真和可控的人体重建与生成技术的发展.
关键词 深度学习; 计算机图形学; 计算机视觉; 三维人体重建; 三维人体生成; deep learning; computer graphics; computer vision; 3D human reconstruction; 3D human generation
Meng-Hao GUO, Dong-Yang LI, Hao-Yang PENG, et al. Deep learning methods for 3D human body reconstruction and generation. Sci Sin Inform, 2025, 55(12): 2941-2964, doi: 10.1360/SSI-2025-0303
基于双分支解耦的文物线稿风格化三维重建
何雨泽, 胡钰彬, 叶盛, 贺艳, 温玉辉, 余旻婧, 刘永进
中国科学: 信息科学, 2025, 55(9): 2304-2318
摘要 线稿风格的三维内容构建在考古应用中具有重要意义.相比于带有纹理贴图的三维内容,线稿化的三维内容能够更加清晰和直观地展示场景中的关键结构和表面图样,对于便捷文物数字化存档、辅助文物线描图绘制具有关键作用.然而,现有的风格化三维重建技术主要关注于依照模板图像的一般性风格化,缺乏针对线稿风格三维化的设计与研究.本文提出了一种基于双分支解耦的文物线稿化三维重建技术,通过将纹理部分和轮廓部分的三维线稿解耦建模,能够从多视角彩色图像中重建出三维化的文物线稿图,支持任意视角下的高质量线稿图渲染.基于琉璃件文物的实验结果表明,本文提出的双分支解耦建模方式能够有效提升线稿化三维重建的质量,渲染出的多视角线稿图比现有方法质量更高,能够更好地辅助考古场景中的文物记录、线描图绘制等流程.
关键词 线稿化三维重建; 解耦; 三维风格化; 线稿图生成; 文物线稿图; 3D line drawing reconstruction; decoupling; 3D stylization; line drawing generation; cultural relics line drawing
Yuze HE, Yubin HU, Sheng YE, et al. 3D line drawing style reconstruction for cultural relics components based on dual-branch decoupling. Sci Sin Inform, 2025, 55(9): 2304-2318, doi: 10.1360/SSI-2025-0111
空天信息技术最新前沿及发展态势专题
多媒体智能计算若干研究进展
朱文武
中国科学: 信息科学, 2025, 55(9): 2153-2164
摘要 多媒体智能计算是融合人工智能与多媒体计算的交叉学科,核心目标是通过对大规模多媒体数据的智能表征、分析与协同计算,实现多模态数据的深度理解、高效服务.多媒体智能计算面临两个重大挑战:(1)多媒体数据实体规模随时间指数增长,关联组合指数爆炸,因此数据实体关联规模面临呈双重指数增长态势的难题;(2)多媒体数据量指数增长,网络结构异构复杂,用户需求动态并发,导致用户访问媒体所需网络资源随时间指数增长.针对多媒体大数据实体关联规模双重指数增长导致的关联与规律难以发现的难题,本文介绍多媒体大数据关联表征理论与方法的新进展,通过揭示图拓扑空间和向量表征空间的映射规律,发现了图非对称传递性向量化度量的统一数学表达,提出了结构保持的深度关联表征方法,建立了微观局部结构与宏观全局结构融合的图关联表征学习模型,实现了图关联表征学习从浅层到深层、从微观结构到宏观结构的跨越.针对异构网络环境下大规模多媒体内容指数增长与网络资源有限的矛盾难题,本文探究用大数据分析理论解决该难题的多媒体网络资源计算新范式,揭示了媒体内容、用户行为和网络拓扑的相互作用机理,提出了基于用户行为的媒体内容传播预测与大规模网络拓扑模型,建立了大规模多媒体的资源跨域协同计算新理论,实现了网络资源配置从被动固化到主动感知的跨越.研究成果推动多媒体智能从语义驱动到关联驱动、从孤立优化到全局协同的跨越,对公共安全、智慧城市、互联网经济等场景具有重要应用价值.
关键词 多媒体大数据; 跨媒体智能; 多媒体资源计算; 大数据分析; multimedia big data; cross-media intelligence; multimedia computing; big data analytics
Wenwu ZHU. Research progress on multimedia intelligence computing. Sci Sin Inform, 2025, 55(9): 2153-2164, doi: 10.1360/SSI-2025-0091
基于贝叶斯能量对抗后训练的黑盒对抗防御方法
刁云峰, 姜凯超, 郭丹, 梁振宇, 时增林, 钱振兴, 汪萌
中国科学: 信息科学, 2025, 55(8): 1986-2001
摘要 深度神经网络在视觉分类任务上表现出卓越的性能,但其安全性也面临着重大挑战,特别是分类器的输出结果容易受到对抗攻击的恶意操纵.为应对此问题,对抗训练作为一种有效的防御机制得到了快速发展.然而,现有对抗训练方法大多依赖于白盒防御策略,即需要访问模型的结构参数并对模型进行重新训练,这在许多实际应用场景中并不切实际,尤其是对于大规模预训练模型的鲁棒性增强.此外,重新训练模型在提升鲁棒性的同时往往会以牺牲模型精度为代价,使得这些模型在正常分类任务及其下游任务中难以胜任.为了解决上述问题,本文提出了一种新的黑盒防御方法,称为贝叶斯能量对抗后训练.在数据层面,该方法从能量的角度出发,对对抗样本和干净样本的联合数据分布进行建模;在模型层面,则通过贝叶斯视角考虑附加模型参数的完整后验分布,实现了对数据和模型的全贝叶斯对待.作为一种后训练黑盒防御方法,该方法通过冻结预训练模型并附加一个小规模的贝叶斯组件,将原始模型转化为具有弹性恢复能力的鲁棒性模型,而无需重新训练或访问原始模型参数.大量的实验结果表明,本文提出的黑盒防御方法能够在不降低原始模型精度的前提下,有效抵御基于梯度的白盒和黑盒攻击,其性能优于现有的白盒防御方法.
关键词 对抗样本; 深度学习; 对抗防御; 贝叶斯神经网络; 能量模型; adversarial examples; deep learning; adversarial defense; Bayesian neural network; energy-based model
Yunfeng DIAO, Kaichao JIANG, Dan GUO, et al. Post-train black-box defense through energy-based Bayesian adversarial training. Sci Sin Inform, 2025, 55(8): 1986-2001, doi: 10.1360/SSI-2024-0326
生成式可视媒体鉴别与安全
段俊贤, 刘思雨, 关霁洋, 曹杰, 赫然
中国科学: 信息科学, 2025, 55(8): 1925-1949
摘要 在深度学习技术的推动下,生成式可视媒体的创作已成为普遍的现象,逼真的图像与视频等视觉媒介不断涌现.然而,技术的双刃剑特性也带来了虚假信息传播的潜在风险,推动了可视媒体伪造内容鉴别与安全研究领域的快速发展.随着扩散模型、视觉语言模型等技术在可视媒体生成和鉴别中的广泛应用,深入探索可控生成方法、虚假内容鉴别与对抗防御等问题变得尤为重要.本文突破以往仅关注生成对抗网络鉴别方法和单一模态鉴别的局限,围绕新型视觉语言模型,系统分析了图像、视频及多模态内容的主流生成与鉴别技术,梳理了代表性的鉴别数据集与表示学习架构.同时,针对视觉语言模型中的安全问题,本文分析了面向视觉语言模型的对抗攻击与防御技术,包括后门攻击、对抗样本、水印溯源等.此外,本文探讨了可视媒体安全治理领域面临的关键挑战,并展望了未来发展方向.本文旨在提供一个全面视角,辅助对视觉语言模型在生成、鉴别及对抗防御技术上的理解,推动可视媒体鉴别与安全技术的健康发展和应用.
关键词 媒体取证; 深度伪造检测; 扩散模型; 视觉语言模型防御; 虚假内容鉴别; media forensics; deepfake detection; diffusion models; visual language model defense; visual forgery detection
Junxian DUAN, Siyu LIU, Jiyang GUAN, et al. Survey on generative visual media detection and security. Sci Sin Inform, 2025, 55(8): 1925-1949, doi: 10.1360/SSI-2024-0354
基于亲和向量一致性的弱监督语义分割
毕秀丽, 徐培君, 范骏超, 刘波, 马建峰, 肖斌
中国科学: 信息科学, 2025, 55(5): 1088-1107
摘要 弱监督语义分割通常使用分类网络的主干部分提取图像特征生成类激活图.在此过程中, CNN(convolution neural network)受限于其局部感知机制的影响,很难捕获图像中长距离的语义关联.相反, ViT (vision Transformer)具有全局自注意力机制,能天然地捕获图像中长距离的特征依赖关系即亲和关系.研究发现,使用这种亲和关系细化类激活图提高分割精度被认为是可行的.然而,本文观察到,在图像级标签监督训练下, ViT会促使图像中不同类Patch的亲和向量特征之间过相关,其表现为亲和向量关系不对称和过平滑现象.直接应用ViT原始亲和向量关系细化类激活图,将导致不同类的对象区域相互入侵.为了解决上述问题,基于CNN学习到的亲和向量关系表现与ViT学习到的亲和向量关系相反的性质,即:对称且稀疏,本文提出了结合ViT和CNN两者的亲和向量一致性的弱监督语义分割方法.该方法先利用CNN提取图像中最具判别性的区域映射得到的类间关系以监督ViT中不同Patch亲和向量之间的类关系来学习图像上下文的一致性,再使用学习到的Patch间亲和向量关系来改进用于后续分割的类激活图.实验表明,采用本文方法生成的亲和向量关系显著降低了不同类Patch间亲和向量的亲和度,有效减少在修正CAM时不同类Patch间的错误激活,在PASCAL VOC 2012和MS COCO 2014验证集上分别取得了75.1%和47.2%的mIoU,进一步提高了分割性能.
关键词 弱监督; 语义分割; 类激活图; 亲和向量; weakly supervised; semantic segmentation; class activation map; affinity vector
Xiuli BI, Peijun XU, Junchao FAN, et al. Weakly supervised semantic segmentation based on affinity vector consistency. Sci Sin Inform, 2025, 55(5): 1088-1107, doi: 10.1360/SSI-2024-0222
基于数据集和任务偏置的广义持续类别发现
冀中, 杨硕, 刘景仁, 庞彦伟, 李学龙
中国科学: 信息科学, 2025, 55(5): 1073-1087
摘要 随着人工智能技术的迅猛发展,模型在动态数据流中持续学习新知识并高效识别未知类别的能力变得尤为重要.针对广义持续类别发现(generalized continual category discovery, GCCD)中灾难性遗忘和类别不确定性这两大核心挑战,本文提出了一种基于数据集偏置强化搜寻和任务偏置纠正的PromptGCCD框架.该框架创造性地利用自监督模型中蕴含的数据集偏置,基于信息瓶颈理论设计了对视觉转换器(vision transformer, ViT)模型部分参数的精细化微调方案,增强了模型对不同数据集特征分布的适应性和泛化能力.此外,通过提示工程方法实现了任务偏置纠正,为每个任务定制独立的提示子集,并进行参数高效微调,显著提升了模型的抗遗忘性能.在训练过程中,引入了稀疏性正则化、自蒸馏策略以及基于梯度投影的正则化方法,全面提升了模型的知识保持与任务适应能力.实验结果表明, PromptGCCD在多个GCCD基准数据集上取得了优异的性能,有效遏制了灾难性遗忘,并在动态任务序列中显著提升了新类别的发现与识别效能.本文的研究深化了广义类别发现与持续学习的融合,为动态环境中智能系统的持续学习和新类别发现提供了新思路.
关键词 广义持续类别发现; 数据集偏置; 任务偏置; 提示工程; 信息瓶颈理论; 灾难性遗忘; generalized continual category discovery; dataset bias; task bias; prompt engineering; information bottleneck theory; catastrophic forgetting
Zhong JI, Shuo YANG, Jingren LIU, et al. Generalized continual category discovery based on dataset and task biases. Sci Sin Inform, 2025, 55(5): 1073-1087, doi: 10.1360/SSI-2024-0333
基于无人机的临场空间感知与采集路径规划
章星明, 谢科, 黄鹏頔, 刘奕林, 黄惠
中国科学: 信息科学, 2025, 55(5): 1051-1072
摘要 随着轻型消费级无人机产品的兴起以及三维重建技术的不断进步,利用航空摄影测量技术重建大规模城市场景已成为可能.已有的方法通常采用“先探索–后规划采集”的两次飞行策略:首次飞行通过预定义的模式对场景进行稀疏扫描并进行初步重建.随后,基于粗糙模型规划出最优的第2次飞行路径,以实现密集的图像采集.然而,这类方法存在一些问题,例如代理模型的重建对现场计算能力要求较高,并且粗糙代理模型无法准确捕捉场景结构中的细节特征,如角点、结构线和平面,生成的几何信息过于平滑.针对上述问题,本文首先提出了一种基于航拍图像的快速临场空间感知方法.该方法利用RGB图像数据和表面法向量数据进行面结构的精确检测和提取,并基于运动中恢复结构(structure-from-motion, SFM)数据和表面法向量,迅速恢复每个面结构的深度信息.与像素级多视图立体视觉(multi-view stereo, MVS)方法相比,本方法在速度上具有显著优势.其次,本文提出了一种创新的路径规划算法.该算法能够根据算法生成的初始候选视角集合,在保持重建质量的同时,最大限度地减少视角数量,并规划出最短的飞行路径,实现良好的场景覆盖和重建精度.本文方法能够在无人机航拍现场即时对航拍图像进行数据分析,现场即可获得分析结果,显著降低了现场作业时间和计算成本.
关键词 临场空间感知; 无人机路径规划; 城市场景重建; onsite spatial perception; UAV path planning; urban scene reconstruction
Xingming ZHANG, Ke XIE, Pengdi HUANG, et al. Onsite spatial perception and UAV acquisition path planning. Sci Sin Inform, 2025, 55(5): 1051-1072, doi: 10.1360/SSI-2024-0234
面向三维人体姿态估计的特征传递平衡图卷积网络
赵扬飞, 刘任波, 张伟峰, 牛永, 王硕, 吕培, 徐明亮
中国科学: 信息科学, 2025, 55(5): 1033-1050
摘要 在三维人体姿态估计领域,现有图卷积网络(graph convolutional network, GCN)方法普遍面临局部过平滑问题的挑战.该现象源于节点感受野的尺度差异,导致特征平滑度在关节点间呈现非均衡演进,严重制约全身姿态特征的有效提取.针对该问题,提出一种轻量级的平衡图卷积网络Balance GCN,通过建立特征平衡传递机制抑制局部过平滑现象.首先,构建基于节点离心率的特征传递平衡性量化指标,刻画不同节点感知全图特征所需图卷积运算次数的离散程度;继而设计局部交换模块,通过节点特征平衡传递约束的优化求解交换矩阵,引导节点间特征交换;最终集成形成Balance GCN架构.在Human3.6M数据集上的实验表明,相较于Vanilla GCN基线, Balance GCN将平均关节位置误差显著降低至43.4 mm,实现61.6%的误差下降,且未增加参数量或计算开销.此外,局部交换模块展现出良好的通用性,在9种主流方法中平均带来1.59 mm的精度提升.
关键词 图卷积神经网络; 三维人体姿态估计; 过平滑; 信息传递; 动态图; graph convolutional network; 3D human pose estimation; over-smoothing; message passing; dynamic graph
Yangfei ZHAO, Renbo LIU, Weifeng ZHANG, et al. Balance feature transferring GCN for 3D human pose estimation. Sci Sin Inform, 2025, 55(5): 1033-1050, doi: 10.1360/SSI-2024-0287
以物体关系为启发的高效3D物体检测方法
吴宇寰, 张达, 刘云, 张乐, 程明明
中国科学: 信息科学, 2025, 55(4): 887-901
摘要 目前,基于激光雷达的高效3D物体检测框架在利用物体关系方面存在不足,然而这些关系在空间和时间维度上是自然存在的.受此启发,本文提出了一种以物体关系为启发的简单高效的二阶段检测器Ret3D.该方法的核心在于利用本文所提出的帧内关系模块和帧间关系模块,以捕捉空间和时间维度上的关系.具体来说,帧内关系模块将当前帧的物体封装为稀疏图,通过高效的信息传递来优化物体特征.另一方面,帧间关系模块动态地密集连接每个物体与其跟踪序列中的其他物体,并利用这种时间信息,通过轻量级的Transformer网络进一步增强其特征表达能力.本文在通用的中心基或锚点基检测器的基础上实现了Ret3D,并在Waymo公开数据集上进行了评估. Ret3D在额外开销几乎可以忽略不计的情况下,取得了最佳性能,在车辆位置检测的一级和二级难度下的mAPH (mean average precision with heading)指标上分别比近期最强的著名方法高出2.9%和3.2%.
关键词 3D物体检测; 物体关系; 自动驾驶; 3D object detection; object relations; autonomous driving
Yu-Huan WU, Da ZHANG, Yun LIU, et al. Ret3D: rethinking object relations for efficient 3D object detection. Sci Sin Inform, 2025, 55(4): 887-901, doi: 10.1360/SSI-2024-0295
共身智能: 概念及8个科学技术问题
陆峰, 赵沁平
中国科学: 信息科学, 2025, 55(2): 444-448
关键词 共身智能; 人工智能; 视角整合; 双脑融合; 人机共身; cobodied/symbodied AI; artificial intelligence; dual-perspective integration; dual-brain fusion; human-machine co-embodiment
Feng LU, Qinping ZHAO. Towards cobodied/symbodied AI: concept and eight scientific and technical problems. Sci Sin Inform, 2025, 55(2): 444-448, doi: 10.1360/SSI-2024-0219
适应视觉语言模型实现通用深度伪造检测
刘波, 贺庆辉, 魏杨, 毕秀丽, 马建峰, 肖斌
中国科学: 信息科学, 2025, 55(2): 343-355
关键词 图像取证; 伪造检测; 生成模型; 生成图像; 迁移学习; 视觉语言模型; image forensics; forgery detection; generative models; generated images; transfer learning; vision-language model
Bo LIU, Qinghui HE, Yang WEI, et al. Adapting vision-language models for universal generated image detection. Sci Sin Inform, 2025, 55(2): 343-355, doi: 10.1360/SSI-2024-0289
迈向可持续自监督学习: 基于目标增强的条件掩码重建自监督学习
高尚华, 周攀, 程明明, 颜水成
中国科学: 信息科学, 2025, 55(2): 326-342
关键词 可持续; 自监督学习; 预训练; 图像掩码建模; sustainable; self-supervised learning; pretraining; mask image modeling
Shanghua GAO, Pan ZHOU, Ming-Ming CHENG, et al. Towards sustainable self-supervised learning: target-enhanced conditional mask-reconstruction for self-supervised learning. Sci Sin Inform, 2025, 55(2): 326-342, doi: 10.1360/SSI-2024-0176
基于逐帧和逐段时空交互记忆网络的高效视频目标分割
党吉圣, 郑慧诚, 王笔美, 李俊成, 丁恒辉, 赖剑煌
中国科学: 信息科学, 2025, 55(1): 80-93
摘要 视频目标分割旨在自动分割视频中感兴趣的目标,在视频编辑、机器人导航以及自动驾驶等领域均有着广泛的应用前景.现有的视频目标分割方法大多依赖于独立帧表观记忆,这在处理严重遮挡或表观相似的复杂视频场景时常显不足.为应对这些挑战,本文提出了一种基于逐帧和逐段时空交互记忆网络(frame-wise and segment-wise spatio-temporal interaction memory, FSSTIM)的视频目标分割方法. FSSTIM引入逐帧和逐段时空交互记忆构建模块,通过构建时空上下文图网络提取逐段时空记忆特征图,并与逐帧记忆特征图进行交互增强,显著提高了网络处理相似表观和目标遮挡的能力.此外,引入动态采样记忆读取器实现了高效的多粒度历史信息读取,加快了推理速度并提高了分割精度.在DAVIS, YouTube-VOS和MOSE主流视频目标分割数据集上的实验表明,本文方法在保持实时处理速度的同时取得了先进的分割性能,且具有较强的泛化能力.
关键词 视频目标分割; 逐帧和逐段时空交互; 记忆网络; 时空上下文关联网络; 动态采样记忆读取; video object segmentation; frame-wise and segment-wise spatio-temporal interaction; memory network; spatio-temporal context correlation network; dynamic sampling memory reading
Jisheng DANG, Huicheng ZHENG, Bimei WANG, et al. Efficient video object segmentation based on frame-wise and segment-wise spatio-temporal interaction memory networks. Sci Sin Inform, 2025, 55(1): 80-93, doi: 10.1360/SSI-2024-0187
基于视频流谱特征空间的深度伪造检测
肖景博, 殷琪林, 卢伟, 罗向阳, 郭世泽
中国科学: 信息科学, 2024, 54(11): 2572-2588
摘要 随着深度伪造技术的快速发展,深度伪造视频在每一帧上表现得极为真实,现有检测方法难以有效识别出深度伪造视频.针对这一问题,本文首次提出了一种基于视频流谱特征空间的深度伪造检测方法.该方法基于流谱理论构建了一个视频流谱特征空间,通过视频流谱基底模型将视频流从视频特征隐空间映射到视频流谱特征空间,精准刻画视频流中不一致性信息,获取可分离度更高的视频流谱不一致性特征,从而实现深度伪造视频的检测.具体而言,首先提出了一种视频流谱特征空间的构建方法,通过对视频特征隐空间进行基底映射,得到一个近似同构的视频流谱特征描述空间,在视频流谱特征空间中融合视频流不同视角的高维表征,实现对视频流的精准刻画与分析;然后设计了一个视频不一致性流谱映射模型,通过视频流谱变换算子,从时序角度将视频流的空域信息聚合映射到视频流谱特征空间,建模深度伪造视频的不一致性信息,构建数据可分离度更高的视频表征.实验结果表明,所提方法在Celeb-DF数据集上达到99.23%的准确率,在DFDC数据集上达到95.24%的准确率.
关键词 深度伪造检测; 流谱理论; 视频流谱特征空间; 视频流谱基底模型; 时序不一致性; deepfake detection; flow spectrum theory; video flow spectrum feature space; video flow spectrum basis model; temporal inconsistency
Jingbo XIAO, Qilin YIN, Wei LU, et al. Deepfake detection based on video flow spectrum feature space. Sci Sin Inform, 2024, 54(11): 2572-2588, doi: 10.1360/SSI-2024-0114
一种结构范数正则化的可微神经结构搜索算法
曾宪华, 吴杰, 夏耀光, 向一心
中国科学: 信息科学, 2024, 54(9): 2181-2199
摘要 可微神经结构搜索(differentiable neural architecture search, DNAS)作为近年来神经结构搜索的主流方法之一,通过结合基于梯度优化的搜索策略能够有效地搜索网络结构.然而,存在结构搜索稳定性差和模型复杂度高的问题.为了解决这两个问题,本文提出了一种结构范数正则化的可微神经结构搜索算法,提高了结构搜索的稳定性;设计了一种冗余边剪枝算法修剪网络结构中的冗余边,降低了最终模型的复杂度.本文在CIFAR10, CIFAR100, miniImageNet和胎儿心脏标准平面分类(fetal heart standard plane, FHSP)等4个数据集上进行了算法性能对比实验,与一系列当前最新的可微神经结构搜索算法相比,取得了最优的综合性能.
关键词 深度学习; 可微神经结构搜索; 剪枝; 正则化; 高效搜索网络结构; deep learning; differentiable neural architecture search; pruning; regularization; efficiently search network structures
Xianhua ZENG, Jie WU, Yaoguang XIA, et al. A differentiable neural architecture search algorithm with architecture norm regularization. Sci Sin Inform, 2024, 54(9): 2181-2199, doi: 10.1360/SSI-2023-0372
大模型驱动的具身智能: 发展与挑战
白辰甲, 许华哲, 李学龙
中国科学: 信息科学, 2024, 54(9): 2035-2082
摘要 大模型驱动的具身智能是涵盖人工智能、机器人学和认知科学的交叉领域,重点研究如何将大模型的感知、推理和逻辑思维能力与具身智能相结合,提升现有模仿学习、强化学习、模型预测控制等具身智能框架的数据效率和泛化能力.近年来,随着大模型能力的不断提升,以及具身智能中示教数据、仿真平台、任务集合的不断完善,大模型和具身智能的结合将成为人工智能的下一个浪潮,有望成为人工智能迈向实体机器人的重要突破口.本文围绕大模型驱动的具身智能这一研究领域,从3个方面进行了系统的调研、分析和展望.首先,回顾了大模型和具身智能的相关技术背景,以及具身智能现有的学习框架.其次,按照大模型赋能具身智能的方式,将现有研究分为大模型驱动的环境感知、大模型驱动的任务规划、大模型驱动的基础策略、大模型驱动的奖励函数、大模型驱动的数据生成等5类范式.最后,总结了大模型驱动的具身智能中存在的挑战,对可行的技术路线进行展望,为相关研究人员提供参考,进一步推动国家人工智能发展战略.
关键词 具身智能; 大模型; 环境感知; 任务规划; 基础策略; embodied AI; large-scale models; environment perception; task planning; foundation policy
Chenjia BAI, Huazhe XU, Xuelong LI. Embodied-AI with large models: research and challenges. Sci Sin Inform, 2024, 54(9): 2035-2082, doi: 10.1360/SSI-2024-0076
图像信息量度量
李学龙, 何如玢
中国科学: 信息科学, 2024, 54(6): 1558-1566
摘要 图像不仅承载着丰富的视觉内容,同时还蕴含潜在的高级语义,是重要的信息传递媒介.度量图像信息量则是对图像信息进行定性描述和定量计算的抽象过程,属于对图像处理领域中的科学问题进行理论构建的关键环节.然而,在现有的研究工作中,虽然对“图像信息量”的度量有所提及,但实际上关注的往往是在图像质量或图像特征的层级,而忽略了图像所具有的高级语义以及人对图像的认知.因此,为了衡量图像的信息提供价值,本文基于“图像信息量因人、因任务而异”这一常识,通过建模“先验知识”相关的图像记忆并提取“给定任务”相关的图像特征,尝试对图像信息量进行度量.首先,提出图像信息量度量的理论框架,具体表现为:在“能够获得全世界所有的图像”和“能找到一种能够准确表达图像语义的特征”两个假设条件下,以信息论为基础,通过构建超球来描述样本点的邻域稠密度,由此建模语义信息的概率,进而得到理论假设条件下的图像信息量.其次,探讨了理论假设无法满足的实际情况,将“全世界所有的图像”这一假设条件退化为“给定具体的数据集”,并将“一种能够准确表达图像语义的特征”这一假设退化为“给定任务相关的特征”,进一步通过实验展示了在实际情况下如何有效获得图像信息量的数值结果.最后,指出了本文度量方法的限定对象和度量结果的边界,并展望了未来对相关体系进行丰富和完善的可行方向.
关键词 图像信息量; 信息量度量; 信容; 信息论; 图像处理; image information; information measurement; information capacity; information theory; image processing
Xuelong LI, Rubin HE. Measuring the information of images. Sci Sin Inform, 2024, 54(6): 1558-1566, doi: 10.1360/SSI-2023-0078
属性知识自反绎下的半监督表示学习
沈阳, 孙旭豪, 徐赫洋, 魏秀参
中国科学: 信息科学, 2024, 54(6): 1386-1399
摘要 机器学习结合逻辑推理的方法可以大幅提升模型的鲁棒性与可解释性.近年来,已有工作从给定的具体知识库出发,通过反绎学习的范式或是其衍生范式来促进机器学习中模型的更新过程.然而,在表示学习任务中,即便存在这样的知识库,其往往也是不完备或含有噪声的.且在真实环境下,即便领域专家也无法精准定量地描述不同对象的属性表示信息.因此,本文针对半监督表示学习任务,提出了一种可根据少量有标记样本构建弱领域属性知识库并结合无标记数据与基于启发式规则扩张领域知识库推理的反绎学习方法.该方法可有效解决表示学习任务下缺少强领域知识与真实环境下高质量标注数据较少这两个问题.在人工合成的数据集与真实环境下的数据集中的实验对比结果均验证了我们提出的方法的有效性.
关键词 人工智能; 机器学习; 反绎学习; 半监督学习; 特征表示; 细粒度属性; artificial intelligence; machine learning; abductive learning; semi-supervised learning; feature representation; fine-grained attributes
Yang SHEN, Xuhao SUN, Heyang XU, et al. Attribute-aware knowledge based self-abductive for semi-supervised representation learning. Sci Sin Inform, 2024, 54(6): 1386-1399, doi: 10.1360/SSI-2023-0252
面向连续手语识别的自适应关键帧选择
闵越聪, 陈熙霖
中国科学: 信息科学, 2024, 54(4): 893-910
摘要 基于视觉的连续手语识别旨在从图像序列中识别出对应的手语词序列,可以为手语使用者提供一种便利的辅助工具.现有的连续手语识别方法大多需要从图像序列中,逐帧提取视觉和时序特征,而相邻帧中存在的相似视觉信息带来了大量的冗余计算.本文通过分析帧率对连续手语识别算法的影响,发现降低帧率可以显著地提升计算效率,但也会带来一定的性能损失.为了在降低帧率的同时保留更多手语关键信息,本文提出了自适应动态池化层(adaptive dynamic temporal pooling, ADTP),ADTP基于序列特征的自相似性对序列进行动态下采样.在此基础上,本文进一步提出了一种两阶段的训练方式,以更充分地利用原始帧率中的时空信息.具体而言,该训练方式在第一阶段只训练基于原始帧率的手语识别模型,并以此模型为教师网络,通过知识蒸馏的方式引导第二阶段含ADTP模块的模型训练.实验结果表明,本文所提的方法在损失少量性能的情况下,可以大幅度减少识别所需的计算量.此外,本文所提出的ADTP也可用于手语视频结构分析,生成简略直观的手语视频摘要.
关键词 连续手语识别; 时间序列分析; 视觉语言; 知识蒸馏; 计算效率; continuous sign language recognition; time series analysis; visual languages; knowledge distillation; computational efficiency
Yuecong MIN, Xilin CHEN. Adaptive keyframe selection for continuous sign language recognition. Sci Sin Inform, 2024, 54(4): 893-910, doi: 10.1360/SSI-2022-0467
多模可信交互:从多模态信息融合到人-机器人-数字人三位一体式交互模型
王国庆, 裴云强, 杨阳, 徐行, 汪政, 申恒涛
中国科学: 信息科学, 2024, 54(4): 872-892
摘要 信任在人–机器人–数字人协作中扮演着关键角色,因为它不仅影响了人–机器人–数字人的效率,同时也存在风险和益处.然而,当前的人–机器人–数字人信任研究存在“失衡”现象,即大部分研究集中于“以人为中心”的信任关系而忽略了智能体(机器人和数字人)对人的信任.为了填补人–机器人–数字人信任研究领域的这一空白,在使用多模态信号来建立人–机器人–数字人交互中的适度单向信任基础上,构建跨虚实世界的“三位一体”经历交融共享生态.本文旨在探讨多模态线索和增强现实在建立人–机器人–数字人之间可信关系方面的现有研究、可行性和未来发展方向.最后,本文展望了该模式在社会组织形态及社会事件态势感知和管控中的应用前景,并指出了未来需要解决的问题.本文的研究有助于理解多模态线索和增强现实在人–机器人–数字人交互中的作用,并为“三位一体”趋势的实现提供思路和解决方案.
关键词 增强现实; 多模态交互; 人-机器人-数字人交互; 信任; augmented reality; multimodal interaction; human-robot-digital human interaction; trust
Guoqing WANG, Yunqiang PEI, Yang YANG, et al. Multimodal trustworthy interaction: from multimodal information fusion to a trinitarian human-robot-digital human interaction model. Sci Sin Inform, 2024, 54(4): 872-892, doi: 10.1360/SSI-2023-0133
虚实融合网络空间安全综述
赵沁平, 周忠, 梁晓辉, 李帅, 汪淼, 王焱
中国科学: 信息科学, 2024, 54(4): 817-852
摘要 在计算机与网络基础设施不断发展的推动下,越来越多的人类活动从物理世界向数字世界迁移,产生了构建新型虚实融合网络空间的动因和思想,增强现实、数字孪生、元宇宙等相继成为国际关注热点.虚实融合网络以互联网、物联网为基础,进一步将具有独立身份的计算机、各种物理对象及其数字孪生,以及计算机生成的数字原生对象进行互联,将物理世界和人类世界与数字世界贯通,成为“泛联网”,形成人、机、物泛联互通的虚实融合网络空间,带来全新的大众体验、社交形态、生产模式和数字经济发展路径.这种新型网络空间极大地拓展了互联网、物联网的空间边界和应用领域,同时也带来了新的安全与隐私保护问题.本文首先介绍了泛联网与虚实融合网络空间的概念及架构,分析其存在的安全与隐私风险,然后从用户认证与权限控制、数据安全、隐私保护、感知与交互安全、关键基础设施与软硬件安全、应用安全与网络空间治理等方面的国际研究现状和发展趋势进行综述,最后给出需要解决的十个问题.
关键词 虚实融合网络空间; 泛联网; 数字孪生; 安全; 隐私; virtual-real mixing cyberspace; Pervasive Internet; digital twins; security; privacy
Qinping ZHAO, Zhong ZHOU, Xiaohui LIANG, et al. Security in virtual-real mixing cyberspaces: a survey. Sci Sin Inform, 2024, 54(4): 817-852, doi: 10.1360/SSI-2023-0188
基于时空层级查询的指代视频目标分割
兰猛, 张乐飞, 杜博, 张良培
中国科学: 信息科学, 2024, 54(3): 674-691
摘要 本文针对当前指代视频目标分割方法缺乏目标时空一致性建模和目标时空表征学习不足等问题,进行了深入的研究,提出了基于时空层级查询的指代视频目标分割方法 (STHQ).本文将指代视频目标分割看作基于查询的序列预测问题,并提出两级查询机制进行目标的时空一致性建模和时空特征学习.在第1阶段,本文提出了帧级空间信息提取模块,该模块使用语言特征作为查询独立地和视频序列中的每一帧在空间维度进行信息交互,生成包含目标空间信息的实例嵌入;在第2阶段,本文提出时空信息聚合模块,该模块使用视频级的可学习查询嵌入和第1阶段生成的实例嵌入在时空维度进行信息交互,生成具有时空表征信息的视频级实例嵌入;最后,视频级实例嵌入线性变换为条件卷积参数,并和视频序列中的每一帧进行卷积操作,生成目标的掩码预测序列.在该领域的3个基准数据集上的实验结果表明,本文提出的STHQ方法超越了现有的方法,实现了最佳的性能.
关键词 指代视频目标分割; 时空一致性建模; 时空特征学习; 跨模态特征交互; Transformer; referring video object segmentation; spatio-temporal consistency modeling; spatio-temporal feature learning; cross-modal feature interaction
Meng LAN, Lefei ZHANG, Bo DU, et al. Spatio-temporal hierarchical query for referring video object segmentation. Sci Sin Inform, 2024, 54(3): 674-691, doi: 10.1360/SSI-2023-0030
分心感知的伪装物体分割
梅海洋, 杨鑫, 周运铎, 季葛鹏, 魏小鹏, 范登平
中国科学: 信息科学, 2024, 54(3): 653-673
摘要 本文致力于设计一个有效且高效的伪装物体分割(camouflaged object segmentation, COS)模型.为此,本文开发了一个生物启发的框架,称为金字塔定位和聚焦网络(pyramid positioning and focus network, PFNet+),其模仿了自然界中的捕食过程.具体地,本文的PFNet+包含3个关键模块,即上下文增强模块(context enrichment, CEn)、金字塔定位模块(pyramid positioning module, PPM)和聚焦模块(focus module, FM). CEn通过整合上下文信息来增强骨干特征的表征能力,从而提供更有辨别性的骨干特征. PPM模仿捕食中的检测过程,以金字塔的方式从全局的角度定位潜在的目标物体.然后FM执行捕食中的识别过程,通过在歧义区域的聚焦逐步细化初始的预测结果.值得注意的是,在FM中,本文开发了一个新颖的分心挖掘策略,用于分心区域的发现和去除,以提高预测的性能.大量的实验证明本文的PFNet+能够实时运行(56 fps),在4个标准度量指标下, PFNet+在3个具有挑战性的数据集上都显著优于现有的20个最新模型,在其他视觉任务(如息肉分割)上的实验进一步证明了PFNet+的泛化能力.
关键词 伪装物体; 分心; 上下文增强; 上下文探索; 金字塔; 分割; camouflaged object; distraction; context enrichment; context exploration; pyramid; segmentation
Haiyang MEI, Xin YANG, Yunduo ZHOU, et al. Distraction-aware camouflaged object segmentation. Sci Sin Inform, 2024, 54(3): 653-673, doi: 10.1360/SSI-2022-0138
基于薄板样条插值的弯曲笔触神经绘画与风格化方法
唐波昊, 胡腾, 杜瑜桢, 易冉, 马利庄
中国科学: 信息科学, 2024, 54(2): 301-315
摘要 近年来,图像生成技术取得了令人瞩目的发展,目前的图像生成方法大多以像素填充的方式生成图像,缺乏艺术家逐笔绘制的过程,使其在局部笔触细节与纹理上与真实艺术作品有所不同.神经绘画致力于模仿人类艺术家以画笔为单位,逐笔绘制的作画过程.现有的神经绘画方法大多使用贝塞尔曲线或者笔触模板进行仿射变换来模拟真实笔触.然而,贝塞尔曲线纹理的缺乏以及仿射变换的线性性质,导致生成的笔触在纹理或者形状上存在较大的限制.为了更好地模拟真实笔触的纹理与形状,本文提出了新的基于薄板样条插值的弯曲笔触参数模型,通过对真实笔触模板先后进行弯曲与仿射变换,可以生成更加真实、多样的笔触图像.此外,本文提出了层次化的笔触优化方法,将整幅图像分解为由大到小的多个笔触,能够有效提升模型对图像整体架构与局部细节的绘画能力.最后,本文将提出的方法拓展至风格迁移中,实现了较好的风格迁移效果.定性与定量的实验表明,本文所提出的新的笔触模型与优化方法在神经绘画及风格化任务中都超越了已有的最佳模型.
关键词 神经绘画; 薄板样条插值; 弯曲笔触; 层次优化; 风格迁移; neural painting; thin plate spline; curved stroke; layer optimization; style transfer
Bohao TANG, Teng HU, Yuzhen DU, et al. Curved-stroke-based neural painting and stylization through thin plate spline interpolation. Sci Sin Inform, 2024, 54(2): 301-315, doi: 10.1360/SSI-2023-0194
城区场景建筑物单体分割与结构重建耦合研究
董梦成, 谢科, 黄惠
中国科学: 信息科学, 2024, 54(2): 281-300
摘要 随着无人机以及激光雷达在测绘领域的大规模应用,大量的城市场景稠密三维网格模型被生产出来,对其进行建筑物单体分割与结构化重建是计算机图形学领域极具挑战性的研究问题.本文对此提出了一种城区场景建筑物单体分割与结构化重建耦合处理的方法.首先,本文基于马尔可夫(Markov)随机场从场景中提取建筑物轮廓;然后,基于提取出的建筑物轮廓以及人造建筑竖直方向的规则性,引入了一种新的建筑物结构化模型——多层轮廓模型;最后,设计了一个自顶向下的城区场景建筑物单体分割与结构化重建耦合处理的并行系统,该系统能够高效地处理大规模城区场景.实验结果表明,本文方法生成的结构化模型最高实现了厘米级的精度.
关键词 建筑物单体分割; 结构重建; 耦合处理; 城市场景理解; 马尔可夫随机场; building instance segmentation; structural reconstruction; coupled processing; urban scene understanding; Markov random field
Mengcheng DONG, Ke XIE, Hui HUANG. Coupled study on instance segmentation and structural reconstruction of buildings in 3D urban scenes. Sci Sin Inform, 2024, 54(2): 281-300, doi: 10.1360/SSI-2023-0221
