基于视频流谱特征空间的深度伪造检测
肖景博, 殷琪林, 卢伟, 罗向阳, 郭世泽
中国科学: 信息科学, 2024, 54(11): 2572-2588
摘要 随着深度伪造技术的快速发展,深度伪造视频在每一帧上表现得极为真实,现有检测方法难以有效识别出深度伪造视频.针对这一问题,本文首次提出了一种基于视频流谱特征空间的深度伪造检测方法.该方法基于流谱理论构建了一个视频流谱特征空间,通过视频流谱基底模型将视频流从视频特征隐空间映射到视频流谱特征空间,精准刻画视频流中不一致性信息,获取可分离度更高的视频流谱不一致性特征,从而实现深度伪造视频的检测.具体而言,首先提出了一种视频流谱特征空间的构建方法,通过对视频特征隐空间进行基底映射,得到一个近似同构的视频流谱特征描述空间,在视频流谱特征空间中融合视频流不同视角的高维表征,实现对视频流的精准刻画与分析;然后设计了一个视频不一致性流谱映射模型,通过视频流谱变换算子,从时序角度将视频流的空域信息聚合映射到视频流谱特征空间,建模深度伪造视频的不一致性信息,构建数据可分离度更高的视频表征.实验结果表明,所提方法在Celeb-DF数据集上达到99.23%的准确率,在DFDC数据集上达到95.24%的准确率.
关键词 深度伪造检测; 流谱理论; 视频流谱特征空间; 视频流谱基底模型; 时序不一致性; deepfake detection; flow spectrum theory; video flow spectrum feature space; video flow spectrum basis model; temporal inconsistency
Jingbo XIAO, Qilin YIN, Wei LU, et al. Deepfake detection based on video flow spectrum feature space. Sci Sin Inform, 2024, 54(11): 2572-2588, doi: 10.1360/SSI-2024-0114
一种结构范数正则化的可微神经结构搜索算法
曾宪华, 吴杰, 夏耀光, 向一心
中国科学: 信息科学, 2024, 54(9): 2181-2199
摘要 可微神经结构搜索(differentiable neural architecture search, DNAS)作为近年来神经结构搜索的主流方法之一,通过结合基于梯度优化的搜索策略能够有效地搜索网络结构.然而,存在结构搜索稳定性差和模型复杂度高的问题.为了解决这两个问题,本文提出了一种结构范数正则化的可微神经结构搜索算法,提高了结构搜索的稳定性;设计了一种冗余边剪枝算法修剪网络结构中的冗余边,降低了最终模型的复杂度.本文在CIFAR10, CIFAR100, miniImageNet和胎儿心脏标准平面分类(fetal heart standard plane, FHSP)等4个数据集上进行了算法性能对比实验,与一系列当前最新的可微神经结构搜索算法相比,取得了最优的综合性能.
关键词 深度学习; 可微神经结构搜索; 剪枝; 正则化; 高效搜索网络结构; deep learning; differentiable neural architecture search; pruning; regularization; efficiently search network structures
Xianhua ZENG, Jie WU, Yaoguang XIA, et al. A differentiable neural architecture search algorithm with architecture norm regularization. Sci Sin Inform, 2024, 54(9): 2181-2199, doi: 10.1360/SSI-2023-0372
大模型驱动的具身智能: 发展与挑战
白辰甲, 许华哲, 李学龙
中国科学: 信息科学, 2024, 54(9): 2035-2082
摘要 大模型驱动的具身智能是涵盖人工智能、机器人学和认知科学的交叉领域,重点研究如何将大模型的感知、推理和逻辑思维能力与具身智能相结合,提升现有模仿学习、强化学习、模型预测控制等具身智能框架的数据效率和泛化能力.近年来,随着大模型能力的不断提升,以及具身智能中示教数据、仿真平台、任务集合的不断完善,大模型和具身智能的结合将成为人工智能的下一个浪潮,有望成为人工智能迈向实体机器人的重要突破口.本文围绕大模型驱动的具身智能这一研究领域,从3个方面进行了系统的调研、分析和展望.首先,回顾了大模型和具身智能的相关技术背景,以及具身智能现有的学习框架.其次,按照大模型赋能具身智能的方式,将现有研究分为大模型驱动的环境感知、大模型驱动的任务规划、大模型驱动的基础策略、大模型驱动的奖励函数、大模型驱动的数据生成等5类范式.最后,总结了大模型驱动的具身智能中存在的挑战,对可行的技术路线进行展望,为相关研究人员提供参考,进一步推动国家人工智能发展战略.
关键词 具身智能; 大模型; 环境感知; 任务规划; 基础策略; embodied AI; large-scale models; environment perception; task planning; foundation policy
Chenjia BAI, Huazhe XU, Xuelong LI. Embodied-AI with large models: research and challenges. Sci Sin Inform, 2024, 54(9): 2035-2082, doi: 10.1360/SSI-2024-0076
图像信息量度量
李学龙, 何如玢
中国科学: 信息科学, 2024, 54(6): 1558-1566
摘要 图像不仅承载着丰富的视觉内容,同时还蕴含潜在的高级语义,是重要的信息传递媒介.度量图像信息量则是对图像信息进行定性描述和定量计算的抽象过程,属于对图像处理领域中的科学问题进行理论构建的关键环节.然而,在现有的研究工作中,虽然对“图像信息量”的度量有所提及,但实际上关注的往往是在图像质量或图像特征的层级,而忽略了图像所具有的高级语义以及人对图像的认知.因此,为了衡量图像的信息提供价值,本文基于“图像信息量因人、因任务而异”这一常识,通过建模“先验知识”相关的图像记忆并提取“给定任务”相关的图像特征,尝试对图像信息量进行度量.首先,提出图像信息量度量的理论框架,具体表现为:在“能够获得全世界所有的图像”和“能找到一种能够准确表达图像语义的特征”两个假设条件下,以信息论为基础,通过构建超球来描述样本点的邻域稠密度,由此建模语义信息的概率,进而得到理论假设条件下的图像信息量.其次,探讨了理论假设无法满足的实际情况,将“全世界所有的图像”这一假设条件退化为“给定具体的数据集”,并将“一种能够准确表达图像语义的特征”这一假设退化为“给定任务相关的特征”,进一步通过实验展示了在实际情况下如何有效获得图像信息量的数值结果.最后,指出了本文度量方法的限定对象和度量结果的边界,并展望了未来对相关体系进行丰富和完善的可行方向.
关键词 图像信息量; 信息量度量; 信容; 信息论; 图像处理; image information; information measurement; information capacity; information theory; image processing
Xuelong LI, Rubin HE. Measuring the information of images. Sci Sin Inform, 2024, 54(6): 1558-1566, doi: 10.1360/SSI-2023-0078
属性知识自反绎下的半监督表示学习
沈阳, 孙旭豪, 徐赫洋, 魏秀参
中国科学: 信息科学, 2024, 54(6): 1386-1399
摘要 机器学习结合逻辑推理的方法可以大幅提升模型的鲁棒性与可解释性.近年来,已有工作从给定的具体知识库出发,通过反绎学习的范式或是其衍生范式来促进机器学习中模型的更新过程.然而,在表示学习任务中,即便存在这样的知识库,其往往也是不完备或含有噪声的.且在真实环境下,即便领域专家也无法精准定量地描述不同对象的属性表示信息.因此,本文针对半监督表示学习任务,提出了一种可根据少量有标记样本构建弱领域属性知识库并结合无标记数据与基于启发式规则扩张领域知识库推理的反绎学习方法.该方法可有效解决表示学习任务下缺少强领域知识与真实环境下高质量标注数据较少这两个问题.在人工合成的数据集与真实环境下的数据集中的实验对比结果均验证了我们提出的方法的有效性.
关键词 人工智能; 机器学习; 反绎学习; 半监督学习; 特征表示; 细粒度属性; artificial intelligence; machine learning; abductive learning; semi-supervised learning; feature representation; fine-grained attributes
Yang SHEN, Xuhao SUN, Heyang XU, et al. Attribute-aware knowledge based self-abductive for semi-supervised representation learning. Sci Sin Inform, 2024, 54(6): 1386-1399, doi: 10.1360/SSI-2023-0252
面向连续手语识别的自适应关键帧选择
闵越聪, 陈熙霖
中国科学: 信息科学, 2024, 54(4): 893-910
摘要 基于视觉的连续手语识别旨在从图像序列中识别出对应的手语词序列,可以为手语使用者提供一种便利的辅助工具.现有的连续手语识别方法大多需要从图像序列中,逐帧提取视觉和时序特征,而相邻帧中存在的相似视觉信息带来了大量的冗余计算.本文通过分析帧率对连续手语识别算法的影响,发现降低帧率可以显著地提升计算效率,但也会带来一定的性能损失.为了在降低帧率的同时保留更多手语关键信息,本文提出了自适应动态池化层(adaptive dynamic temporal pooling, ADTP),ADTP基于序列特征的自相似性对序列进行动态下采样.在此基础上,本文进一步提出了一种两阶段的训练方式,以更充分地利用原始帧率中的时空信息.具体而言,该训练方式在第一阶段只训练基于原始帧率的手语识别模型,并以此模型为教师网络,通过知识蒸馏的方式引导第二阶段含ADTP模块的模型训练.实验结果表明,本文所提的方法在损失少量性能的情况下,可以大幅度减少识别所需的计算量.此外,本文所提出的ADTP也可用于手语视频结构分析,生成简略直观的手语视频摘要.
关键词 连续手语识别; 时间序列分析; 视觉语言; 知识蒸馏; 计算效率; continuous sign language recognition; time series analysis; visual languages; knowledge distillation; computational efficiency
Yuecong MIN, Xilin CHEN. Adaptive keyframe selection for continuous sign language recognition. Sci Sin Inform, 2024, 54(4): 893-910, doi: 10.1360/SSI-2022-0467
多模可信交互:从多模态信息融合到人-机器人-数字人三位一体式交互模型
王国庆, 裴云强, 杨阳, 徐行, 汪政, 申恒涛
中国科学: 信息科学, 2024, 54(4): 872-892
摘要 信任在人–机器人–数字人协作中扮演着关键角色,因为它不仅影响了人–机器人–数字人的效率,同时也存在风险和益处.然而,当前的人–机器人–数字人信任研究存在“失衡”现象,即大部分研究集中于“以人为中心”的信任关系而忽略了智能体(机器人和数字人)对人的信任.为了填补人–机器人–数字人信任研究领域的这一空白,在使用多模态信号来建立人–机器人–数字人交互中的适度单向信任基础上,构建跨虚实世界的“三位一体”经历交融共享生态.本文旨在探讨多模态线索和增强现实在建立人–机器人–数字人之间可信关系方面的现有研究、可行性和未来发展方向.最后,本文展望了该模式在社会组织形态及社会事件态势感知和管控中的应用前景,并指出了未来需要解决的问题.本文的研究有助于理解多模态线索和增强现实在人–机器人–数字人交互中的作用,并为“三位一体”趋势的实现提供思路和解决方案.
关键词 增强现实; 多模态交互; 人-机器人-数字人交互; 信任; augmented reality; multimodal interaction; human-robot-digital human interaction; trust
Guoqing WANG, Yunqiang PEI, Yang YANG, et al. Multimodal trustworthy interaction: from multimodal information fusion to a trinitarian human-robot-digital human interaction model. Sci Sin Inform, 2024, 54(4): 872-892, doi: 10.1360/SSI-2023-0133
虚实融合网络空间安全综述
赵沁平, 周忠, 梁晓辉, 李帅, 汪淼, 王焱
中国科学: 信息科学, 2024, 54(4): 817-852
摘要 在计算机与网络基础设施不断发展的推动下,越来越多的人类活动从物理世界向数字世界迁移,产生了构建新型虚实融合网络空间的动因和思想,增强现实、数字孪生、元宇宙等相继成为国际关注热点.虚实融合网络以互联网、物联网为基础,进一步将具有独立身份的计算机、各种物理对象及其数字孪生,以及计算机生成的数字原生对象进行互联,将物理世界和人类世界与数字世界贯通,成为“泛联网”,形成人、机、物泛联互通的虚实融合网络空间,带来全新的大众体验、社交形态、生产模式和数字经济发展路径.这种新型网络空间极大地拓展了互联网、物联网的空间边界和应用领域,同时也带来了新的安全与隐私保护问题.本文首先介绍了泛联网与虚实融合网络空间的概念及架构,分析其存在的安全与隐私风险,然后从用户认证与权限控制、数据安全、隐私保护、感知与交互安全、关键基础设施与软硬件安全、应用安全与网络空间治理等方面的国际研究现状和发展趋势进行综述,最后给出需要解决的十个问题.
关键词 虚实融合网络空间; 泛联网; 数字孪生; 安全; 隐私; virtual-real mixing cyberspace; Pervasive Internet; digital twins; security; privacy
Qinping ZHAO, Zhong ZHOU, Xiaohui LIANG, et al. Security in virtual-real mixing cyberspaces: a survey. Sci Sin Inform, 2024, 54(4): 817-852, doi: 10.1360/SSI-2023-0188
基于时空层级查询的指代视频目标分割
兰猛, 张乐飞, 杜博, 张良培
中国科学: 信息科学, 2024, 54(3): 674-691
摘要 本文针对当前指代视频目标分割方法缺乏目标时空一致性建模和目标时空表征学习不足等问题,进行了深入的研究,提出了基于时空层级查询的指代视频目标分割方法 (STHQ).本文将指代视频目标分割看作基于查询的序列预测问题,并提出两级查询机制进行目标的时空一致性建模和时空特征学习.在第1阶段,本文提出了帧级空间信息提取模块,该模块使用语言特征作为查询独立地和视频序列中的每一帧在空间维度进行信息交互,生成包含目标空间信息的实例嵌入;在第2阶段,本文提出时空信息聚合模块,该模块使用视频级的可学习查询嵌入和第1阶段生成的实例嵌入在时空维度进行信息交互,生成具有时空表征信息的视频级实例嵌入;最后,视频级实例嵌入线性变换为条件卷积参数,并和视频序列中的每一帧进行卷积操作,生成目标的掩码预测序列.在该领域的3个基准数据集上的实验结果表明,本文提出的STHQ方法超越了现有的方法,实现了最佳的性能.
关键词 指代视频目标分割; 时空一致性建模; 时空特征学习; 跨模态特征交互; Transformer; referring video object segmentation; spatio-temporal consistency modeling; spatio-temporal feature learning; cross-modal feature interaction
Meng LAN, Lefei ZHANG, Bo DU, et al. Spatio-temporal hierarchical query for referring video object segmentation. Sci Sin Inform, 2024, 54(3): 674-691, doi: 10.1360/SSI-2023-0030
分心感知的伪装物体分割
梅海洋, 杨鑫, 周运铎, 季葛鹏, 魏小鹏, 范登平
中国科学: 信息科学, 2024, 54(3): 653-673
摘要 本文致力于设计一个有效且高效的伪装物体分割(camouflaged object segmentation, COS)模型.为此,本文开发了一个生物启发的框架,称为金字塔定位和聚焦网络(pyramid positioning and focus network, PFNet+),其模仿了自然界中的捕食过程.具体地,本文的PFNet+包含3个关键模块,即上下文增强模块(context enrichment, CEn)、金字塔定位模块(pyramid positioning module, PPM)和聚焦模块(focus module, FM). CEn通过整合上下文信息来增强骨干特征的表征能力,从而提供更有辨别性的骨干特征. PPM模仿捕食中的检测过程,以金字塔的方式从全局的角度定位潜在的目标物体.然后FM执行捕食中的识别过程,通过在歧义区域的聚焦逐步细化初始的预测结果.值得注意的是,在FM中,本文开发了一个新颖的分心挖掘策略,用于分心区域的发现和去除,以提高预测的性能.大量的实验证明本文的PFNet+能够实时运行(56 fps),在4个标准度量指标下, PFNet+在3个具有挑战性的数据集上都显著优于现有的20个最新模型,在其他视觉任务(如息肉分割)上的实验进一步证明了PFNet+的泛化能力.
关键词 伪装物体; 分心; 上下文增强; 上下文探索; 金字塔; 分割; camouflaged object; distraction; context enrichment; context exploration; pyramid; segmentation
Haiyang MEI, Xin YANG, Yunduo ZHOU, et al. Distraction-aware camouflaged object segmentation. Sci Sin Inform, 2024, 54(3): 653-673, doi: 10.1360/SSI-2022-0138
基于薄板样条插值的弯曲笔触神经绘画与风格化方法
唐波昊, 胡腾, 杜瑜桢, 易冉, 马利庄
中国科学: 信息科学, 2024, 54(2): 301-315
摘要 近年来,图像生成技术取得了令人瞩目的发展,目前的图像生成方法大多以像素填充的方式生成图像,缺乏艺术家逐笔绘制的过程,使其在局部笔触细节与纹理上与真实艺术作品有所不同.神经绘画致力于模仿人类艺术家以画笔为单位,逐笔绘制的作画过程.现有的神经绘画方法大多使用贝塞尔曲线或者笔触模板进行仿射变换来模拟真实笔触.然而,贝塞尔曲线纹理的缺乏以及仿射变换的线性性质,导致生成的笔触在纹理或者形状上存在较大的限制.为了更好地模拟真实笔触的纹理与形状,本文提出了新的基于薄板样条插值的弯曲笔触参数模型,通过对真实笔触模板先后进行弯曲与仿射变换,可以生成更加真实、多样的笔触图像.此外,本文提出了层次化的笔触优化方法,将整幅图像分解为由大到小的多个笔触,能够有效提升模型对图像整体架构与局部细节的绘画能力.最后,本文将提出的方法拓展至风格迁移中,实现了较好的风格迁移效果.定性与定量的实验表明,本文所提出的新的笔触模型与优化方法在神经绘画及风格化任务中都超越了已有的最佳模型.
关键词 神经绘画; 薄板样条插值; 弯曲笔触; 层次优化; 风格迁移; neural painting; thin plate spline; curved stroke; layer optimization; style transfer
Bohao TANG, Teng HU, Yuzhen DU, et al. Curved-stroke-based neural painting and stylization through thin plate spline interpolation. Sci Sin Inform, 2024, 54(2): 301-315, doi: 10.1360/SSI-2023-0194
城区场景建筑物单体分割与结构重建耦合研究
董梦成, 谢科, 黄惠
中国科学: 信息科学, 2024, 54(2): 281-300
摘要 随着无人机以及激光雷达在测绘领域的大规模应用,大量的城市场景稠密三维网格模型被生产出来,对其进行建筑物单体分割与结构化重建是计算机图形学领域极具挑战性的研究问题.本文对此提出了一种城区场景建筑物单体分割与结构化重建耦合处理的方法.首先,本文基于马尔可夫(Markov)随机场从场景中提取建筑物轮廓;然后,基于提取出的建筑物轮廓以及人造建筑竖直方向的规则性,引入了一种新的建筑物结构化模型——多层轮廓模型;最后,设计了一个自顶向下的城区场景建筑物单体分割与结构化重建耦合处理的并行系统,该系统能够高效地处理大规模城区场景.实验结果表明,本文方法生成的结构化模型最高实现了厘米级的精度.
关键词 建筑物单体分割; 结构重建; 耦合处理; 城市场景理解; 马尔可夫随机场; building instance segmentation; structural reconstruction; coupled processing; urban scene understanding; Markov random field
Mengcheng DONG, Ke XIE, Hui HUANG. Coupled study on instance segmentation and structural reconstruction of buildings in 3D urban scenes. Sci Sin Inform, 2024, 54(2): 281-300, doi: 10.1360/SSI-2023-0221
学习成对样本运动显著性的细粒度人体骨架动作识别
李红艳, 涂志刚, 谢伟, 张嘉旭
中国科学: 信息科学, 2023, 53(12): 2440-2457
摘要 基于骨架数据的细粒度人体动作识别是一项重要的研究课题,但未被充分解决.由于骨架数据缺乏视觉表观信息,相似类别的人体动作很难被现有的深度网络模型识别.在这项工作中,我们提出了一个新型的运动显著性探测器(motion salience prober, MSP),并引入了配对学习(motion salience prober-incorporated pairwise-learning, MSP-PL)框架,以实现细粒度的骨架动作识别.我们的MSP-PL框架在构造成对的相似骨架运动样本基础上(查询样本与探测样本),利用运动显著性学习机制,促进编码器学习精细化的运动特征.其核心模块MSP可以在我们设计的探测样本和损失函数的帮助下,增强查询样本的显著性运动特征,并消除冗余的噪声.本文设计了3种探测样本构造策略来生成查询–探测样本对,辅助模型识别查询样本的动作,并测试了它们对模型性能的影响.在NTU-RGB+D120数据集与Kinetics-Skeleton数据集上的大量实验表明,我们的MSP-PL框架是通用的,大多数骨架特征编码器可以无缝嵌入其中,并显著提高其准确性. 5个主流的编码器对精细化动作的平均分类准确率提高了2.4%以上.此外,我们的MSP-PL框架在与最新的编码器相结合时,在骨架动作识别方面达到了最先进的性能.
关键词 骨架动作识别; 细粒度动作识别; 视觉注意力; 运动显著性学习; 对比学习; skeleton action recognition; ne-grained action recognition; visual attention; motion salience learning; contrastive learning
Hongyan LI, Zhigang TU, Wei XIE, et al. Fine-grained skeleton action recognition with pairwise motion salience learning. Sci Sin Inform, 2023, 53(12): 2440-2457, doi: 10.1360/SSI-2023-0047
基于纹理与几何解耦的说话人视频连续情感编辑模型
吕天, 温玉辉, 孙志尧, 刘永进
中国科学: 信息科学, 2023, 53(12): 2423-2439
摘要 说话人视频的情感编辑是计算机视觉和图形学当前研究热点之一,其目的是将一段中性情感的人物说话视频转为带有目标情感的说话视频.已有的方法难以同时兼顾高清晰度情感编辑、人脸三维属性的保持以及模型对不同目标人物的适用性.为同时满足上述要求,本文提出基于Basel人脸模型(Basel face model, BFM)条件的几何编辑网络作为几何情感编辑模块,保证了几何编辑在不同目标人物场景下的通用性;提出了基于人物分类器的纹理情感编辑模块,使得精细纹理的编辑可以迁移到多人任务之中,突破了以往情感编辑模型仅适用特定目标人物或适用多人模型生成质量不高的局限性.本文提出的模型可以实现连续控制情感编辑强度的效果.实验结果表明,本文提出的通用情感编辑模型在多人任务上的清晰度、人物保真度、情感编辑质量等各项指标均优于已有可适用于多人情感编辑的方法,并且在训练集中未出现的目标人物上也能实现自然的情感编辑,甚至在未见的人脸位姿的说话视频中也能获得合理的结果.
关键词 情感编辑; 三维重建; 深度学习; 计算机视觉; 神经网络; emotional editing; 3D reconstruction; deep learning; computer vision; neural network
Tian LV, Yu-Hui WEN, Zhiyao SUN, et al. A continuous emotional editing model for talking head videos based on decoupling texture and geometry. Sci Sin Inform, 2023, 53(12): 2423-2439, doi: 10.1360/SSI-2022-0444
基于特征对齐和高斯表征的视觉有向目标检测
杨学, 严骏驰
中国科学: 信息科学, 2023, 53(11): 2250-2265
摘要 有向目标检测是计算机视觉中的一个研究热点,在遥感、场景文字等领域具有广泛应用.大长宽比、密集排列以及任意方向等问题是该领域目标检测面临的主要挑战.本文提出了一种基于单阶段检测方法的级联有向检测器R~3DetGauss,采用一种从粗到细的渐进式回归方法快速准确地定位目标.考虑到级联检测器中存在的特征不对齐的问题,本文设计了一个特征精修模块(feature refinement module, FRM),能够获得更准确的特征,从而提高检测性能. FRM通过逐像素特征插值将当前精修后的边界框的位置信息重新编码到对应的特征点,进而实现特征的重构和对齐.本文还采用了具有尺度不变性的归一化高斯Wasserstein距离作为回归损失来进一步提高估计边界框的质量.此外,本文基于该距离提出了长宽比感知的自适应样本采样策略,提高了样本分配的质量.在多个公开的图像数据集上的大量实验结果表明,所提出的R~3DetGauss检测器在多种数据集上均能够进一步提升精度,并最终达到当前先进检测水平.相关代码在国产深度学习Jittor框架、PyTorch和TensorFlow中均进行了开源发布.
关键词 有向目标检测; 计算机视觉; 特征精修模块; 分布距离; 标签分配; 回归损失; oriented object detection; computer vision; feature refinement module; distribution distance; label assignment; regression loss
Xue YANG, Junchi YAN. Visual oriented object detection via feature alignment and Gaussian parameterization. Sci Sin Inform, 2023, 53(11): 2250-2265, doi: 10.1360/SSI-2022-0410
非约束环境下的轻量级实时多人三维动作捕捉
杨文武, 李跃, 邢帅, 蔡佳航, 王勋
中国科学: 信息科学, 2023, 53(11): 2230-2249
摘要 非接触式的多人三维动作捕捉技术在影视动画、游戏、虚实互动、体育运动和生物医学分析等领域有着广泛的应用.现有的国内外相关论文多数聚焦在算法创新,而缺少整体视角下的系统分析与构建.为此,本文提出了一种非约束环境下的轻量级多人三维动作捕捉系统,该系统便于组装,仅需少量的(4~6个)普通相机或摄像头,并且适用于一般的室内外环境,对场景中的背景和人物对象的着装没有特殊要求.首先,为了提升三维人体动作捕捉的精度,设计并实现了一个鲁棒的基于多视图的多人三维姿态估计算法,它充分利用了多视角的信息互补,并引入了一个跨帧连贯性约束来过滤异常的二维人体关节点检测结果以抑制其对三维人体姿态估计的影响.其次,围绕多视图数据的实时采集与传输及其有效处理,构建了一套轻量级的硬件系统,同时提出了一种数据流向可控的模块化并行处理机制,最终实现了一个灵活、易维护扩充且高效的软硬件系统框架.最后,基于多个公开数据集与自采数据集,通过大量实验,充分验证了本文所提出算法与系统的准确性、高效性和鲁棒性.
关键词 动作捕捉; 非接触式动捕; 实时动捕; 多人三维姿态估计; 跨视角姿态关联; motion capture; markerless motion capture; realtime motion capture; multi-person 3D pose estimation; cross-view pose association
Wenwu YANG, Yue LI, Shuai XING, et al. Lightweight multi-person motion capture system in the wild. Sci Sin Inform, 2023, 53(11): 2230-2249, doi: 10.1360/SSI-2022-0397
基于局部-全局建模与视觉相似引导的光流估计方法
舒铭奕, 张聪炫, 陈震, 葛利跃, 胡卫明, 王子旭
中国科学: 信息科学, 2023, 53(10): 1945-1964
摘要 光流估计是计算机视觉的核心任务.近年来,基于卷积神经网络的光流估计方法已取得很大成功,然而由于现有模型的卷积感受野有限,难以建模远距离的依赖关系,导致在大位移和局部歧义性区域的光流估计效果较差.此外,现有方法在光流上采样过程采用的插值操作会导致误差的传播放大,进而引起光流估计的运动边缘模糊等问题.针对以上问题,本文提出了一种基于局部–全局建模与视觉相似引导上采样的光流估计方法.首先,引入一个高效且简单的自注意力机制加强光流计算网络的局部和全局建模能力.通过提取更具有表达力的图像特征,降低因大位移和局部歧义性导致的光流估计误差问题.其次,基于物体视觉特征越相似,运动也越相似的假设,构建视觉相似引导的光流上采样网络模型.将特征的视觉相似性转化为运动的相似性进而指导光流上采样过程,提高了运动边界区域光流估计的精度.最后,分别采用MPI-Sintel和KITTI数据库测试图像集对本文方法和最先进的深度学习光流计算方法进行综合对比分析.实验结果表明,本文方法在所有对比方法中取得了最优的光流计算结果,尤其在大位移和运动边界区域显著提升了光流计算的精度.
关键词 光流估计; 卷积神经网络; 自注意力; 上采样; 视觉相似引导; optical flow estimation; convolutional neural networks; self-attention; upsampling; visual similarity guidance
Mingyi SHU, Congxuan ZHANG, Zhen CHEN, et al. Optical flow estimation based on local-global modeling and visual similarity guidance. Sci Sin Inform, 2023, 53(10): 1945-1964, doi: 10.1360/SSI-2022-0340
基于神经网络的生成式三维数字人研究综述: 表示、渲染与学习
晏轶超, 程宇豪, 陈琢, 彭乙骢, 吴思婧, 张维天, 李俊杰, 李逸轩, 高景南, 张维夏, 翟广涛, 杨小康
中国科学: 信息科学, 2023, 53(10): 1858-1891
摘要 随着人工智能技术的高速发展,计算机视觉与图形学等相关学科的交叉融合掀起了一场数字人生成技术的新革命,人类进入“元宇宙”等数字空间的梦想正逐渐变为现实.面对大规模三维数字人的生产需求,传统图形学建模方法建模过程繁琐,周期冗长,阻碍了虚拟数字人的普及和应用,而利用生成式人工智能技术产生高拟真、规模化的虚拟数字人正逐渐成为研究热点.为了深入了解三维数字人技术的研究现状与挑战,本文从生成式模型的视角对数字人技术进行了系统性梳理,并总结了其中的3个关键步骤:表示、渲染与学习.随后,对显式及隐式的表示方法进行总结,对传统渲染与神经网络渲染的成像方式进行归纳,并概括了相应的模型学习方法.最后,本文对三维数字人的典型应用进行分析,并对当前挑战与未来发展方向进行总结和展望.
关键词 三维数字人; 生成模型; 隐式表示; 神经渲染; 对抗学习; 3D digital human; generative model; implicit representation; neural rendering; adversarial learning
Yichao YAN, Yuhao CHENG, Zhuo CHEN, et al. A survey on generative 3D digital humans based on neural networks: representation, rendering, and learning. Sci Sin Inform, 2023, 53(10): 1858-1891, doi: 10.1360/SSI-2022-0319
基于对齐遗忘机制的信息不平衡图像翻译
舒叶芷, 夏萌霏, 李强, 张国鑫, 万鹏飞, 郑文, 刘永进
中国科学: 信息科学, 2023, 53(8): 1593-1607
摘要 作为图像处理领域的热点技术,图像翻译可将图像由源域迁移至目标域,实现图像风格的转换.然而,在诸如真实人脸与卡通人脸、街道实景与街景分割图等图像翻译应用中,源域与目标域间往往存在巨大差距,域间的冗余信息和不一致特征会增加转换的难度,降低转换质量.本文提出对齐遗忘机制并设计多个损失函数,通过构建简易高效的信息不平衡图像翻译算法框架,实现了域编码与域解码.具体地,在将源域和目标域信息对齐映射至共享语义空间后,本文在对齐遗忘机制中使用互信息(mutual information)删除域间不一致特征,同时保留相同特征.实验结果表明,本文方法可有效剔除冗余信息,提高域间信息一致性.此外,本文在多个代表性信息不平衡图像数据集上验证了新算法较已有算法的优越性.
关键词 图像处理; 图像翻译; 生成对抗网络; 不平衡信息; 注意力机制; image processing; image-to-image translation; generative adversarial networks; imbalanced information; attention mechanism;
Yezhi SHU, Mengfei XIA, Qiang LI, et al. Aligned forgetting mechanism for imbalanced image-to-image translation. Sci Sin Inform, 2023, 53(8): 1593-1607, doi: 10.1360/SSI-2022-0092
面向事件相机的轻量化脉冲识别网络
刘昭辛, 吴金建, 石光明, 赵庆行
中国科学: 信息科学, 2023, 53(7): 1333-1347
摘要 事件相机是一种用脉冲表达信息的仿生成像传感器,具有高时域分辨率、高动态范围、低功耗和高速率等优势.由于事件驱动特性,传统人工神经网络(artificial neural networks, ANN)无法直接处理事件相机输出的脉冲信号.而脉冲神经网络(spiking neural network, SNN)作为一种神经形态计算方法,具有高时域分辨率及事件驱动的特性,这与事件相机高度契合.但是,深层脉冲神经网络需要消耗大量存储空间以及神经元计算资源,严重限制了其在边缘计算场景的部署.本文基于特征维度映射原理,提出面向嵌入式系统的轻量化脉冲神经网络,降低存储需求、提高运行效率并提高网络性能.首先,通过分析网络参数量与网络拟合功能间的关系,明确了约束脉冲神经网络能力的参数瓶颈问题.随后,基于低维特征提取–融合策略提出一种通用轻量化特征提取结构SpikeFire,该模块在保证感受野和特征维度等基本性质不变的前提下大幅减少了网络参数.此外,模拟脑神经元复杂连接特性,模块中采用跳层连接,这既增加多尺度信息提取又有助于深层次网络的优化.最后,将本文所提轻量化网络部署在嵌入式硬件中,开发出了事件驱动的成像识别一体化系统.实验表明,无论是在公开数据集还是自建真实场景和极端成像场景中,所提方法在保证识别性能的前提下大幅减少了参数量并提高运行速度.
关键词 脉冲神经网络; 事件相机; 轻量化网络; 特征融合; 嵌入式硬件; spiking neural network; event camera; lightweight network; feature fusion; embedded hardware;
Zhaoxin LIU, Jinjian WU, Guangming SHI, et al. Towards event camera signal recognition using a lightweight spiking neural network. Sci Sin Inform, 2023, 53(7): 1333-1347, doi: 10.1360/SSI-2022-0063
基于经验增强的自主场景探索
夏熙, 吴关, 刘利刚
中国科学: 信息科学, 2023, 53(7): 1314-1332
摘要 自主地探索未知室内场景并同时构建地图,是机器人完成许多应用任务的必备前提.基于深度强化学习的方法通过与环境交互的方式,让机器人学会利用室内场景的结构规律,因而有希望获得更加高效和鲁棒的探索策略.现有的方法通常直接控制机器人的运动,导致较长的决策序列,并需要大量的训练样本;或者间接指定长期目标点,却难以保证其可以到达,因而也阻碍了训练的进行.针对这些问题,提出了一种基于经验增强的自主场景探索方法以加速策略的训练并生成更加高效的探索目标.首先引入off-policy的强化学习算法和经验回放缓存机制;然后利用全局探索策略指定长期目标点;接着利用增量启发式寻路算法生成前往目标点的无碰撞路径;在此基础上对每一条探索路径分段并评估子路径的奖励,从而改进已有经验;最后利用时序差分误差对经验进行过滤,并加入经验回放缓存中.该方法能从原本失败的经验中推导出正确的行为,并生成易于到达的长期目标点.实验结果表明,本文方法不仅能明显加速全局探索策略的训练,还能提升训练后系统的整体性能.
关键词 自主场景探索; 深度强化学习; 经验增强; 路径规划; autonomous scene exploration; deep reinforcement learning; experience enhancement; path planning;
Xi XIA, Guan WU, Ligang LIU. Autonomous scene exploration using experience enhancement. Sci Sin Inform, 2023, 53(7): 1314-1332, doi: 10.1360/SSI-2022-0318
局部关系泛化表征的小样本增量学习
赵一凡, 李甲, 田永鸿
中国科学: 信息科学, 2023, 53(6): 1132-1146
摘要 小样本学习作为计算机视觉的新兴研究热点,旨在通过少量的已知样本实现对全新概念的快速识别和理解.现有的小样本学习技术只针对给定的新类别物体进行分类和识别,忽略了旧有基础类别的表示和区分.针对小样本增量学习问题中的类间可区分性差、增量类别难泛化两大研究难点,本文引入局部关系学习的思想,提出局部关系泛化表征的模型学习方法.为确保增量过程中的类别可区分性,本文首先使用局部空间关联约束增量表征能力,在此基础上,使用特征重映射方法将查询向量与支撑集映射在同一度量空间,有效确保了微小差异的可区分性.同时,为缓解增量过程中样本不足导致的归纳偏置问题,本文提出空间泛化式原型生成算法,利用分布特性快速生成虚拟原型,促进样本的有效表征.在此基础上,本文利用元学习训练方法,提出了局部泛化联合的增量学习框架,通过联合基础类别的局部表征和增量类别的快速泛化约束,有效缓解了灾难性遗忘和表征不足的困难,实验证明本方法在经典小样本增量任务中取得了当前最好的性能表现.
关键词 小样本学习; 增量学习; 局部关系; 泛化表征; 元学习; few-shot learning; incremental learning; local relationship; generalized representation; meta learning;
Yifan ZHAO, Jia LI, Yonghong TIAN. Generalized representation of local relationships for few-shot incremental learning. Sci Sin Inform, 2023, 53(6): 1132-1146, doi: 10.1360/SSI-2022-0231
基于采样和加权损失函数的模型窃取攻击方法
王熠旭, 李杰, 刘弘, 王言, 徐明亮, 吴永坚, 纪荣嵘
中国科学: 信息科学, 2023, 53(5): 931-945
摘要 模型窃取攻击旨在获得一个和目标受害模型功能相似的替代模型.现有的方法主要采用数据生成或数据选择方法和交叉熵损失函数去获得一个较好的攻击效果.据此,本文着重研究了攻击过程中这两个极为重要的模块:数据采样和损失函数.同时,本文提出了一个新颖的模型窃取攻击方法S&W,其包含了一种新的采样策略和一个精心设计的加权损失函数.首先,新的采样策略更加关注于从受害者模型中获得更多信息的重要样本.与此同时,本文通过引入k-Center算法达到选择样本的多样性的目的.其次,受到经典Focal损失函数的启发,本文设计了一种新的加权损失函数.该损失函数主要关注于受害者模型和替代模型对于相同输入所给出的输出之间的差异,从而促使替代模型模拟受害者模型.在4个常用的数据集上,我们通过实验证明了本文提出的方法的有效性.相比于之前最好的方法,本文方法最高有5.03%的性能提升.
关键词 计算机视觉; 模型窃取攻击; 对抗攻击; 主动学习; 知识蒸馏; computer vision; model stealing attack; adversarial attack; active learning; knowledge distillation;
Yixu WANG, Jie LI, Hong LIU, et al. Model stealing attack based on sampling and weighting. Sci Sin Inform, 2023, 53(5): 931-945, doi: 10.1360/SSI-2022-0029
多尺度稳定场GAN的图像修复模型
叶学义, 曾懋胜, 孙伟杰, 王凌宇, 赵知劲
中国科学: 信息科学, 2023, 53(4): 682-698
摘要 近年来生成对抗网络(generative adversarial network, GAN)已经展示了它在图像修复任务中修复大面积缺失区域并生成合理语义结果的潜力,但现有方法经常忽略缺失区域的语义一致性和特征连续性,并对不同尺度特征的感知能力不足,因此提出一种基于多尺度稳定场GAN的图像修复模型.该模型的生成单元汲取了U-Net的特点,将稳定场算子嵌入到跳跃连接中以填充编码器特征图中的缺失区域,保持了缺失区域的语义一致性和特征连续性;然后通过多尺度融合计算逐步加强经稳定场算子填充缺失区域的特征图的传递,使得跳跃连接传递的信息不再来自单一的特征图,让模型能够感知高层特征的语义信息.在人脸和自然场景等数据集上的实验结果表明,该模型优于其他的经典图像修复方法.
关键词 图像修复; 生成对抗网络; GAN; 稳定场; 多尺度融合; 深度学习; image inpainting; generative adversarial network; stable field; multi-scale fusion; deep learning;
Xueyi YE, Maosheng ZENG, Weijie SUN, et al. Image inpainting based on multi-scale stable-field GAN. Sci Sin Inform, 2023, 53(4): 682-698, doi: 10.1360/SSI-2022-0065
基于Transformer的高光谱图像超分辨率重建
王龙光, 郭裕兰, 林再平, 王应谦, 安玮
中国科学: 信息科学, 2023, 53(3): 500-516
摘要 高光谱图像超分辨率重建旨在融合高分辨率多光谱图像与低分辨率高光谱图像以得到高分辨率高光谱图像.如何实现二者中空域信息和谱域信息的有效融合是高光谱图像超分辨率重建的关键.受高光谱图像的端元表示模型启发,本文在神经网络中显式地对端元进行建模,并利用其作为纽带实现空域信息和谱域信息的融合.具体来说,本文提出了一个基于Transformer的高光谱图像超分辨率重建网络,利用Transformer结构从低分辨率高光谱图像提取端元信息,并将端元信息融合到高分辨率多光谱图像中,进而完成高分辨率高光谱图像的重建.实验结果表明, Transformer结构的全局感受野增强了网络的长程建模能力,提高了端元提取精度,进而提升了超分辨率重建性能.与已有方法相比,本文所提方法在室内/遥感高光谱数据集上均取得了更优的性能.
关键词 高光谱图像; 图像超分辨率重建; 图像融合; Transformer网络; 端元特征; hyperspectral image; image super-resolution; image fusion; transformer network; endmember feature;
Longguang WANG, Yulan GUO, Zaiping LIN, et al. Deep hyperspectral image super-resolution with transformers. Sci Sin Inform, 2023, 53(3): 500-516, doi: 10.1360/SSI-2021-0181
基于姿态与双流神经架构搜索的行人动作识别
龚申健, 张姗姗, 郭煜, 杨健, 陶冶
中国科学: 信息科学, 2023, 53(3): 485-499
摘要 行人是城市交通场景下的弱势群体,为了避免碰撞,有必要准确地预测他们的动作行为.为此,本文首次提出城市交通场景中行人动作识别这一问题并提出了有针对性的解决方案.首先,我们创建了一个新的行人动作识别数据集(PARD)作为实验的数据基础,并给出了一个有效的基准模型MFVGG,该模型能够以较低的计算成本达到与之前先进人体动作识别方法相当的性能.为了更针对性地解决问题,本文在两个方面对基准模型进行了改进.首先,利用姿态先验来丰富特征表示,构造双流网络融合双分支编码特征.其次,本文引入双流神经架构搜索得到对于这项任务的最优层级网络架构.实验表明,提出的方法的性能超过了一般人体动作识别相关的先进算法.数据集以及代码公布在https://github.com/Yankeegsj/PARD.
关键词 深度学习; 计算机视觉; 动作识别; 网络架构搜索; 姿态估计; deep learning; computer vision; action recognition; neural architecture search; pose estimation;
Shenjian GONG, Shanshan ZHANG, Yu GUO, et al. Pose-guided pedestrian action recognition with two-stream neural architecture searching. Sci Sin Inform, 2023, 53(3): 485-499, doi: 10.1360/SSI-2021-0198
仿视网膜传感器视觉重建算法研究综述
朱林, 田永鸿
中国科学: 信息科学, 2023, 53(3): 417-436
摘要 视网膜启发的传感器(又称仿视网膜传感器)是近年来新兴的视觉传感器,其通过对场景光强信息进行连续采样,输出高时间分辨率的异步脉冲信号.本文将围绕基于仿视网膜传感器的采样原理进行总结,包括空间对比度传感器、时间对比度传感器、时域积分传感器,以及其他具有附加采样电路的仿视网膜传感器.相对于传统相机,仿视网膜传感器具有高动态范围、高时域分辨率的特征.但是,以1和0 (或-1)形式存储的脉冲信号难以与传统视觉信号兼容.如果把仿视网膜采样看作场景光强的紧凑编码过程,那么视觉信息重建即为视觉信息的解码过程.因此,视觉信息重建可以成为一个连接仿视网膜传感器与传统视觉的桥梁.近年来,出现了一些利用异步脉冲信号进行图像重构的算法,通过对脉冲信号进行一系列处理,可以重构出高时域分辨率的图片.本文综述了仿视网膜传感器的采样原理及分类,总结了目前基于事件相机和脉冲相机的视觉信息重建方法.同时,探讨和展望了仿视网膜采样和视觉信息重建的机遇和挑战,以及可能的发展方向.
关键词 仿视网膜传感器; 仿视网膜采样机制; 神经形态相机; 图像重构; 光流估计; 深度估计; retina-like vision sensor; retina-like visual sampling; neuromorphic camera; image reconstruction; optical flow estimation; depth estimation;
Lin ZHU, Yonghong TIAN. Review of visual reconstruction methods of retina-like vision sensors. Sci Sin Inform, 2023, 53(3): 417-436, doi: 10.1360/SSI-2021-0397
基于雾扰动的图像分类对抗性攻击方法
高瑞均, 郭青, 余洪凯, 冯伟
中国科学: 信息科学, 2023, 53(2): 309-324
摘要 对抗性攻击是研究深度神经网络脆弱性的前沿技术.然而现有工作大多关注基于加性噪声扰动的攻击,无法代表现实世界中的扰动因素,阻碍了对抗性攻击的实际应用.雾作为现实世界中广泛存在的自然现象,对图像造成显著影响,不可避免地对深度模型构成潜在威胁.本文首次尝试从对抗性攻击的角度研究雾对深度神经网络的影响,并提出两种基于雾扰动的对抗性攻击方法:基于优化的雾扰动对抗性攻击OAdvHaze,在深度神经网络的指引下优化大气散射模型参数,以合成有雾图像,该方法具有较高的攻击成功率.预测式雾扰动对抗性攻击PAdvHaze,采用深度神经网络直接预测雾合成参数,提高了对抗性攻击的速度.本文在ILSVRC 2012和NIPS 2017两个公开数据集上验证了所提出方法的有效性, OAdvHaze和PAdvHaze取得了与最先进攻击方法相当的攻击成功率和可迁移性.该工作将有助于评估和提高深度神经网络对现实世界中潜在雾扰动的鲁棒性.
关键词 对抗性攻击; 图像分类; 雾合成; 深度学习; 图像处理; adversarial attack; image classification; haze synthesis; deep learning; image processing;
Ruijun GAO, Qing GUO, Hongkai YU, et al. Adversarial attack method against image classification based on haze perturbation. Sci Sin Inform, 2023, 53(2): 309-324, doi: 10.1360/SSI-2021-0362
三维时频变换视角的智能微观三维形貌重建方法
闫涛, 钱宇华, 李飞江, 闫泓任, 王婕婷, 梁吉业, 郑珂银, 吴鹏, 陈路, 胡治国, 乔志伟, 张江峰, 翟小鹏
中国科学: 信息科学, 2023, 53(2): 282-308
摘要 基于图像聚焦信息的三维形貌重建方法通常对微观物体的景深图像序列采用统一的聚焦评价标准,这类重建方法往往会忽视图像序列之间的联系,难以修正图像纹理稀疏或低对比度导致的连续帧深度误差.鉴于三维数据特有的多维度信息关联特性,本文将微观物体的不同景深图像序列视为三维数据,在重建过程中引入全部图像序列之间的关联关系,从三维数据时频变换的视角构造了以多视角分析、稳定性聚类、选择性融合逻辑耦合的微观三维形貌重建框架.首先从理论上分析三维数据相较于传统二维图像处理重建问题的优势,通过构造三维时频变换实现三维数据到不同尺度、区域和方向深度图像之间的映射;然后从增强深度图像特征的角度构建基于多模态纹理特征的局部稳定性聚类算法,实现同质性较好深度图像的自适应选择;最后提出选择性深度图像融合的策略,通过构造层筛过滤平衡树对滤除离散噪声后的多层深度图像进行融合,实现微观物体高精度的三维形貌重建.模拟数据与真实场景数据均验证了本文方法的有效性.三维时频变换视角的智能微观三维重建方法为基于图像聚焦信息的三维形貌重建提供一个崭新的研究视角,在精密制造、亚微米级工业测量等领域具有重要的理论意义和应用价值.
关键词 三维重建; 无监督学习; 稳定性聚类; 深度图像; 时频变换; 3D shape reconstruction; unsupervised learning; locally stable clustering; depth image; time-frequency transformation;
Tao YAN, Yuhua QIAN, Feijiang LI, et al. Intelligent microscopic 3D shape reconstruction method based on 3D time-frequency transformation. Sci Sin Inform, 2023, 53(2): 282-308, doi: 10.1360/SSI-2021-0386
面向多设备协同场景的实时视频流分析系统
杨铮, 董亮, 蔡新军
中国科学: 信息科学, 2023, 53(1): 46-65
摘要 实时视频流分析在智能监控、智能制造、自动驾驶等场景中具有重要价值,然而其存在计算负载高、带宽需求大和延迟要求严格等特点,难以通过传统的本地计算模式或者云计算模式进行部署.近年兴起的边缘计算范式,将复杂的计算任务从终端设备上传到物理临近的边缘服务器上,能够有效解决设备层面的部署问题.然而,例如无人机编队飞行、车队自动驾驶和多机器人协同等不断涌现的多设备协同场景,新增了系统层面的综合性能要求,包括智能分析的实时准确率、设备之间的性能一致性和系统容纳的设备数量上限.当前的边缘计算范式对多设备协同场景的优化尚显不足,未能有效解决设备之间对上传带宽和服务器算力的竞争问题,所以难以满足这类场景的要求.本文设计了MASSIVE系统,能够在多设备协同场景中,全面提升实时视频分析的综合性能.首先, MASSIVE系统提出了适合多设备协同场景中度量视频流分析系统综合性能的评价体系.其次, MASSIVE系统设计了帕累托改进调度器来计算帕累托最优的系统调度策略,使得系统在3个维度上同时取得了相比已有系统更好的性能表现.最后, MASSIVE设计了虚拟流量整形器来保证各个设备在无线网络中按照调度策略上传视频流数据.实验结果表明, MASSIVE在多种典型的视频分析任务中,相比于当前的代表性系统,至少达到了122.7%的实时准确率、1.8倍的系统容量和更好的系统一致性,并达到了帕累托最优.
关键词 实时视频流分析; 边缘计算; 多设备协同; 多目标优化; 帕累托最优; real-time video analysis; edge computing; multi-agent cooperation; multi-objective optimization; Pareto optimal state;
Zheng YANG, Liang DONG, Xinjun CAI. Toward cooperative multi-agent video streaming perception. Sci Sin Inform, 2023, 53(1): 46-65, doi: 10.1360/SSI-2021-0179
基于正交回归和特征加权的脑电情感特征选择方法
徐雪远, 刘建红, 李子遇, 翟广涛, 邬霞
中国科学: 信息科学, 2023, 53(1): 33-45
摘要 颅内容积传导效应导致大量脑电特征之间具有高度相关性,而这些高度相关的脑电特征无法为情感识别提供额外的有用信息,并且会降低基于脑电信号的情感识别效率.为了去除冗余信息和挑选有判别力的脑电特征,本文提出了一种基于正交回归和特征加权的脑电情感特征选择方法.与传统特征选择方法相比,该方法利用正交回归在脑电特征映射空间中保留更多的判别信息,更加适合于非线性和非平稳脑电信号的分析处理.为了验证所提出方法的性能,我们采集了由视频诱发的多通道脑电情感数据,并将所提出方法与4种常用的脑电特征选择方法进行了比较.实验结果证明了本文所提出方法能有效降低脑电特征集内冗余信息,并挑选出具有判别力的脑电特征子集.此外,通过分析由该方法所挑选的脑电特征类型,我们发现中心频率特征是最具判别力的脑电情感特征.该发现将为未来脑电情感特征提取研究提供新的思路.
关键词 脑电; 特征选择; 情感识别; 正交回归; 特征加权; electroencephalogram; feature selection; emotion recognition; orthogonal regression; feature weighting;
Xueyuan XU, Jianhong LIU, Ziyu LI, et al. EEG emotional feature selection method based on orthogonal regression and feature weighting. Sci Sin Inform, 2023, 53(1): 33-45, doi: 10.1360/SSI-2021-0276
多模态认知计算
李学龙
中国科学: 信息科学, 2023, 53(1): 1-32
摘要 人类利用视觉、听觉等多种感官理解周围环境,通过整合多种感知模态,形成对事件的整体认识.为使机器更好地模仿人类的认知能力,多模态认知计算模拟人类的“联觉”(synaesthesia),探索图像、视频、文本、语音等多模态输入的高效感知与综合理解手段,是人工智能领域的重要研究内容,也是实现“通用人工智能”的关键之一.近年来,随着多模态时空数据的海量爆发和计算能力的快速提升,国内外学者提出了大量方法,以应对日益增长的多样化需求.然而,当前的多模态认知计算仍局限于人类表观能力的模仿,缺乏认知层面的理论依据.本文从信息论角度出发,建立了认知过程的信息传递模型,结合信容(information capacity),提出了多模态认知计算能够提高机器的信息提取能力这一观点,从理论上对多模态认知计算各项任务进行了统一.进而,根据机器对多模态信息的认知模式,从多模态关联、跨模态生成和多模态协同这3个方面对现有方法进行了梳理与总结,系统地分析了其中的关键问题与解决方案.最后,结合当前阶段人工智能的发展特点,重点思考多模态认知计算领域面临的难点与挑战,并对未来发展趋势进行了深入分析与展望.
关键词 人工智能; 多模态; 认知计算; 联觉; 信容; artificial intelligence; multi-modal; cognitive computing; synaesthesia; information capacity;
Xuelong LI. Multi-modal cognitive computing. Sci Sin Inform, 2023, 53(1): 1-32, doi: 10.1360/SSI-2022-0226
附加偏见预测器辅助的均衡化场景图生成
王文彬, 王瑞平, 陈熙霖
中国科学: 信息科学, 2022, 52(11): 2075-2092
摘要 场景图是以场景中的物体为结点、以物体之间的关系为边构成的图结构,在视觉与语言交互理解和推理相关任务中具有广泛的应用前景.近年来,场景图自动生成逐渐受到关注,但生成结果中对于关系的描述受到长尾分布带来的偏见的影响,偏向于样本量较大的头部关系.然而头部关系往往过于空泛,描述不够准确,容易造成误解.由于这种关系价值不高,生成的场景图近似于退化为场景中物体信息的堆叠,不利于其他应用在图结构上进行结构化推理.为了使场景图生成器在这种不均衡的数据条件下,能够更均衡地学习,给出更加多样化的特别是尾部的更准确的关系,本文提出一种附加偏见预测器(additional biased predictor, ABP)辅助的均衡化学习方法.该方法利用一条有偏见的关系预测分支,令场景图生成器抑制自身对头部关系的偏好,并更加注重尾部关系的学习.场景图生成器需要为指定的一对物体预测关系,这是一种实例级的关系预测,与之相比,有偏分支以更简洁的方式预测出图像中的关系信息,即不指定任何一对物体,直接预测出图像中存在的关系,这是一种区域级的关系预测.为此,本文利用已有的实例级的关系标注,设计算法自动构造区域级的关系标注,以此来训练该有偏分支,使其具有区域级关系预测的能力.在不同场景图生成器上应用ABP方法,并在多个公开数据集(Visual Genome, VRD和OpenImages等)上进行实验,结果表明, ABP方法具有通用性,应用ABP方法训练得到的场景图生成器能够预测出更加多样化的、更准确的关系,进而生成更有价值、更实用的场景图.
关键词 场景图生成; 长尾分布; 附加偏见预测器; 均衡化学习; 区域级关系; scene graph generation; long-tailed distribution; additional biased predictor; balanced learning; region-level relationship;
Wenbin WANG, Ruiping WANG, Xilin CHEN. Balanced scene graph generation assisted by an additional biased predictor. Sci Sin Inform, 2022, 52(11): 2075-2092, doi: 10.1360/SSI-2022-0105
基于全局结构差异与局部注意力的变化检测
梅杰, 程明明
中国科学: 信息科学, 2022, 52(11): 2058-2074
摘要 检测由自然灾害造成的不同变化,对于有效地指导人道主义援助和灾难响应行动来说至关重要.但是灾害发生的地区通常面积大、地面环境复杂,导致检测其变化具有较大的挑战性.现有的评估方法通常依靠人工来进行判别,不适用于多种灾害的检测.本文提出了一种新颖的变化检测模型(change transformer, CHTR),基于双时序遥感图像来同时进行建筑分割和多级变化检测两个任务.本文结合卷积神经网络擅长学习局部细节特征和Transformer可以建模长程依赖关系的优势,采用混合卷积神经网络和Transformer的架构作为编码器.考虑到自然灾害通常会对复杂环境中的建筑物造成不同程度的破坏,本文提出了一种全局差异模块,以捕获全局变化模式,提高对双时序图像之间变化的整体认识.进一步设计了一种局部门控注意力模块,以学习多级别变化之间的局部依赖性,增强对不同变化的判别能力.在目前最大的建筑物损毁评估数据集(xBD)上进行的大量实验表明,本文提出的方法在建筑分割和变化检测两个任务上都取得了更好的结果.
关键词 建筑物分割; 变化检测; 遥感图像; 全局和局部结构; Transformer; building segmentation; change detection; satellite imagery; global-local architecture; transformer;
Jie MEI, Ming-Ming CHENG. Damage assessment with global differences and local attention. Sci Sin Inform, 2022, 52(11): 2058-2074, doi: 10.1360/SSI-2021-0384
基于自判别循环生成对抗网络的人脸图像翻译
王清和, 曹兵, 朱鹏飞, 王楠楠, 胡清华, 高新波
中国科学: 信息科学, 2022, 52(8): 1447-1462
摘要 人脸跨域翻译是将人脸图像从一个图像域映射到另一个图像域的过程,常见的人脸图像翻译任务包括人脸照片–素描、人脸照片–线条画跨域翻译等,可以广泛应用于现实场景,如协助刑侦、电影制作、数字娱乐.但是成对的人脸图像数据有限,且不同域之间的颜色、纹理差异较大,导致人脸图像跨域翻译仍面临着巨大挑战.现有的方法通常会产生模糊、伪影、结构失真等问题,导致较差的视觉效果.为解决这一问题,我们提出了一个自判别循环生成对抗网络,其中,生成器部分采用编码器–解码器结构,生成器对应的判别器为翻译方向相反的编码器,通过自判别的形式,使编码器(即判别器)巧妙地融合了“真/假”语义判别能力与对像素改变的敏感性,从而增强了模型的稳健性和泛化能力.其次,我们提出了一个新颖的全向像素梯度损失函数,设计的卷积核计算了每个像素周围每个方向的梯度来提取图像的梯度信息,通过约束生成图像与对应真实图像的梯度信息保持一致,从而激励模型有效地学习像素间连续变化的模式,并且该损失函数可以灵活地应用于其他生成模型以提升性能.大量的实验表明本文提出的框架能够在公开的成对的人脸照片–素描数据集(CUFS, CUFSF)以及人脸照片–线条画数据集(APDrawing)上取得优异的结果.此外,通过泛化能力验证实验,我们进一步展示了模型在真实场景数据上的强泛化能力,以及自判别循环生成对抗网络结构在非成对人脸数据集上的出色性能.
关键词 人脸图像翻译; 自判别循环生成对抗网络; 梯度损失; 照片–素描; 照片–线条画; face image translation; self-discriminative cycle generative adversarial network; gradient loss; photo-sketch; photo-APDrawing;
Qinghe WANG, Bing CAO, Pengfei ZHU, et al. Self-discriminative cycle generative adversarial networks for face image translation. Sci Sin Inform, 2022, 52(8): 1447-1462, doi: 10.1360/SSI-2021-0321
基于精细化多模态关联的自然语言句子在视频中的时序定位方法
袁艺天, 王鑫, 朱文武
中国科学: 信息科学, 2022, 52(8): 1417-1446
摘要 通信技术和移动互联网的发展使多媒体数据逐渐渗透人们的生活,而视频作为其中一种最具表现力的内容表达方式,近年来受到了工业界和学术界的广泛关注.针对视频数据中背景信息较为冗余,所需分析浏览时间长的特点,本文介绍了自然语言句子在视频中的时序定位任务,即在视频中定位与给定自然语言句子语义相关的视频片段,这样人们可以通过提供明确简洁的文本描述在视频中迅速找寻所关注的特定内容,从而提高用户的视频浏览体验和搜索效率.传统方法往往以多模态匹配的框架来解决句子在视频中的时序定位问题,忽略了自然语言句子中的关键定位线索,更忽视了自然语言句子对于关联视频内部相关内容的重要指导作用,因而其时序定位准确率十分有限.为解决上述难题,本文提出了多模态共同注意力机制挖掘自然语言句子中与时序定位相关的重要语义细节,精细地构建句子中各单词和视频内容之间的语义关系.在此基础上,我们还提出了语义条件动态归一化机制,指导视频中与句子语义相关的局部视频内容紧密耦合,形成明确的视频片段边界,最后辅以细粒度的边界调整模块,进而获得更为精准和灵活的时序定位结果.在公开数据集上的实验验证了本文所提出的机制和方法的有效性.最后,本文还从引入视频中的音频信号、考虑弱监督环境下的时序定位问题,以及构建无偏见时序定位数据集这3个方面对自然语言句子在视频中的时序定位问题进行了未来研究方向的展望.
关键词 时序定位; 语义关联; 多模态共同注意力机制; 时序卷积网络; 语义条件动态归一化机制; temporal sentence grounding in videos; semantic correlation; multimodal co-attention mechanism; temporal convolutional network; semantic conditioned dynamic normalization;
Yitian YUAN, Xin WANG, Wenwu ZHU. Temporal sentence grounding in videos with fine-grained multimodal correlation. Sci Sin Inform, 2022, 52(8): 1417-1446, doi: 10.1360/SSI-2021-0138
混合曲线曲面的CG-LSPIA拟合算法
蒋旖旎, 蔺宏伟
中国科学: 信息科学, 2022, 52(7): 1251-1271
摘要 混合曲线曲面的拟合常应用于计算机辅助设计与制造中,但传统的数据拟合方法缺乏明显的几何意义.最小二乘渐进迭代逼近算法(progressive-iterative approximation for least square fitting, LSPIA)能通过迭代地调整控制点得到原始数据点的最小二乘拟合结果,具有明显的几何意义,但收敛速度较慢.为解决这个问题,本文提出一种基于共轭梯度法的最小二乘渐进迭代逼近算法(conjugate-gradient progressive-iterative approximation for least square fitting, CG-LSPIA).该算法首先计算共轭曲线曲面,再更新混合曲线曲面,在没有数值误差的情况下,迭代至多n步即可生成给定数据点的最小二乘拟合曲线曲面.此外,本文给出了CG-LSPIA算法收敛性证明.最后,以B样条曲线曲面为例,与LSPIA算法进行了比较,实验表明该算法有效,并且减少了达到相同拟合误差限所需的迭代次数与时间.
关键词 渐进迭代逼近; 最小二乘拟合; 共轭梯度法; 数据拟合; 几何设计; progressive-iterative approximation algorithm; least square fitting; conjugate-gradient method; data fitting; geometric design;
Yini JIANG, Hongwei LIN. Conjugate-gradient progressive-iterative approximation for least square fitting of curves and surfaces. Sci Sin Inform, 2022, 52(7): 1251-1271, doi: 10.1360/SSI-2020-0403
“千里阵云”的主观物象空间特征测量
律睿慜, 张陶洁, 梅莉琳
中国科学: 信息科学, 2022, 52(7): 1221-1250
摘要 书法笔画能够产生丰富的主观意象,中国传统绘画也有类似的审美现象.于是,在古代的书画论著中,有大量关于笔画观感的记载,往往是将笔画引出的各种丰富拟物化意象进行描述.目前由于书法通常被归入艺术学研究的范畴,书法理论研究中还极少引入数理建模和科学实验的方法,因此对于笔画的意象空间还鲜有采取测量及实证的科学方法,还未能对其建立数理模型.本文设计了两项实验,用以探索书法笔画的意象空间.在第一项实验中,引入实验美学中常用的审美测量方法,选取了书法家写的15个“一”字作为测试样品,并选用21种拟物化感知维度,设计了视觉模拟量表,招募了252名普通群众对它们进行意象感受评测实验.然后,对数据进行主成分分析,展现出笔画“一”的意象空间的特征:其一,它的前二维占据主导,主轴对应于书法理论中探讨最多的“质与妍”的风格倾向问题、副主轴对应于“真与草”的书风倾向问题;其二,它的第三、四维的分布情况也不可忽略,其具体的意义有待进一步解释;其三,不同形态的笔画分布于该空间的不同位置,不同的感知维度对应于从空间原点出发的不同方向.基于第一项实验,设计了可视化方案,直观展现该意向空间中占主导的前二维的结构特征.第二项实验让测试者对实验一中的15个笔画样品评价其两两之间的主观差异.该实验结果经多维缩放分析,与实验一的结果互为支撑.不仅验证了书法理论中有关书风和书体的观点,还为关于“笔法”的审美感知实证研究提供了一种可拓展的数理模型和实验框架.
关键词 书法; 笔法; 笔画; 意象; 实验美学; 主成分分析; 多维尺度分析; 数据可视化; calligraphy; brushstrokes; calligraphic stroke; synesthesia; empirical aesthetics; principle component analysis; multidimensional scaling; data visualization;
Ruimin LYU, Taojie ZHANG, Lilin MEI. Experimental framework to study the subjective materialized image space of horizontal calligraphy strokes. Sci Sin Inform, 2022, 52(7): 1221-1250, doi: 10.1360/SSI-2020-0344
工业缺陷检测深度学习方法综述
罗东亮, 蔡雨萱, 杨子豪, 章哲彦, 周瑜, 白翔
中国科学: 信息科学, 2022, 52(6): 1002-1039
摘要 基于深度学习的工业缺陷检测方法可以降低传统人工质检的成本,提升检测的准确性与效率,因而在智能制造中扮演重要角色,并逐渐成为计算机视觉领域新兴的研究热点之一.其被广泛地应用于无人质检、智能巡检、质量控制等各种生产与运维场景中.本综述旨在对工业缺陷检测的任务定义、难点、挑战、主流方法、公共数据集及评价指标等进行全面归纳,以帮助研究人员快速了解该领域.具体而言,本文首先介绍工业缺陷检测的背景与特点.接着,按照实际数据标注情况,划分出缺陷模式已知、缺陷模式未知与少量缺陷标注3种研究任务设置,并根据方法类型作进一步归纳与分析,探讨了各方法的性能优劣与适用场景,阐明了方法与实际应用需求的关联性.此外,本文还归纳了方法部署中的关键辅助技术,总结了现有方法在实际产业落地中存在的局限性.最后,本文对该领域未来的发展趋势和潜在研究方向进行了展望.
关键词 缺陷检测; 异常检测; 计算机视觉; 工业视觉; 深度学习; defect detection; anomaly detection; computer vision; industrial vision; deep learning;
Dongliang LUO, Yuxuan CAI, Zihao YANG, et al. Survey on industrial defect detection with deep learning. Sci Sin Inform, 2022, 52(6): 1002-1039, doi: 10.1360/SSI-2021-0336
基于生成对抗网络和域一致性的MRI运动伪影校正方法
曾宪华, 纪聪辉, 董倩
中国科学: 信息科学, 2022, 52(5): 822-836
摘要 在临床诊断中,磁共振成像(magnetic resonance imaging, MRI)运动伪影是一个常见的问题,运动伪影的存在会影响医生的诊断,虽然重新采集MRI可以避免这一问题,但这会提高医院和患者的经济成本和时间成本,因此,运动伪影的校正具备实用研究价值.现有的研究主要关注于空域的运动伪影校正或者K空间的运动伪影校正,缺乏对K空间和空域之间数据一致性的保持.为了解决这一问题,本文基于生成对抗网络提出了保持K空间和空域之间数据一致性的MRI运动伪影校正模型.该模型通过频域生成器对K空间数据进行初步校正,然后通过空域生成器对空域中的数据进行精细校正,在优化阶段则采用域间数据一致性损失来保持K空间和空域之间的数据一致性.在公开脑部MRI数据集ADNI, ABIDE, OASIS和Brain上的实验结果表明,本文提出的模型相较于其他方法分别在PSNR, SSIM以及RMSE上最高提升了3.4%, 3.07%和15.57%.
关键词 运动伪影校正; 生成对抗网络; 数据一致性; 深度学习; 医学图像; motion artifact correction; generative adversarial network; data consistency; deep learning; medical image;
一种基于点标注的弱监督目标检测方法
姚洁茹, 韩军伟, 张鼎文
中国科学: 信息科学, 2022, 52(3): 461-482
摘要 近年来,弱监督目标检测在计算机视觉和机器学习领域获得了广泛的关注.点标注是弱标注的形式之一,它依赖人工标注,为图像中的每一个物体赋予一个标注点.尽管在过去的几年中,出现了许多基于深度学习的弱监督目标检测算法,但当前基于点标注的弱监督目标检测的探索仍处于空白.考虑到点标注可以为弱监督目标检测提供丰富的、与感兴趣物体相关的位置、类别、数量等信息,本文提出了一个基于点标注的弱监督目标检测算法.该算法通过探索标注点与目标、类别间、实例间的依赖关系弥补弱监督学习中监督信息的不足,提高弱监督目标检测性能.在该算法中,本文提出了3个网络分支用以充分挖掘标注点信息,改善弱监督目标检测学习过程:空间图分支(spatial graph branch,SGB)利用点标注与目标空间上的局部相关性,探索标注点与标注点空间上下文间关系;多语义分支(multi-semantics branch, MSB)利用类别间在语义上的共现概率,构建语义拓扑结构,探索标签间的全局语义关系;实例计数分支(count-guided instance branch, CIB)利用不同实例间在空间上的局部无关性和特征差异,推断每个目标的伪监督信息,实现实例级监督.用点标注训练弱监督目标检测算法,在节省人工标注成本的同时提供更多丰富的监督信息,从本质上提高弱监督目标检测性能.在PASCAL VOC 2007和PASCAL VOC 2012数据集上的实验结果表明,本文算法与基准模型相比,在均值平均精度上分别提高了7.9%和10.2%,在定位准确度上分别提高了9.7%和11.7%.
关键词 弱监督学习; 目标检测; 点标注; 依赖关系; 关系推理; weakly supervised learning; object detection; point annotation; dependency relationship; relationship reasoning;
Jieru YAO, Junwei HAN, Dingwen ZHANG. A weakly supervised object detection approach using point annotation. Sci Sin Inform, 2022, 52(3): 461-482, doi: 10.1360/SSI-2021-0089
基于多尺度特征融合的人脸照片-素描合成
梁昌城, 王楠楠, 朱明瑞, 杨曦, 李洁, 高新波
中国科学: 信息科学, 2022, 52(2): 334-347
摘要 从真实的人脸照片合成面部素描及其逆过程具有广泛的用途,例如数字娱乐与协助刑事案件的侦查.但是,由于照片与素描在纹理上的显著差异,它们之间的互相转换仍是一个具有挑战性的问题.最近基于生成对抗网络的方法已在图像间转换问题,特别是照片到素描的转换方面展现出令人鼓舞的结果,但它们大多会在面部关键组件产生不同的形变或者模糊,使得合成图像的真实性受影响.为了应对这一挑战,我们提出了一种新颖的基于多尺度特征融合的人脸照片–素描合成算法,来提高合成图像的结构完整性与纹理逼真度.首先使用编码器提取输入图像的多尺度编码特征,然后将最底层编码特征经过空洞卷积模块后传入解码器进行解码.解码过程中将不同尺度的解码特征与对应尺度的编码特征在通道维度上拼接,从而获得多尺度编解码融合特征.最后在解码器的输出端将不同尺度的编解码融合特征进一步融合,并通过一层卷积层产生最终合成结果.通过这种同时将编码–解码过程中不同尺度的特征在通道维度进行拼接的方式,能够保持较好的图像结构以及纹理细节,生成逼真的面部素描/照片图像.我们在多个具有挑战性的数据集中验证了所提方法的有效性.定量和定性评估表明,本文模型在生成具有高视觉质量的人脸素描(或照片)方面优于其他最新技术.
关键词 人脸照片–素描合成; 图像翻译; 生成对抗网络; 多尺度特征融合; 空洞卷积; face photo sketch synthesis; image-to-image translation; generative adversarial network; multi-scale feature fusion; dilated convolution;
Changcheng LIANG, Nannan WANG, Mingrui ZHU, et al. Face photo-sketch synthesis based on multi-scale feature fusion. Sci Sin Inform, 2022, 52(2): 334-347, doi: 10.1360/SSI-2021-0085
基于田字格变换的自监督汉字字体生成
曾锦山, 陈琪, 王明文
中国科学: 信息科学, 2022, 52(1): 145-159
摘要 近年来,汉字自动生成因其在艺术字体生成、个性化字体设计,以及书法作品生成等问题中的广泛应用而引起了大量关注.当前主流的汉字字体自动生成方法主要基于非配对数据和深度生成模型如生成对抗网络等.然而,这些主流的深度汉字字体生成方法通常忽略了汉字本身的结构信息,导致在提取特征时缺乏相应指导,且在训练过程中容易出现模式坍塌现象,从而在生成汉字质量方面亟待进一步提高.针对该问题,本文受汉字田字格书写的启发,提出一种基于田字格变换的自监督方法来指导网络模型提取更高质量的特征,进而提升汉字生成效果,需要特别指出的是所设计的田字格几何变换无需改变现有模型网络且不增加任何人工成本,因此潜在可嵌入许多已有深度汉字字体生成模型.所提自监督学习方法的有效性在一系列实验中得到验证.实验结果表明,在嵌入所提的自监督学习任务后,当前流行的基于CycleGAN的深度汉字生成模型在生成效果和训练稳定性等方面都有较大提升,并且模式坍塌现象得到改善.与现有其他深度汉字字体生成方法相比,所提基于田字格几何变换的自监督方法提高了生成汉字质量,并且在生成汉字内容准确率、FID值、L1损失和IOU这4个评价指标上均有一定提升.
关键词 汉字字体生成; 自监督学习; 生成对抗网络; 深度学习; 田字格变换; Chinese font generation; self-supervised learning; generative adversarial network; deep learning; square-block transformation;
Jinshan ZENG, Qi CHEN, Mingwen WANG. Self-supervised Chinese font generation based on square-block transformation. Sci Sin Inform, 2022, 52(1): 145-159, doi: 10.1360/SSI-2021-0056
BeautyGAN+: 基于全新PMT数据集的美妆转移混合监督学习算法
白玉, 颜波, 谭伟敏
中国科学: 信息科学, 2022, 52(1): 129-144
摘要 作为改变人脸图像外观的重要方式之一,美妆转移任务在近年来获得了越来越多的关注.美妆转移网络可以将任意参考图像的妆容转移到任意人脸图像上,在节约时间和空间成本的同时帮助人们找到适合自己的妆容,并获得妆容得到美化的图像.美妆转移网络BeautyGAN成功展示了无监督方法妆容迁移的较好效果,然而此类无监督学习策略缺乏可以提供良好妆容细节的监督标签,导致实验结果中出现了背景变色、边缘不自然、容易受光照影响等问题.用素颜–美妆配对标签进一步约束BeautyGAN模型训练可以解决上述问题,但当前学术界缺乏此类精细标注的配对数据集.针对以上问题,本文提出了BeautyGAN+方法,贡献了一个用户详细标注的素颜–美妆配对数据集,即PMT数据集,在BeautyGAN的无监督基础上加入有监督损失进行训练,最终通过实验发现结合无监督(迁移性好)和有监督(细节修复好)的训练策略可以提供更好的迁移效果.实验结果中的图像结果和用户调研(14位)均表明本文方法显著提升了美妆转移效果,解决了美妆转移工作长期缺乏配对数据集及转移结果存在多种偏差的难题.
关键词 深度学习; 美妆转移技术; 生成式对抗网络; 有监督学习; 美妆数据集; deep learning; makeup transfer; generative adversarial network(GAN); supervised learning; makeup dataset;
Yu BAI, Bo YAN, Weimin TAN. BeautyGAN+: mixed-supervised makeup transfer learning algorithm based on new PMT dataset. Sci Sin Inform, 2022, 52(1): 129-144, doi: 10.1360/SSI-2021-0093
面向实时视频流分析的边缘计算技术
杨铮, 贺骁武, 吴家行, 王需, 赵毅
中国科学: 信息科学, 2022, 52(1): 1-53
摘要 实时视频流分析在智能监控、智慧城市、自动驾驶等场景中具有重要价值.然而计算负载高、带宽需求大、延迟要求严等特点使得实时视频流分析难以通过传统的云计算范式进行部署.近年来兴起的边缘计算范式,将计算任务从云端下沉到位于网络边缘的终端设备和边缘服务器上,能够有效解决上述问题.因此,许多针对实时视频流分析的边缘计算研究逐渐涌现.本文首先介绍了智能视频流分析和边缘计算的背景知识,以及二者结合的典型应用场景;接着提出了现有系统所关注的衡量指标和面临的挑战;然后从终端设备层次、协作层次、边缘/云层次对本领域的关键技术分别进行了详细的介绍,重点涉及了模型压缩和选择、本地缓存、视频帧过滤、任务卸载、网络协议、隐私保护、查询优化、推理加速和边缘缓存技术.基于对上述各项核心技术的有机整合,本文提出了基于边缘计算的视频大数据智能分析平台Argus,从数据采集、推理分析,到数据挖掘、日志管理,对实时视频流分析全生命周期提供支持,并成功应用到智慧油田中.最后,本文讨论了本领域尚待解决的问题和未来研究方向,希望为今后的研究工作提供有益参考.
关键词 边缘计算; 视频分析; 模型压缩; 任务卸载; 查询优化; edge computing; video analytics; model compression; task offloading; query optimization;
Zheng YANG, Xiaowu HE, Jiahang WU, et al. Edge computing technologies for streaming video analytics. Sci Sin Inform, 2022, 52(1): 1-53, doi: 10.1360/SSI-2021-0133