计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于对齐遗忘机制的信息不平衡图像翻译

Aligned forgetting mechanism for imbalanced image-to-image translation

舒叶芷, 夏萌霏, 李强, 张国鑫, 万鹏飞, 郑文, 刘永进
中国科学: 信息科学, 2023, 53(8): 1593-1607
摘要 作为图像处理领域的热点技术,图像翻译可将图像由源域迁移至目标域,实现图像风格的转换.然而,在诸如真实人脸与卡通人脸、街道实景与街景分割图等图像翻译应用中,源域与目标域间往往存在巨大差距,域间的冗余信息和不一致特征会增加转换的难度,降低转换质量.本文提出对齐遗忘机制并设计多个损失函数,通过构建简易高效的信息不平衡图像翻译算法框架,实现了域编码与域解码.具体地,在将源域和目标域信息对齐映射至共享语义空间后,本文在对齐遗忘机制中使用互信息(mutual information)删除域间不一致特征,同时保留相同特征.实验结果表明,本文方法可有效剔除冗余信息,提高域间信息一致性.此外,本文在多个代表性信息不平衡图像数据集上验证了新算法较已有算法的优越性.
关键词 图像处理; 图像翻译; 生成对抗网络; 不平衡信息; 注意力机制; image processing; image-to-image translation; generative adversarial networks; imbalanced information; attention mechanism;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

面向事件相机的轻量化脉冲识别网络

Towards event camera signal recognition using a lightweight spiking neural network

刘昭辛, 吴金建, 石光明, 赵庆行
中国科学: 信息科学, 2023, 53(7): 1333-1347
摘要 事件相机是一种用脉冲表达信息的仿生成像传感器,具有高时域分辨率、高动态范围、低功耗和高速率等优势.由于事件驱动特性,传统人工神经网络(artificial neural networks, ANN)无法直接处理事件相机输出的脉冲信号.而脉冲神经网络(spiking neural network, SNN)作为一种神经形态计算方法,具有高时域分辨率及事件驱动的特性,这与事件相机高度契合.但是,深层脉冲神经网络需要消耗大量存储空间以及神经元计算资源,严重限制了其在边缘计算场景的部署.本文基于特征维度映射原理,提出面向嵌入式系统的轻量化脉冲神经网络,降低存储需求、提高运行效率并提高网络性能.首先,通过分析网络参数量与网络拟合功能间的关系,明确了约束脉冲神经网络能力的参数瓶颈问题.随后,基于低维特征提取–融合策略提出一种通用轻量化特征提取结构SpikeFire,该模块在保证感受野和特征维度等基本性质不变的前提下大幅减少了网络参数.此外,模拟脑神经元复杂连接特性,模块中采用跳层连接,这既增加多尺度信息提取又有助于深层次网络的优化.最后,将本文所提轻量化网络部署在嵌入式硬件中,开发出了事件驱动的成像识别一体化系统.实验表明,无论是在公开数据集还是自建真实场景和极端成像场景中,所提方法在保证识别性能的前提下大幅减少了参数量并提高运行速度.
关键词 脉冲神经网络; 事件相机; 轻量化网络; 特征融合; 嵌入式硬件; spiking neural network; event camera; lightweight network; feature fusion; embedded hardware;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于经验增强的自主场景探索

Autonomous scene exploration using experience enhancement

夏熙, 吴关, 刘利刚
中国科学: 信息科学, 2023, 53(7): 1314-1332
摘要 自主地探索未知室内场景并同时构建地图,是机器人完成许多应用任务的必备前提.基于深度强化学习的方法通过与环境交互的方式,让机器人学会利用室内场景的结构规律,因而有希望获得更加高效和鲁棒的探索策略.现有的方法通常直接控制机器人的运动,导致较长的决策序列,并需要大量的训练样本;或者间接指定长期目标点,却难以保证其可以到达,因而也阻碍了训练的进行.针对这些问题,提出了一种基于经验增强的自主场景探索方法以加速策略的训练并生成更加高效的探索目标.首先引入off-policy的强化学习算法和经验回放缓存机制;然后利用全局探索策略指定长期目标点;接着利用增量启发式寻路算法生成前往目标点的无碰撞路径;在此基础上对每一条探索路径分段并评估子路径的奖励,从而改进已有经验;最后利用时序差分误差对经验进行过滤,并加入经验回放缓存中.该方法能从原本失败的经验中推导出正确的行为,并生成易于到达的长期目标点.实验结果表明,本文方法不仅能明显加速全局探索策略的训练,还能提升训练后系统的整体性能.
关键词 自主场景探索; 深度强化学习; 经验增强; 路径规划; autonomous scene exploration; deep reinforcement learning; experience enhancement; path planning;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

局部关系泛化表征的小样本增量学习

Generalized representation of local relationships for few-shot incremental learning

赵一凡, 李甲, 田永鸿
中国科学: 信息科学, 2023, 53(6): 1132-1146
摘要 小样本学习作为计算机视觉的新兴研究热点,旨在通过少量的已知样本实现对全新概念的快速识别和理解.现有的小样本学习技术只针对给定的新类别物体进行分类和识别,忽略了旧有基础类别的表示和区分.针对小样本增量学习问题中的类间可区分性差、增量类别难泛化两大研究难点,本文引入局部关系学习的思想,提出局部关系泛化表征的模型学习方法.为确保增量过程中的类别可区分性,本文首先使用局部空间关联约束增量表征能力,在此基础上,使用特征重映射方法将查询向量与支撑集映射在同一度量空间,有效确保了微小差异的可区分性.同时,为缓解增量过程中样本不足导致的归纳偏置问题,本文提出空间泛化式原型生成算法,利用分布特性快速生成虚拟原型,促进样本的有效表征.在此基础上,本文利用元学习训练方法,提出了局部泛化联合的增量学习框架,通过联合基础类别的局部表征和增量类别的快速泛化约束,有效缓解了灾难性遗忘和表征不足的困难,实验证明本方法在经典小样本增量任务中取得了当前最好的性能表现.
关键词 小样本学习; 增量学习; 局部关系; 泛化表征; 元学习; few-shot learning; incremental learning; local relationship; generalized representation; meta learning;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于采样和加权损失函数的模型窃取攻击方法

Model stealing attack based on sampling and weighting

王熠旭, 李杰, 刘弘, 王言, 徐明亮, 吴永坚, 纪荣嵘
中国科学: 信息科学, 2023, 53(5): 931-945
摘要 模型窃取攻击旨在获得一个和目标受害模型功能相似的替代模型.现有的方法主要采用数据生成或数据选择方法和交叉熵损失函数去获得一个较好的攻击效果.据此,本文着重研究了攻击过程中这两个极为重要的模块:数据采样和损失函数.同时,本文提出了一个新颖的模型窃取攻击方法S&W,其包含了一种新的采样策略和一个精心设计的加权损失函数.首先,新的采样策略更加关注于从受害者模型中获得更多信息的重要样本.与此同时,本文通过引入k-Center算法达到选择样本的多样性的目的.其次,受到经典Focal损失函数的启发,本文设计了一种新的加权损失函数.该损失函数主要关注于受害者模型和替代模型对于相同输入所给出的输出之间的差异,从而促使替代模型模拟受害者模型.在4个常用的数据集上,我们通过实验证明了本文提出的方法的有效性.相比于之前最好的方法,本文方法最高有5.03%的性能提升.
关键词 计算机视觉; 模型窃取攻击; 对抗攻击; 主动学习; 知识蒸馏; computer vision; model stealing attack; adversarial attack; active learning; knowledge distillation;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

多尺度稳定场GAN的图像修复模型

Image inpainting based on multi-scale stable-field GAN

叶学义, 曾懋胜, 孙伟杰, 王凌宇, 赵知劲
中国科学: 信息科学, 2023, 53(4): 682-698
摘要 近年来生成对抗网络(generative adversarial network, GAN)已经展示了它在图像修复任务中修复大面积缺失区域并生成合理语义结果的潜力,但现有方法经常忽略缺失区域的语义一致性和特征连续性,并对不同尺度特征的感知能力不足,因此提出一种基于多尺度稳定场GAN的图像修复模型.该模型的生成单元汲取了U-Net的特点,将稳定场算子嵌入到跳跃连接中以填充编码器特征图中的缺失区域,保持了缺失区域的语义一致性和特征连续性;然后通过多尺度融合计算逐步加强经稳定场算子填充缺失区域的特征图的传递,使得跳跃连接传递的信息不再来自单一的特征图,让模型能够感知高层特征的语义信息.在人脸和自然场景等数据集上的实验结果表明,该模型优于其他的经典图像修复方法.
关键词 图像修复; 生成对抗网络(GAN); 稳定场; 多尺度融合; 深度学习; image inpainting; generative adversarial network(GAN); stable field; multi-scale fusion; deep learning;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于Transformer的高光谱图像超分辨率重建

Deep hyperspectral image super-resolution with transformers

王龙光, 郭裕兰, 林再平, 王应谦, 安玮
中国科学: 信息科学, 2023, 53(3): 500-516
摘要 高光谱图像超分辨率重建旨在融合高分辨率多光谱图像与低分辨率高光谱图像以得到高分辨率高光谱图像.如何实现二者中空域信息和谱域信息的有效融合是高光谱图像超分辨率重建的关键.受高光谱图像的端元表示模型启发,本文在神经网络中显式地对端元进行建模,并利用其作为纽带实现空域信息和谱域信息的融合.具体来说,本文提出了一个基于Transformer的高光谱图像超分辨率重建网络,利用Transformer结构从低分辨率高光谱图像提取端元信息,并将端元信息融合到高分辨率多光谱图像中,进而完成高分辨率高光谱图像的重建.实验结果表明, Transformer结构的全局感受野增强了网络的长程建模能力,提高了端元提取精度,进而提升了超分辨率重建性能.与已有方法相比,本文所提方法在室内/遥感高光谱数据集上均取得了更优的性能.
关键词 高光谱图像; 图像超分辨率重建; 图像融合; Transformer网络; 端元特征; hyperspectral image; image super-resolution; image fusion; transformer network; endmember feature;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于姿态与双流神经架构搜索的行人动作识别

Pose-guided pedestrian action recognition with two-stream neural architecture searching

龚申健, 张姗姗, 郭煜, 杨健, 陶冶
中国科学: 信息科学, 2023, 53(3): 485-499
摘要 行人是城市交通场景下的弱势群体,为了避免碰撞,有必要准确地预测他们的动作行为.为此,本文首次提出城市交通场景中行人动作识别这一问题并提出了有针对性的解决方案.首先,我们创建了一个新的行人动作识别数据集(PARD)作为实验的数据基础,并给出了一个有效的基准模型MFVGG,该模型能够以较低的计算成本达到与之前先进人体动作识别方法相当的性能.为了更针对性地解决问题,本文在两个方面对基准模型进行了改进.首先,利用姿态先验来丰富特征表示,构造双流网络融合双分支编码特征.其次,本文引入双流神经架构搜索得到对于这项任务的最优层级网络架构.实验表明,提出的方法的性能超过了一般人体动作识别相关的先进算法.数据集以及代码公布在https://github.com/Yankeegsj/PARD.
关键词 深度学习; 计算机视觉; 动作识别; 网络架构搜索; 姿态估计; deep learning; computer vision; action recognition; neural architecture search; pose estimation;

计算机 图形图像 评述 Website Google Scholar SCOPUS引次: 0

仿视网膜传感器视觉重建算法研究综述

Review of visual reconstruction methods of retina-like vision sensors

朱林, 田永鸿
中国科学: 信息科学, 2023, 53(3): 417-436
摘要 视网膜启发的传感器(又称仿视网膜传感器)是近年来新兴的视觉传感器,其通过对场景光强信息进行连续采样,输出高时间分辨率的异步脉冲信号.本文将围绕基于仿视网膜传感器的采样原理进行总结,包括空间对比度传感器、时间对比度传感器、时域积分传感器,以及其他具有附加采样电路的仿视网膜传感器.相对于传统相机,仿视网膜传感器具有高动态范围、高时域分辨率的特征.但是,以1和0 (或-1)形式存储的脉冲信号难以与传统视觉信号兼容.如果把仿视网膜采样看作场景光强的紧凑编码过程,那么视觉信息重建即为视觉信息的解码过程.因此,视觉信息重建可以成为一个连接仿视网膜传感器与传统视觉的桥梁.近年来,出现了一些利用异步脉冲信号进行图像重构的算法,通过对脉冲信号进行一系列处理,可以重构出高时域分辨率的图片.本文综述了仿视网膜传感器的采样原理及分类,总结了目前基于事件相机和脉冲相机的视觉信息重建方法.同时,探讨和展望了仿视网膜采样和视觉信息重建的机遇和挑战,以及可能的发展方向.
关键词 仿视网膜传感器; 仿视网膜采样机制; 神经形态相机; 图像重构; 光流估计; 深度估计; retina-like vision sensor; retina-like visual sampling; neuromorphic camera; image reconstruction; optical flow estimation; depth estimation;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于雾扰动的图像分类对抗性攻击方法

Adversarial attack method against image classification based on haze perturbation

高瑞均, 郭青, 余洪凯, 冯伟
中国科学: 信息科学, 2023, 53(2): 309-324
摘要 对抗性攻击是研究深度神经网络脆弱性的前沿技术.然而现有工作大多关注基于加性噪声扰动的攻击,无法代表现实世界中的扰动因素,阻碍了对抗性攻击的实际应用.雾作为现实世界中广泛存在的自然现象,对图像造成显著影响,不可避免地对深度模型构成潜在威胁.本文首次尝试从对抗性攻击的角度研究雾对深度神经网络的影响,并提出两种基于雾扰动的对抗性攻击方法:基于优化的雾扰动对抗性攻击OAdvHaze,在深度神经网络的指引下优化大气散射模型参数,以合成有雾图像,该方法具有较高的攻击成功率.预测式雾扰动对抗性攻击PAdvHaze,采用深度神经网络直接预测雾合成参数,提高了对抗性攻击的速度.本文在ILSVRC 2012和NIPS 2017两个公开数据集上验证了所提出方法的有效性, OAdvHaze和PAdvHaze取得了与最先进攻击方法相当的攻击成功率和可迁移性.该工作将有助于评估和提高深度神经网络对现实世界中潜在雾扰动的鲁棒性.
关键词 对抗性攻击; 图像分类; 雾合成; 深度学习; 图像处理; adversarial attack; image classification; haze synthesis; deep learning; image processing;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 1

三维时频变换视角的智能微观三维形貌重建方法

Intelligent microscopic 3D shape reconstruction method based on 3D time-frequency transformation

闫涛, 钱宇华, 李飞江, 闫泓任, 王婕婷, 梁吉业, 郑珂银, 吴鹏, 陈路, 胡治国, 乔志伟, 张江峰, 翟小鹏
中国科学: 信息科学, 2023, 53(2): 282-308
摘要 基于图像聚焦信息的三维形貌重建方法通常对微观物体的景深图像序列采用统一的聚焦评价标准,这类重建方法往往会忽视图像序列之间的联系,难以修正图像纹理稀疏或低对比度导致的连续帧深度误差.鉴于三维数据特有的多维度信息关联特性,本文将微观物体的不同景深图像序列视为三维数据,在重建过程中引入全部图像序列之间的关联关系,从三维数据时频变换的视角构造了以多视角分析、稳定性聚类、选择性融合逻辑耦合的微观三维形貌重建框架.首先从理论上分析三维数据相较于传统二维图像处理重建问题的优势,通过构造三维时频变换实现三维数据到不同尺度、区域和方向深度图像之间的映射;然后从增强深度图像特征的角度构建基于多模态纹理特征的局部稳定性聚类算法,实现同质性较好深度图像的自适应选择;最后提出选择性深度图像融合的策略,通过构造层筛过滤平衡树对滤除离散噪声后的多层深度图像进行融合,实现微观物体高精度的三维形貌重建.模拟数据与真实场景数据均验证了本文方法的有效性.三维时频变换视角的智能微观三维重建方法为基于图像聚焦信息的三维形貌重建提供一个崭新的研究视角,在精密制造、亚微米级工业测量等领域具有重要的理论意义和应用价值.
关键词 三维重建; 无监督学习; 稳定性聚类; 深度图像; 时频变换; 3D shape reconstruction; unsupervised learning; locally stable clustering; depth image; time-frequency transformation;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

面向多设备协同场景的实时视频流分析系统

Toward cooperative multi-agent video streaming perception

杨铮, 董亮, 蔡新军
中国科学: 信息科学, 2023, 53(1): 46-65
摘要 实时视频流分析在智能监控、智能制造、自动驾驶等场景中具有重要价值,然而其存在计算负载高、带宽需求大和延迟要求严格等特点,难以通过传统的本地计算模式或者云计算模式进行部署.近年兴起的边缘计算范式,将复杂的计算任务从终端设备上传到物理临近的边缘服务器上,能够有效解决设备层面的部署问题.然而,例如无人机编队飞行、车队自动驾驶和多机器人协同等不断涌现的多设备协同场景,新增了系统层面的综合性能要求,包括智能分析的实时准确率、设备之间的性能一致性和系统容纳的设备数量上限.当前的边缘计算范式对多设备协同场景的优化尚显不足,未能有效解决设备之间对上传带宽和服务器算力的竞争问题,所以难以满足这类场景的要求.本文设计了MASSIVE系统,能够在多设备协同场景中,全面提升实时视频分析的综合性能.首先, MASSIVE系统提出了适合多设备协同场景中度量视频流分析系统综合性能的评价体系.其次, MASSIVE系统设计了帕累托改进调度器来计算帕累托最优的系统调度策略,使得系统在3个维度上同时取得了相比已有系统更好的性能表现.最后, MASSIVE设计了虚拟流量整形器来保证各个设备在无线网络中按照调度策略上传视频流数据.实验结果表明, MASSIVE在多种典型的视频分析任务中,相比于当前的代表性系统,至少达到了122.7%的实时准确率、1.8倍的系统容量和更好的系统一致性,并达到了帕累托最优.
关键词 实时视频流分析; 边缘计算; 多设备协同; 多目标优化; 帕累托最优; real-time video analysis; edge computing; multi-agent cooperation; multi-objective optimization; Pareto optimal state;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于正交回归和特征加权的脑电情感特征选择方法

EEG emotional feature selection method based on orthogonal regression and feature weighting

徐雪远, 刘建红, 李子遇, 翟广涛, 邬霞
中国科学: 信息科学, 2023, 53(1): 33-45
摘要 颅内容积传导效应导致大量脑电特征之间具有高度相关性,而这些高度相关的脑电特征无法为情感识别提供额外的有用信息,并且会降低基于脑电信号的情感识别效率.为了去除冗余信息和挑选有判别力的脑电特征,本文提出了一种基于正交回归和特征加权的脑电情感特征选择方法.与传统特征选择方法相比,该方法利用正交回归在脑电特征映射空间中保留更多的判别信息,更加适合于非线性和非平稳脑电信号的分析处理.为了验证所提出方法的性能,我们采集了由视频诱发的多通道脑电情感数据,并将所提出方法与4种常用的脑电特征选择方法进行了比较.实验结果证明了本文所提出方法能有效降低脑电特征集内冗余信息,并挑选出具有判别力的脑电特征子集.此外,通过分析由该方法所挑选的脑电特征类型,我们发现中心频率特征是最具判别力的脑电情感特征.该发现将为未来脑电情感特征提取研究提供新的思路.
关键词 脑电; 特征选择; 情感识别; 正交回归; 特征加权; electroencephalogram; feature selection; emotion recognition; orthogonal regression; feature weighting;

计算机 图形图像 评述 Website Google Scholar SCOPUS引次: 1

多模态认知计算

Multi-modal cognitive computing

李学龙
中国科学: 信息科学, 2023, 53(1): 1-32
摘要 人类利用视觉、听觉等多种感官理解周围环境,通过整合多种感知模态,形成对事件的整体认识.为使机器更好地模仿人类的认知能力,多模态认知计算模拟人类的“联觉”(synaesthesia),探索图像、视频、文本、语音等多模态输入的高效感知与综合理解手段,是人工智能领域的重要研究内容,也是实现“通用人工智能”的关键之一.近年来,随着多模态时空数据的海量爆发和计算能力的快速提升,国内外学者提出了大量方法,以应对日益增长的多样化需求.然而,当前的多模态认知计算仍局限于人类表观能力的模仿,缺乏认知层面的理论依据.本文从信息论角度出发,建立了认知过程的信息传递模型,结合信容(information capacity),提出了多模态认知计算能够提高机器的信息提取能力这一观点,从理论上对多模态认知计算各项任务进行了统一.进而,根据机器对多模态信息的认知模式,从多模态关联、跨模态生成和多模态协同这3个方面对现有方法进行了梳理与总结,系统地分析了其中的关键问题与解决方案.最后,结合当前阶段人工智能的发展特点,重点思考多模态认知计算领域面临的难点与挑战,并对未来发展趋势进行了深入分析与展望.
关键词 人工智能; 多模态; 认知计算; 联觉; 信容; artificial intelligence; multi-modal; cognitive computing; synaesthesia; information capacity;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

附加偏见预测器辅助的均衡化场景图生成

Balanced scene graph generation assisted by an additional biased predictor

王文彬, 王瑞平, 陈熙霖
中国科学: 信息科学, 2022, 52(11): 2075-2092
摘要 场景图是以场景中的物体为结点、以物体之间的关系为边构成的图结构,在视觉与语言交互理解和推理相关任务中具有广泛的应用前景.近年来,场景图自动生成逐渐受到关注,但生成结果中对于关系的描述受到长尾分布带来的偏见的影响,偏向于样本量较大的头部关系.然而头部关系往往过于空泛,描述不够准确,容易造成误解.由于这种关系价值不高,生成的场景图近似于退化为场景中物体信息的堆叠,不利于其他应用在图结构上进行结构化推理.为了使场景图生成器在这种不均衡的数据条件下,能够更均衡地学习,给出更加多样化的特别是尾部的更准确的关系,本文提出一种附加偏见预测器(additional biased predictor, ABP)辅助的均衡化学习方法.该方法利用一条有偏见的关系预测分支,令场景图生成器抑制自身对头部关系的偏好,并更加注重尾部关系的学习.场景图生成器需要为指定的一对物体预测关系,这是一种实例级的关系预测,与之相比,有偏分支以更简洁的方式预测出图像中的关系信息,即不指定任何一对物体,直接预测出图像中存在的关系,这是一种区域级的关系预测.为此,本文利用已有的实例级的关系标注,设计算法自动构造区域级的关系标注,以此来训练该有偏分支,使其具有区域级关系预测的能力.在不同场景图生成器上应用ABP方法,并在多个公开数据集(Visual Genome, VRD和OpenImages等)上进行实验,结果表明, ABP方法具有通用性,应用ABP方法训练得到的场景图生成器能够预测出更加多样化的、更准确的关系,进而生成更有价值、更实用的场景图.
关键词 场景图生成; 长尾分布; 附加偏见预测器; 均衡化学习; 区域级关系; scene graph generation; long-tailed distribution; additional biased predictor; balanced learning; region-level relationship;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于全局结构差异与局部注意力的变化检测

Damage assessment with global differences and local attention

梅杰, 程明明
中国科学: 信息科学, 2022, 52(11): 2058-2074
摘要 检测由自然灾害造成的不同变化,对于有效地指导人道主义援助和灾难响应行动来说至关重要.但是灾害发生的地区通常面积大、地面环境复杂,导致检测其变化具有较大的挑战性.现有的评估方法通常依靠人工来进行判别,不适用于多种灾害的检测.本文提出了一种新颖的变化检测模型(change transformer, CHTR),基于双时序遥感图像来同时进行建筑分割和多级变化检测两个任务.本文结合卷积神经网络擅长学习局部细节特征和Transformer可以建模长程依赖关系的优势,采用混合卷积神经网络和Transformer的架构作为编码器.考虑到自然灾害通常会对复杂环境中的建筑物造成不同程度的破坏,本文提出了一种全局差异模块,以捕获全局变化模式,提高对双时序图像之间变化的整体认识.进一步设计了一种局部门控注意力模块,以学习多级别变化之间的局部依赖性,增强对不同变化的判别能力.在目前最大的建筑物损毁评估数据集(xBD)上进行的大量实验表明,本文提出的方法在建筑分割和变化检测两个任务上都取得了更好的结果.
关键词 建筑物分割; 变化检测; 遥感图像; 全局和局部结构; Transformer; building segmentation; change detection; satellite imagery; global-local architecture; transformer;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 1

基于自判别循环生成对抗网络的人脸图像翻译

Self-discriminative cycle generative adversarial networks for face image translation

王清和, 曹兵, 朱鹏飞, 王楠楠, 胡清华, 高新波
中国科学: 信息科学, 2022, 52(8): 1447-1462
摘要 人脸跨域翻译是将人脸图像从一个图像域映射到另一个图像域的过程,常见的人脸图像翻译任务包括人脸照片–素描、人脸照片–线条画跨域翻译等,可以广泛应用于现实场景,如协助刑侦、电影制作、数字娱乐.但是成对的人脸图像数据有限,且不同域之间的颜色、纹理差异较大,导致人脸图像跨域翻译仍面临着巨大挑战.现有的方法通常会产生模糊、伪影、结构失真等问题,导致较差的视觉效果.为解决这一问题,我们提出了一个自判别循环生成对抗网络,其中,生成器部分采用编码器–解码器结构,生成器对应的判别器为翻译方向相反的编码器,通过自判别的形式,使编码器(即判别器)巧妙地融合了“真/假”语义判别能力与对像素改变的敏感性,从而增强了模型的稳健性和泛化能力.其次,我们提出了一个新颖的全向像素梯度损失函数,设计的卷积核计算了每个像素周围每个方向的梯度来提取图像的梯度信息,通过约束生成图像与对应真实图像的梯度信息保持一致,从而激励模型有效地学习像素间连续变化的模式,并且该损失函数可以灵活地应用于其他生成模型以提升性能.大量的实验表明本文提出的框架能够在公开的成对的人脸照片–素描数据集(CUFS, CUFSF)以及人脸照片–线条画数据集(APDrawing)上取得优异的结果.此外,通过泛化能力验证实验,我们进一步展示了模型在真实场景数据上的强泛化能力,以及自判别循环生成对抗网络结构在非成对人脸数据集上的出色性能.
关键词 人脸图像翻译; 自判别循环生成对抗网络; 梯度损失; 照片–素描; 照片–线条画; face image translation; self-discriminative cycle generative adversarial network; gradient loss; photo-sketch; photo-APDrawing;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于精细化多模态关联的自然语言句子在视频中的时序定位方法

Temporal sentence grounding in videos with fine-grained multimodal correlation

袁艺天, 王鑫, 朱文武
中国科学: 信息科学, 2022, 52(8): 1417-1446
摘要 通信技术和移动互联网的发展使多媒体数据逐渐渗透人们的生活,而视频作为其中一种最具表现力的内容表达方式,近年来受到了工业界和学术界的广泛关注.针对视频数据中背景信息较为冗余,所需分析浏览时间长的特点,本文介绍了自然语言句子在视频中的时序定位任务,即在视频中定位与给定自然语言句子语义相关的视频片段,这样人们可以通过提供明确简洁的文本描述在视频中迅速找寻所关注的特定内容,从而提高用户的视频浏览体验和搜索效率.传统方法往往以多模态匹配的框架来解决句子在视频中的时序定位问题,忽略了自然语言句子中的关键定位线索,更忽视了自然语言句子对于关联视频内部相关内容的重要指导作用,因而其时序定位准确率十分有限.为解决上述难题,本文提出了多模态共同注意力机制挖掘自然语言句子中与时序定位相关的重要语义细节,精细地构建句子中各单词和视频内容之间的语义关系.在此基础上,我们还提出了语义条件动态归一化机制,指导视频中与句子语义相关的局部视频内容紧密耦合,形成明确的视频片段边界,最后辅以细粒度的边界调整模块,进而获得更为精准和灵活的时序定位结果.在公开数据集上的实验验证了本文所提出的机制和方法的有效性.最后,本文还从引入视频中的音频信号、考虑弱监督环境下的时序定位问题,以及构建无偏见时序定位数据集这3个方面对自然语言句子在视频中的时序定位问题进行了未来研究方向的展望.
关键词 时序定位; 语义关联; 多模态共同注意力机制; 时序卷积网络; 语义条件动态归一化机制; temporal sentence grounding in videos; semantic correlation; multimodal co-attention mechanism; temporal convolutional network; semantic conditioned dynamic normalization;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 1

混合曲线曲面的CG-LSPIA拟合算法

Conjugate-gradient progressive-iterative approximation for least square fitting of curves and surfaces

蒋旖旎, 蔺宏伟
中国科学: 信息科学, 2022, 52(7): 1251-1271
摘要 混合曲线曲面的拟合常应用于计算机辅助设计与制造中,但传统的数据拟合方法缺乏明显的几何意义.最小二乘渐进迭代逼近算法(progressive-iterative approximation for least square fitting, LSPIA)能通过迭代地调整控制点得到原始数据点的最小二乘拟合结果,具有明显的几何意义,但收敛速度较慢.为解决这个问题,本文提出一种基于共轭梯度法的最小二乘渐进迭代逼近算法(conjugate-gradient progressive-iterative approximation for least square fitting, CG-LSPIA).该算法首先计算共轭曲线曲面,再更新混合曲线曲面,在没有数值误差的情况下,迭代至多n步即可生成给定数据点的最小二乘拟合曲线曲面.此外,本文给出了CG-LSPIA算法收敛性证明.最后,以B样条曲线曲面为例,与LSPIA算法进行了比较,实验表明该算法有效,并且减少了达到相同拟合误差限所需的迭代次数与时间.
关键词 渐进迭代逼近; 最小二乘拟合; 共轭梯度法; 数据拟合; 几何设计; progressive-iterative approximation algorithm; least square fitting; conjugate-gradient method; data fitting; geometric design;

计算机 图形图像 论文 Website Google Scholar

“千里阵云”的主观物象空间特征测量

Experimental framework to study the subjective materialized image space of horizontal calligraphy strokes

律睿慜, 张陶洁, 梅莉琳
中国科学: 信息科学, 2022, 52(7): 1221-1250
摘要 书法笔画能够产生丰富的主观意象,中国传统绘画也有类似的审美现象.于是,在古代的书画论著中,有大量关于笔画观感的记载,往往是将笔画引出的各种丰富拟物化意象进行描述.目前由于书法通常被归入艺术学研究的范畴,书法理论研究中还极少引入数理建模和科学实验的方法,因此对于笔画的意象空间还鲜有采取测量及实证的科学方法,还未能对其建立数理模型.本文设计了两项实验,用以探索书法笔画的意象空间.在第一项实验中,引入实验美学中常用的审美测量方法,选取了书法家写的15个“一”字作为测试样品,并选用21种拟物化感知维度,设计了视觉模拟量表,招募了252名普通群众对它们进行意象感受评测实验.然后,对数据进行主成分分析,展现出笔画“一”的意象空间的特征:其一,它的前二维占据主导,主轴对应于书法理论中探讨最多的“质与妍”的风格倾向问题、副主轴对应于“真与草”的书风倾向问题;其二,它的第三、四维的分布情况也不可忽略,其具体的意义有待进一步解释;其三,不同形态的笔画分布于该空间的不同位置,不同的感知维度对应于从空间原点出发的不同方向.基于第一项实验,设计了可视化方案,直观展现该意向空间中占主导的前二维的结构特征.第二项实验让测试者对实验一中的15个笔画样品评价其两两之间的主观差异.该实验结果经多维缩放分析,与实验一的结果互为支撑.不仅验证了书法理论中有关书风和书体的观点,还为关于“笔法”的审美感知实证研究提供了一种可拓展的数理模型和实验框架.
关键词 书法; 笔法; 笔画; 意象; 实验美学; 主成分分析; 多维尺度分析; 数据可视化; calligraphy; brushstrokes; calligraphic stroke; synesthesia; empirical aesthetics; principle component analysis; multidimensional scaling; data visualization;

计算机 图形图像 评述 Website Google Scholar SCOPUS引次: 8

工业缺陷检测深度学习方法综述

Survey on industrial defect detection with deep learning

罗东亮, 蔡雨萱, 杨子豪, 章哲彦, 周瑜, 白翔
中国科学: 信息科学, 2022, 52(6): 1002-1039
摘要 基于深度学习的工业缺陷检测方法可以降低传统人工质检的成本,提升检测的准确性与效率,因而在智能制造中扮演重要角色,并逐渐成为计算机视觉领域新兴的研究热点之一.其被广泛地应用于无人质检、智能巡检、质量控制等各种生产与运维场景中.本综述旨在对工业缺陷检测的任务定义、难点、挑战、主流方法、公共数据集及评价指标等进行全面归纳,以帮助研究人员快速了解该领域.具体而言,本文首先介绍工业缺陷检测的背景与特点.接着,按照实际数据标注情况,划分出缺陷模式已知、缺陷模式未知与少量缺陷标注3种研究任务设置,并根据方法类型作进一步归纳与分析,探讨了各方法的性能优劣与适用场景,阐明了方法与实际应用需求的关联性.此外,本文还归纳了方法部署中的关键辅助技术,总结了现有方法在实际产业落地中存在的局限性.最后,本文对该领域未来的发展趋势和潜在研究方向进行了展望.
关键词 缺陷检测; 异常检测; 计算机视觉; 工业视觉; 深度学习; defect detection; anomaly detection; computer vision; industrial vision; deep learning;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于生成对抗网络和域一致性的MRI运动伪影校正方法

Motion artifact correction of MRI based on a generative adversarial network and domain consistency

曾宪华, 纪聪辉, 董倩
中国科学: 信息科学, 2022, 52(5): 822-836
摘要 在临床诊断中,磁共振成像(magnetic resonance imaging, MRI)运动伪影是一个常见的问题,运动伪影的存在会影响医生的诊断,虽然重新采集MRI可以避免这一问题,但这会提高医院和患者的经济成本和时间成本,因此,运动伪影的校正具备实用研究价值.现有的研究主要关注于空域的运动伪影校正或者K空间的运动伪影校正,缺乏对K空间和空域之间数据一致性的保持.为了解决这一问题,本文基于生成对抗网络提出了保持K空间和空域之间数据一致性的MRI运动伪影校正模型.该模型通过频域生成器对K空间数据进行初步校正,然后通过空域生成器对空域中的数据进行精细校正,在优化阶段则采用域间数据一致性损失来保持K空间和空域之间的数据一致性.在公开脑部MRI数据集ADNI, ABIDE, OASIS和Brain上的实验结果表明,本文提出的模型相较于其他方法分别在PSNR, SSIM以及RMSE上最高提升了3.4%, 3.07%和15.57%.
关键词 运动伪影校正; 生成对抗网络; 数据一致性; 深度学习; 医学图像; motion artifact correction; generative adversarial network; data consistency; deep learning; medical image;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

一种基于点标注的弱监督目标检测方法

A weakly supervised object detection approach using point annotation

姚洁茹, 韩军伟, 张鼎文
中国科学: 信息科学, 2022, 52(3): 461-482
摘要 近年来,弱监督目标检测在计算机视觉和机器学习领域获得了广泛的关注.点标注是弱标注的形式之一,它依赖人工标注,为图像中的每一个物体赋予一个标注点.尽管在过去的几年中,出现了许多基于深度学习的弱监督目标检测算法,但当前基于点标注的弱监督目标检测的探索仍处于空白.考虑到点标注可以为弱监督目标检测提供丰富的、与感兴趣物体相关的位置、类别、数量等信息,本文提出了一个基于点标注的弱监督目标检测算法.该算法通过探索标注点与目标、类别间、实例间的依赖关系弥补弱监督学习中监督信息的不足,提高弱监督目标检测性能.在该算法中,本文提出了3个网络分支用以充分挖掘标注点信息,改善弱监督目标检测学习过程:空间图分支(spatial graph branch,SGB)利用点标注与目标空间上的局部相关性,探索标注点与标注点空间上下文间关系;多语义分支(multi-semantics branch, MSB)利用类别间在语义上的共现概率,构建语义拓扑结构,探索标签间的全局语义关系;实例计数分支(count-guided instance branch, CIB)利用不同实例间在空间上的局部无关性和特征差异,推断每个目标的伪监督信息,实现实例级监督.用点标注训练弱监督目标检测算法,在节省人工标注成本的同时提供更多丰富的监督信息,从本质上提高弱监督目标检测性能.在PASCAL VOC 2007和PASCAL VOC 2012数据集上的实验结果表明,本文算法与基准模型相比,在均值平均精度上分别提高了7.9%和10.2%,在定位准确度上分别提高了9.7%和11.7%.
关键词 弱监督学习; 目标检测; 点标注; 依赖关系; 关系推理; weakly supervised learning; object detection; point annotation; dependency relationship; relationship reasoning;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于多尺度特征融合的人脸照片-素描合成

Face photo-sketch synthesis based on multi-scale feature fusion

梁昌城, 王楠楠, 朱明瑞, 杨曦, 李洁, 高新波
中国科学: 信息科学, 2022, 52(2): 334-347
摘要 从真实的人脸照片合成面部素描及其逆过程具有广泛的用途,例如数字娱乐与协助刑事案件的侦查.但是,由于照片与素描在纹理上的显著差异,它们之间的互相转换仍是一个具有挑战性的问题.最近基于生成对抗网络的方法已在图像间转换问题,特别是照片到素描的转换方面展现出令人鼓舞的结果,但它们大多会在面部关键组件产生不同的形变或者模糊,使得合成图像的真实性受影响.为了应对这一挑战,我们提出了一种新颖的基于多尺度特征融合的人脸照片–素描合成算法,来提高合成图像的结构完整性与纹理逼真度.首先使用编码器提取输入图像的多尺度编码特征,然后将最底层编码特征经过空洞卷积模块后传入解码器进行解码.解码过程中将不同尺度的解码特征与对应尺度的编码特征在通道维度上拼接,从而获得多尺度编解码融合特征.最后在解码器的输出端将不同尺度的编解码融合特征进一步融合,并通过一层卷积层产生最终合成结果.通过这种同时将编码–解码过程中不同尺度的特征在通道维度进行拼接的方式,能够保持较好的图像结构以及纹理细节,生成逼真的面部素描/照片图像.我们在多个具有挑战性的数据集中验证了所提方法的有效性.定量和定性评估表明,本文模型在生成具有高视觉质量的人脸素描(或照片)方面优于其他最新技术.
关键词 人脸照片–素描合成; 图像翻译; 生成对抗网络; 多尺度特征融合; 空洞卷积; face photo sketch synthesis; image-to-image translation; generative adversarial network; multi-scale feature fusion; dilated convolution;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 2

基于田字格变换的自监督汉字字体生成

Self-supervised Chinese font generation based on square-block transformation

曾锦山, 陈琪, 王明文
中国科学: 信息科学, 2022, 52(1): 145-159
摘要 近年来,汉字自动生成因其在艺术字体生成、个性化字体设计,以及书法作品生成等问题中的广泛应用而引起了大量关注.当前主流的汉字字体自动生成方法主要基于非配对数据和深度生成模型如生成对抗网络等.然而,这些主流的深度汉字字体生成方法通常忽略了汉字本身的结构信息,导致在提取特征时缺乏相应指导,且在训练过程中容易出现模式坍塌现象,从而在生成汉字质量方面亟待进一步提高.针对该问题,本文受汉字田字格书写的启发,提出一种基于田字格变换的自监督方法来指导网络模型提取更高质量的特征,进而提升汉字生成效果,需要特别指出的是所设计的田字格几何变换无需改变现有模型网络且不增加任何人工成本,因此潜在可嵌入许多已有深度汉字字体生成模型.所提自监督学习方法的有效性在一系列实验中得到验证.实验结果表明,在嵌入所提的自监督学习任务后,当前流行的基于CycleGAN的深度汉字生成模型在生成效果和训练稳定性等方面都有较大提升,并且模式坍塌现象得到改善.与现有其他深度汉字字体生成方法相比,所提基于田字格几何变换的自监督方法提高了生成汉字质量,并且在生成汉字内容准确率、FID值、L1损失和IOU这4个评价指标上均有一定提升.
关键词 汉字字体生成; 自监督学习; 生成对抗网络; 深度学习; 田字格变换; Chinese font generation; self-supervised learning; generative adversarial network; deep learning; square-block transformation;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

BeautyGAN+: 基于全新PMT数据集的美妆转移混合监督学习算法

BeautyGAN+: mixed-supervised makeup transfer learning algorithm based on new PMT dataset

白玉, 颜波, 谭伟敏
中国科学: 信息科学, 2022, 52(1): 129-144
摘要 作为改变人脸图像外观的重要方式之一,美妆转移任务在近年来获得了越来越多的关注.美妆转移网络可以将任意参考图像的妆容转移到任意人脸图像上,在节约时间和空间成本的同时帮助人们找到适合自己的妆容,并获得妆容得到美化的图像.美妆转移网络BeautyGAN成功展示了无监督方法妆容迁移的较好效果,然而此类无监督学习策略缺乏可以提供良好妆容细节的监督标签,导致实验结果中出现了背景变色、边缘不自然、容易受光照影响等问题.用素颜–美妆配对标签进一步约束BeautyGAN模型训练可以解决上述问题,但当前学术界缺乏此类精细标注的配对数据集.针对以上问题,本文提出了BeautyGAN+方法,贡献了一个用户详细标注的素颜–美妆配对数据集,即PMT数据集,在BeautyGAN的无监督基础上加入有监督损失进行训练,最终通过实验发现结合无监督(迁移性好)和有监督(细节修复好)的训练策略可以提供更好的迁移效果.实验结果中的图像结果和用户调研(14位)均表明本文方法显著提升了美妆转移效果,解决了美妆转移工作长期缺乏配对数据集及转移结果存在多种偏差的难题.
关键词 深度学习; 美妆转移技术; 生成式对抗网络; 有监督学习; 美妆数据集; deep learning; makeup transfer; generative adversarial network(GAN); supervised learning; makeup dataset;

计算机 图形图像 评述 Website Google Scholar SCOPUS引次: 3

面向实时视频流分析的边缘计算技术

Edge computing technologies for streaming video analytics

杨铮, 贺骁武, 吴家行, 王需, 赵毅
中国科学: 信息科学, 2022, 52(1): 1-53
摘要 实时视频流分析在智能监控、智慧城市、自动驾驶等场景中具有重要价值.然而计算负载高、带宽需求大、延迟要求严等特点使得实时视频流分析难以通过传统的云计算范式进行部署.近年来兴起的边缘计算范式,将计算任务从云端下沉到位于网络边缘的终端设备和边缘服务器上,能够有效解决上述问题.因此,许多针对实时视频流分析的边缘计算研究逐渐涌现.本文首先介绍了智能视频流分析和边缘计算的背景知识,以及二者结合的典型应用场景;接着提出了现有系统所关注的衡量指标和面临的挑战;然后从终端设备层次、协作层次、边缘/云层次对本领域的关键技术分别进行了详细的介绍,重点涉及了模型压缩和选择、本地缓存、视频帧过滤、任务卸载、网络协议、隐私保护、查询优化、推理加速和边缘缓存技术.基于对上述各项核心技术的有机整合,本文提出了基于边缘计算的视频大数据智能分析平台Argus,从数据采集、推理分析,到数据挖掘、日志管理,对实时视频流分析全生命周期提供支持,并成功应用到智慧油田中.最后,本文讨论了本领域尚待解决的问题和未来研究方向,希望为今后的研究工作提供有益参考.
关键词 边缘计算; 视频分析; 模型压缩; 任务卸载; 查询优化; edge computing; video analytics; model compression; task offloading; query optimization;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

面向预防性保护的文物本体智能原位监测系统

An intelligent in-situ visual inspection system for preventive conservation of cultural heritages

冯伟, 张乾, 田飞鹏, 王小伟, 柴勃隆, 孙济洲, 苏伯民
中国科学: 信息科学, 2021, 51(12): 2102-2118
摘要 预防性保护是国际广泛认可并努力持续追求的先进保护理念,代表了文物保护的发展方向.预防性保护通过精细监测病征,识别病因,精准控制相关致病因素,从而达到有效抑制文物本体劣化的目的.整个过程,监测是起点和根本.目前,国内外对环境风险源感知已有很多技术和数据的积累.然而,由于文物本体劣化具有发展缓慢、变化细微、赋存环境多样等特点,目前国内外尚缺乏面向真实赋存环境下文物本体细微变化的快速、精准、可靠的监测方法,严重阻碍了文物预防性保护的发展和推广.本文聚焦该问题,首次提出了基于相机位姿主动式重现的原位监测思路,并在此基础上设计研发了功能完善、适用面广的文物本体智能原位监测系统.通过物理真实地重现相机六自由度位姿,实现了基于图像导引的文物本体真实细微变化的准确检测.目前该系统已成功在敦煌莫高窟、故宫、颐和园等10多个文化遗产地的多种保护业务中推广应用.
关键词 预防性保护; 成像条件原位重现; 相机重定位; 细微变化检测; 主动视觉; 原位监测; preventive conservation; imaging condition reproduction; camera relocalization; fine-grained change detection; active vision; in-situ inspection;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 1

基于三维深度神经网络的大规模神经元形态表征与检索方法

Large-scale neuron morphological representation and retrieval based on a threedimensional deep neural network

常令琛, 李钟毓, 樊夏玥, 商增谊, 景海婷
中国科学: 信息科学, 2021, 51(12): 2089-2101
摘要 高效准确的相似神经元检索方法是神经元形态分析的重要支撑.随着高精度显微成像、神经元示踪、人工智能等技术的发展,近些年出现了若干基于机器学习的神经元形态计算与分析方法,这些研究主要包括对传统神经元形态度量指标的统计分析,以及将神经元形态二维投影与深度学习结合的神经元量化表征方法,在神经元的特征提取、分类、相似检索等任务中均取得了不错的效果.不过随着越来越多的三维神经元数据被重建出来,以上方法都无法满足当前背景下对大规模神经元形态数据的细粒度表征、检索与分类需求.为此,本文提出了基于三维深度神经网络的大规模神经元形态表征与检索方法.首先,为了将神经元的三维空间拓扑结构转换成适用于深度神经网络的形式,我们设计了神经元空间形态的体素转换方法,将原始的神经元重构文件转换成三维体素的形式,极大地保留了神经元的三维空间拓扑结构.随后,考虑到当前神经元数据缺乏精细的分类标准,本文设计了基于三维卷积自动编码器的神经元形态表征算法,应用深度神经网络无监督地学习神经元体素数据的结构特点,得到神经元形态的量化表征,并以此设计端到端的相似神经元快速检索算法.最后通过实验验证本文所提出的方法,在9万余神经元数据中检索形态相似的神经元,实验结果显著优于其他基于神经元量化表征的检索方法.实验表明,本文方法可以更高效准确地检索相似神经元,为神经元的形态学分析、神经元单细胞分类等相关研究的关键问题提供支持.
关键词 神经元形态学; 深度神经网络; 三维体素; 特征表达; neuron morphology; deep neural networks; 3D voxels; feature representation;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

融合梯度信息和邻域点云分布的3D线特征提取与配准

Extraction and registration of 3D lines by fusing gradient information and neighboring point cloud distribution

缪永伟, 戴颖婷, 王海鹏, 刘复昌, 王金荣
中国科学: 信息科学, 2021, 51(12): 2069-2088
摘要 针对传统点云场景重建中由于场景区域缺乏纹理、场景物体遮挡等导致重建结果不准确的局限性,借助场景包含的几何特性和线结构信息,有效利用RGB-D数据的梯度信息和邻域点云分布信息,本文提出了一种针对点云场景的3D线特征提取、匹配和配准方法.首先,通过场景RGB图的梯度信息确定梯度方向相似的3D直线段支持域.然后,借助场景深度图呈现的邻域几何特性,根据当前点与其邻近点之间的分布关系判断点云中的直线型边界线点云和直线型折边线点云并拟合得到场景3D线特征.其次,以点云场景提取的3D线特征为轴线,构造等厚度同轴圆柱区域作为3D线段支持域,并统计支持域中各层圆柱壁内点云梯度作为描述符实现3D线特征匹配.最后,利用基于线–线的迭代最近线配准算法,迭代计算得到帧间场景的旋转与平移,从而实现帧间点云场景的高效配准.实验结果表明,与已有的点云场景线特征提取及点特征配准方法比较,本文直接基于线特征的方法配准效率高、计算量小、配准精准,方法具有较强的鲁棒性.
关键词 点云场景; 3D线特征; 线特征提取; 线特征配准; 三维重建; point cloud scenes; 3D lines; line feature extraction; line registration; 3D reconstruction;

计算机 图形图像 评述 Website Google Scholar SCOPUS引次: 5

智能视频监控关键技术: 行人再识别研究综述

Key technology for intelligent video surveillance: a review of person re-identification

赵才荣, 齐鼎, 窦曙光, 涂远鹏, 孙添力, 柏松, 蒋忻洋, 白翔, 苗夺谦
中国科学: 信息科学, 2021, 51(12): 1979-2015
摘要 行人再识别(person re-identification, ReID)旨在解决跨摄像头跨场景下目标行人的关联与匹配,作为智能视频监控系统的关键环节,对维护社会公共秩序具有重大作用.为了深入了解行人再识别研究现状和加速推进国内行人再识别相关研究及技术落地,本文对该领域国家自然科学基金申报数量、资助力度以及地理分布情况进行统计,并针对近年来发表在国际顶级会议和期刊上的行人再识别研究进行全面梳理.具体地,首先阐述一个标准行人再识别算法流程,并总结其中3个关键技术:表征学习、度量学习和重排序优化.随后,列举了实际开放场景中面临的主要难点与挑战,并据此概括了7种开放行人再识别任务:遮挡、无监督、半监督、跨模态、场景行人搜索、对抗鲁棒和快速检索.此外,本文整理了标准行人再识别和开放行人再识别的代表性数据集,并且对一些代表性行人再识别算法进行比较.最后本文对行人再识别的未来发展趋势进行展望.
关键词 行人再识别; 智能视频分析; 深度学习; 表征学习; 度量学习; person re-identification; intelligent video analysis; deep learning; feature representation learning; metric learning;

计算机 图形图像 刊讯 Website Google Scholar

基于机器学习的可视计算专题简介

童欣, 周昆
中国科学: 信息科学, 2021, 51(11): 1965-1966
关键词 可视计算; 机器学习; 深度神经网络;

计算机 图形图像 评述 Website Google Scholar SCOPUS引次: 7

可视化与人工智能交叉研究综述

A survey on interdisciplinary research of visualization and artificial intelligence

夏佳志, 李杰, 陈思明, 秦红星, 刘世霞
中国科学: 信息科学, 2021, 51(11): 1777-1801
摘要 随着人工智能技术的突破性进展,人工智能与可视化的交叉研究成为当前的研究热点之一,为人工智能和大数据分析领域的若干核心难题提供了启发式的理论、方法和技术.一方面,人工智能技术的创新应用提升了可视化的分析效率,拓展了分析功能,为大数据可视分析提供了强有力的工具.另一方面,可视化技术增强了以深度学习为代表的人工智能的可解释性和交互性,为可解释人工智能提供了可靠的技术基础.本文从面向人工智能的可视化技术和人工智能驱动的可视化技术两个方向,分别介绍了数据质量改善、可解释机器学习、智能特征提取、可视化自动布局与生成、智能交互、智能故事叙述等6个重要问题.对国内外的研究进展进行了分析,并对发展趋势进行了展望.
关键词 可视化; 可视分析; 人工智能; 可解释机器学习; 自动可视化; visualization; visual analytics; artificial intelligence; explainable machine learning; automatic visualization;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

二值图像超分辨率重建网络

Binary neural networks for image super-resolution

姜馨蕊, 王楠楠, 辛经纬, 李柯宇, 杨曦, 高新波
中国科学: 信息科学, 2021, 51(10): 1690-1705
摘要 近年来,深层卷积神经网络在图像超分辨率重建任务中取得了巨大成功,然而复杂的深度神经网络会消耗大量存储空间以及计算资源,严重限制了其在资源有限的移动端设备上的部署.因此降低模型的资源消耗将有助于扩展深度超分辨率网络的实际应用范围.二值神经网络占用存储空间小、计算效率高,激励我们将二值化算法应用于目前的深度超分辨率重建领域,满足现有移动设备对于超分辨率的实际应用需求.因此,本文关注于二值图像超分辨率重建网络的研究.为此,我们首先总结了现有二值化方法,并针对其技术细节和算法特点进行了详细介绍.随后,我们探索了目前二值化方法在超分辨率领域的实际应用效果,并面向图像超分辨率重建任务提出一种新的二值化算法,主要通过提高网络前向过程表达能力和减少网络反向过程训练损失提升二值超分辨率网络的性能.实验表明,无论对比现有基于分类任务的二值化算法还是对比基于超分辨率任务的二值化算法,我们的方法均可以取得最优的性能.
关键词 二值卷积神经网络; 图像超分辨率重建; 二值化; 量化; 模型压缩; binary neural network; single image super-resolution; binarization; quantization; model compression;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于深度学习的数字病理扫描系统单次曝光自动对焦方法

Whole slide imaging via one-shot deep autofocusing

李强, 刘贤明, 韩凯歌, 江俊君, 季向阳
中国科学: 信息科学, 2021, 51(10): 1675-1689
摘要 全切片数字成像(whole slide imaging, WSI)是病理切片数字化的核心技术,其自动对焦的速度和精度决定了WSI系统的性能.然而,传统的自动对焦方法需要拍摄多张离焦子图像创建图像堆栈,或者需要复杂的硬件调制光学系统,从而限制了WSI在实际场景中的应用.本文设计了基于深度学习的数字病理扫描系统单次曝光自动对焦方法,对子图像逐个进行网络虚拟自动对焦,将单张离焦子图像通过网络直接生成准焦子图像.本方法仅需要在任意离焦距离下的单次曝光拍照即可,从原理上避免了重复的对焦运动和相机曝光过程.实验结果表明,本方法具有高通量、高速度、低成本、实用性强、可线下处理等优点.
关键词 数字病理扫描系统; 自动对焦; 深度学习; 光学显微镜; 计算成像; digital pathological systems; autofocusing; deep learning; optical microscopes; computational imaging;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于前景与透明度联合求解的多层次仿射类抠像与合成方法

A multi-level affinity-based matting and compositing method based on a joint solution of foreground and transparency

姚桂林, 张必英, 张艳荣, 苏晓东
中国科学: 信息科学, 2021, 51(10): 1658-1674
摘要 数字图像抠像与合成问题是虚拟现实中的经典问题.抠像问题需要根据抠像公式,从输入图像准确地提取出前景物体的透明度(α)和前景物体的颜色值,而合成问题仅使用抠像结果与新背景图像进行结合,使其成为新的合成图像.然而,目前很多抠像算法仅局限于抠像部分的α值的计算,忽略了用于后续合成步骤的前景颜色的计算.这实际上仅限于理论研究,脱离了抠像问题的合成应用层面.同时,其他一些兼顾计算前景颜色算法的效果仍然不理想,而且也仍然缺乏合成图像数据集和对合成图像的比较.本文充分利用仿射类方法中搜索范围灵活可变的优势,采用实体像素与混合像素进行分级处理的3层次结构,联合求解出最终的α值和前景颜色.其中,每个层次均利用前向层次的先验,结合仿射类方法的像素相关性以及颜色拟合性约束,采用闭合形式进行求解.在实验中,本文不仅针对α层面进行比较,而且在数字抠像领域中首次引入针对合成图像层面的比较.在合成层面中,本文针对输入图像及各型号的三分模板(Trimap),均引入了白色背景和相应的自然图像背景.同时各方法的真实的α值和前景颜色不仅与这些背景进行了常规合成,而且也进行了一种单纯α层面的合成.实验结果表明,在数值评价结果和视觉效果方面,本文方法的最终α结果与上述各种合成效果均优于目前已有的抠像与合成方法及一些新生成的方法.
关键词 图像抠像; 图像合成; 仿射类抠像; 闭合形式解; 实体像素与混合像素; image matting; image compositing; affinity-based matting; closed form solution; opaque and mixed pixels;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 49

认知规律启发的物体分割评价标准及损失函数

Cognitive vision inspired object segmentation metric and loss function

范登平, 季葛鹏, 秦雪彬, 程明明
中国科学: 信息科学, 2021, 51(9): 1475-1489
摘要 物体分割技术是计算机视觉中的研究热点,在多个领域都有广泛的应用.本文从人类视觉系统对场景中的全局信息和局部细节非常敏感的角度出发,设计了一种新颖、高效且易于计算的增强匹配标准(E_ξ)来评估物体分割模型的性能. E_ξ将局部像素值与全局平均值有机结合,以便评估分割结果与标准结果在图像级和像素级的相似度.在国际主流的4个公开数据集上的大量实验表明, E_ξ在多个方面,如应用关联度、随机偏好度、噪声偏好度、感知度上相比现有广泛采纳的评价标准(IoU和F_β)均有大幅相对提升.通过利用加权二值交叉熵损失函数、本文的增强匹配损失函数以及加权交并比损失函数,本文进一步设计了一套组合损失函数(Hybrid-E_(loss))来促进网络学习到像素级、对象级和图像级的分割特征.定性和定量的结果表明,在3个不同领域的分割任务中使用这一组合损失函数能够进一步提高物体分割的精度.
关键词 物体分割技术; 评价标准; 视觉感知; 增强匹配标准; 损失函数; object segmentation; metric; cognitive vision; enhanced-alignment measure; loss function;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

可视身份深度伪造与检测

Deep visual identity forgery and detection

彭春蕾, 高新波, 王楠楠, 李洁
中国科学: 信息科学, 2021, 51(9): 1451-1474
摘要 随着深度学习技术在视频和图像生成领域的广泛应用,视频和图像中的可视身份伪造,特别是人脸伪造结果的逼真程度越来越高,对于身份伪造数据的检测在国家安全和社会稳定等方面均具有重要的研究和应用价值,近年来已成为研究的热点问题.本文从有目标身份伪造和无目标身份伪造两个方面归纳和介绍了可视身份深度伪造的研究方法,并从基于空域线索、时域线索的面向已知伪造类型检测方法、面向未知伪造类型的泛化能力研究,以及面向对抗样本攻击的可信伪造检测研究等多个方面阐述了伪造检测的关键技术,并在总结现有数据集和代表性算法的性能分析基础上,进一步讨论了可视身份深度伪造与检测的关键问题和面临的挑战.
关键词 深度伪造; 人脸替换; 人脸编辑; 表情重演; 人脸生成; 伪造检测; deepfake; face swap; face manipulation; expression reenactment; face generation; forgery detection;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

大场景多对象的深度社交分组网络

Deep social grouping network for large scenes with multiple subjects

李坤, 李万鹏, 孙晓琨, 方璐
中国科学: 信息科学, 2021, 51(8): 1287-1301
摘要 在计算机视觉中,群体分析越来越受到人们的关注,对图像中复杂人群进行分组是群体分析领域的基础技术需求.现有的人群社交分组方法只针对固定人数的小范围场景,不能处理真实世界中的大场景图像.本文提出首个面向十亿像素大场景图像的基于深度学习的细粒度人群社交分组框架,由一种图引导的全局到局部的划分策略与一个学习隐函数表示社交对交互模式的深度社交分组网络组成.该框架可在大范围场景图像上实现准确的人群分组.本文方法同样适用于小场景图像,在小场景图像数据集上的实验结果表明,本文提出的框架相比于现有方法取得了显著的性能提升.相关代码与训练数据即将开源.
关键词 群体; 大场景图像; 深度学习; 社交分组; 图引导; group; large-scene image; deep learning; social grouping; graph-guided;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于边缘和距离约束的有理多项式图像放大

Rational polynomial image magnification based on edge and distance constraints

张帆, 王桦, 范辉, 张彩明
中国科学: 信息科学, 2021, 51(8): 1270-1286
摘要 曲面拟合是最有效的图像放大方法之一,其关键是构造对图像拟合的曲面.图像细节和边缘等特征对图像的视觉效果起着关键作用,因此,构造拟合曲面的关键之一是保持图像细节和边缘.基于样条和多项式方法构造的拟合曲面不能有效地保持图像的边缘信息,从而使放大图像在边缘处锯齿状明显.本文提出了以边缘和距离为特征约束的图像放大新算法.算法以边缘和距离为约束,在每个像素的邻近区域上构造一张对邻域上像素点拟合的二次多项式曲面片,并在每个四边形网格上构造一张二次多项式中间曲面片.在每个四边形网格上由五张曲面片加权平均生成有理多项式曲面片.该曲面片具有二次多项式逼近精度,产生的图像具有较好的视觉效果.通过构造误差曲面片对二次多项式曲面片进行修正,提高了放大图像的精度和视觉效果.新算法把二次多项式的常数项、一次和二次项采用不同方法分别计算,为构造带约束的多项式函数提供了新技术.实验结果表明,相比于其他算法,本文算法不仅有较高的逼近精度,而且放大图像的视觉效果也较好.
关键词 二次多项式; 边缘和距离约束; 逼近曲面; 逼近精度; 图像放大; quadratic polynomial; edge and distance constraints; approximation surface; approximation accuracy; image magnification;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于稀疏表示的G1圆弧样条自动逼近方法

Automatic G1 arc spline approximation via sparse representation

徐琳琳
中国科学: 信息科学, 2021, 51(8): 1255-1269
摘要 圆弧样条普遍用于数控机床的刀具轨迹设计中,希望用尽可能少的圆弧段逼近曲线.现有方法大多是启发式的,圆弧样条曲率的分段常值性质还没有引起足够的重视.本文基于这个内在的稀疏性质,提出基于稀疏表示的G~1圆弧样条自动逼近方法,主要分两步:稀疏优化问题自动检测圆弧间连接点的全局初始化和重新调整连接点位置保证G~1连续性的局部修正.实验结果显示新方法对对称性比较敏感,部分尖锐特征、自交数据也可以逼近得很好,充分说明了新方法的优越性.
关键词 圆弧样条; 稀疏表示; 逼近; G~1连续; arc spline; sparse representation; approximation; G~1 continuity;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 3

互联网图像驱动的语义分割自主学习

Autonomous learning of semantic segmentation from Internet images

侯淇彬, 韩凌昊, 刘姜江, 程明明
中国科学: 信息科学, 2021, 51(7): 1084-1099
摘要 针对目标任务收集新类别的海量标注数据通常需要大量时间和人力成本,并已成为语义分割技术投入实际产业应用过程的主要瓶颈.本文旨在以"网络监督"的方式,在仅利用用户提供的目标类别关键词以及相应自动搜索到的网络数据的条件下实现语义分割模型的自主学习.该任务的核心挑战在于网络爬取的图像中存在一定量的类别噪声,从而影响自主学习的可靠性.为了解决类别噪声问题,本文设计了一种新颖的噪声擦除模型.该模型通过每次从小批次样本的置信注意力区域中以跨样本的方式学习语义信息来擦除训练图像中与搜索关键词无关的区域.基于该模型,本文同时提出了一种能够用于训练语义分割模型的高质量伪标注生成方法.在国际主流的公开数据集(PASCAL VOC2012)上的大量实验表明,基于该方法的语义分割模型在利用网络监督与弱监督的条件下均取得了良好结果 (mIoU=62.0%以及66.1%).
关键词 语义分割, 网络搜索, 类别噪声, 噪声擦除网络, 网络监督

计算机 图形图像 评述 Website Google Scholar SCOPUS引次: 1

从传统渲染到可微渲染: 基本原理、方法和应用

From traditional rendering to differentiable rendering: theories, methods and applications

叶子鹏, 夏雯宇, 孙志尧, 易冉, 余旻婧, 刘永进
中国科学: 信息科学, 2021, 51(7): 1043-1067
摘要 近年来随着图形硬件的快速发展,渲染技术和深度学习技术都飞速发展,可微渲染作为二者之间的桥梁受到了广泛关注.随着许多可微渲染方法的提出,逆渲染等借助可微渲染工具的应用也随之蓬勃发展.本文从传统渲染管线开始介绍,逐步引入可微渲染的主要思想、基本原理和方法,对它们进行介绍、分析和比较.并介绍基于路径跟踪的可微渲染,随后列出开源的可微渲染工具供大家参考并进行比较.本文后半部分介绍可微渲染的广泛应用,分为人脸、人体、人手和物体4个方面.最后列举了一些可微渲染可能的发展方向.
关键词 可微渲染, 逆渲染, 三维重建, 人脸重建, 渲染

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

五次间接PH曲线的几何特征

Geometric characteristics of quintic indirect-PH curves

李毓君, 方林聪
中国科学: 信息科学, 2021, 51(5): 808-821
摘要 针对五次间接PH曲线的判别问题,本文结合高斯消元法与几何方法给出Bézier控制多边形满足的充分必要条件.间接PH曲线通过一个二次有理参数变换后,其等距线是有理形式的.间接PH曲线的代数充分必要条件本质是其一阶导数的因式分解满足特定条件,是一种积的形式.考虑到Bézier曲线的表示是Bernstein多项式形式,是一种和的形式.通过这两种形式的相容性引出待求解的非线性方程组并讨论求解问题,最后将所得结果应用在控制多边形上,得到五次间接PH曲线的几何特征.
关键词 Bézier曲线; 等距曲线; 几何特征; 有理参数化; Bézier curves; offsets; geometric characteristic; rational parameterization;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

面向光流估计的高效加速器架构设计

Efficient accelerator architecture for optical flow estimation

刘博生, 陈晓明, 韩银和, 常亮
中国科学: 信息科学, 2021, 51(5): 795-807
摘要 光流(optical flow)为同一对象在视频中运动到下一帧的移动量.从视频中估计光流已广泛应用于各类移动智能系统,如运动估计和机器人导航.最近的研究表明,卷积神经网络(convolutional neural network, CNN)能提供可靠的光流估计结果.然而,现有的硬件加速器无法支持面向光流估计的CNN复杂计算.具体而言,这些类型的CNN不仅包括常规的卷积(convolution)和反卷积(deconvolution)运算,还包括双线性插值(bilinear interpolation)和/或关联(correlation)运算.双线性插值和关联操作主要探索两个连续图像帧之间的关联关系.为解决这一问题,本项工作提出面向光流的CNN硬件加速设计方案(称为Swan-AOE),即通过支持卷积、反卷积、双线性插值和关联操作解决这类神经网络的硬件加速计算问题. Swan-AOE包括可配置的硬件计算架构和自适应的调度策略,通过提供灵活的并行调度实现最优化吞吐量计算.此外, Swan-AOE还进行设计空间探索,探索可用片上缓存资源在提高能耗–面积效率的潜在能力.实验结果表明,与基准加速器相比,所提出的设计能有效提升性能、能效和面积效率.
关键词 加速器; 光流估计; 能效; 卷积神经网络; accelerator; optical flow estimation; energy efficiency; convolutional neural networks;

计算机 图形图像 评述 Website Google Scholar SCOPUS引次: 11

视频萃取

Video distillation

李学龙, 赵斌
中国科学: 信息科学, 2021, 51(5): 695-734
摘要 视频数据是人们日常生活中最重要的信息载体之一.视频萃取(video distillation)通过研究视频数据的时空和语义特性,探索简洁高效的数据展示形式和信息感知模态,是计算机视觉和人工智能的重点研究内容.近年来,随着视频获取方式的快速革新和拍摄需求的多样化发展,视频数据的智能化分析任务面临着新的机遇与挑战,涌现出众多的视频萃取方法.本文创新性地从信息论的角度,解释了数据、信息和知识之间的关系,确立了视频萃取的核心是提高单位数据量的信息提供能力这一基本原则,并依据数据信容(information capacity)分析,从理论上对视频萃取中的各项任务进行了统一.进一步地,分类讨论了视频时空表征中的关键问题与解决方案,系统地分析了从内容、目标和语义角度进行视频萃取的方法,结合视频摘要、浓缩和描述任务,梳理出三条发展主线,展现了视频萃取的发展态势.更重要的是,本文对现有方法的优势与缺陷进行了深入的思考与讨论,指出了尚未解决的若干关键科学问题,并对解决方案进行了初步探讨.同时,本文对视频萃取研究所面临的挑战与未来发展趋势进行了系统的分析与展望.
关键词 视频萃取; 视觉表征; 视频摘要; 视频浓缩; 视频描述; 计算机视觉; 人工智能; video distillation; visual representation; video summarization; video synopsis; video captioning; computer vision; artificial intelligence;

计算机 图形图像 评述 Website Google Scholar SCOPUS引次: 3

像素级语义理解: 从分类到回归

Pixel level semantic understanding: from classification to regression

李学龙, 赵致远
中国科学: 信息科学, 2021, 51(4): 521-564
摘要 近年来,随着科学技术的快速发展和硬件设备的不断迭代,人工智能在各种领域(如安防监控、医疗辅助、健康诊断、智能推荐、遥感监测、目标定位等)都得到了广泛的应用.随着人们对智能处理任务的要求逐步提高,人工智能算法所需要理解的语义信息层次和输出数据精准度要求也步步攀升.因此,像素级语义理解任务也因其精准度要求远高于图像级理解而越来越受到重视.与图像级理解相比,像素级语义理解具有输出数据量大、逐像素输出精度高的优点,相应地其难度也更大,内部成因更值得关注与研究.为此本文从信息度量的角度出发,结合像素级语义理解任务的特有属性,给出了像素级语义理解任务的定义与优化目标,进一步依据实际任务的特性从初始定义衍生出像素级语义分类和像素级语义回归两类任务;随后分别讨论了在这两类任务中优化目标的退化和演变,并通过详尽的调研总结了常见像素级语义理解任务的发展现状;紧接着探究了当前像素级语义理解的难点和未来发展方向,针对亟待解决的问题给出了深入的分析思考以及可行的解决方案;最后重点反思了后深度学习时代像素级语义理解乃至人工智能领域所面对的机遇与挑战,提出知识的方向指导和数据的优化驱动是未来人工智能发展的重点关注目标.本文意图从像素级语义理解的定义与发展现状出发,延伸出对当前工作的思考以及对整个领域的反思,强调整个领域面临的风险;在介绍像素级语义理解基础认知的同时对相关技术的发展方向和路径进行深入的思考与深度的展望.
关键词 像素级语义理解; 人工智能; 深度学习; 分类; 回归; pixel level semantic understanding; artificial intelligence; deep learning; classification; regression;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 4

面向群体行为识别的注意力池化机制

Attentive pooling for group activity recognition

李定, 张文生
中国科学: 信息科学, 2021, 51(3): 399-412
摘要 视频行为识别近年来逐渐成为计算机视觉领域学者的研究热点,按照识别对象进行划分,视频行为识别任务可分为个体行为识别与群体行为识别.本文聚焦于群体行为识别,识别与分析视频场景中整体人群的行为.已有的群体行为识别方法大多采用多层时序网络模型,学习得到表征时序变化的个体行为特征并对其进行聚合形成群体行为特征.但是,在个体特征聚合过程中,以往方法未能有效考虑个体对群体行为贡献程度的差异性,影响识别性能.为此,本文提出一种针对个体行为特征聚合的注意力池化机制,并依此建立了新型群体行为识别模型,以自底向上的方式同时实现个体行为与群体行为分层识别.首先利用卷积神经网络提取视频中人体图像区块的个体静态特征,并将其作为多层递归神经网络时序模型的输入,从而得到个体动态特征.随后通过注意力池化机制对个体特征完成聚合,得到相应的群体行为特征;最后依托个体、群体行为特征同时完成个体行为与群体行为的识别.未验证所提方法的有效性,本文依托广泛使用的The Volleyball Dataset数据集上开展了一系列实验验证.结果显示,本文所提出的模型取得了较好的分类准确率,分类性能优于当前先进模型.
关键词 群体行为识别; 表示学习; 注意力机制; 深度学习; group activity recognition; representation learning; attention mechanism; deep learning;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 1

基于多视角聚类分析的汉字字体审美偏好挖掘

Esthetic preference mining of Chinese typefaces using multiview cluster analysis

张艳, 谢源, 洪辰, 曲延云, 李睿, 张俊松, 李翠华
中国科学: 信息科学, 2021, 51(3): 383-398
摘要 在神经美学研究中已经证明,中文字体审美偏好的情绪刺激可以通过观察3种偏好(喜欢、不喜欢和中性)之间的事件相关电位(event related potential, ERP)波动获得.本文通过引入一种核化张量奇异值分解的多视角聚类方法分别构建了基于脑电图(electroencephalogram, EEG)和ERP的审美偏好识别模型,通过这些模型首次确认了该结论.本文方法将来自不同频段的数据视为描述中文字体审美偏好的不同视角,通过张量多秩最小化的约束探索所有视角特征的一致性和关联性,并通过之后的聚类获取审美偏好的识别结果.采用多视角无监督聚类方法得到的识别精度达到97.1%.此外,通过输入–扰动关联方法将电极的振幅与不同种类的审美偏好相关联,可视化关键频段组合以及电极之间的关系,分别取出与喜欢、不喜欢、中性最相关的3个电极,包含次相关的6个电极,包含第三相关的9个电极,包含第四相关的12个电极,分别形成4种不同组合的脑电特征.通过比较实验,验证了相对于62个电极信号,上述4种组合方式在字体美学分类上更具有优势,并且最相关的3个电极的组合特征对审美偏好最具判别性.实验结果表明,基于多视角聚类的方法能够解决神经信号与审美偏好的相关分析,并能挖掘出与字体审美偏好最相关的电极.
关键词 中文字体; 审美评价; 计算美学; 事件相关电位; 核化张量奇异值分解; 数据挖掘; Chinese typeface; esthetic evaluation; computational esthetics; event-related potentials; kernelized tensor-SVD; data mining;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

基于隐空间约束生成对抗网络的活体检测

Latent regularized generative adversarial network for face spoofing detection

陈成伟, 院旺, 陈攀, 丁守鸿, 谢源, 宋海川, 马利庄
中国科学: 信息科学, 2021, 51(3): 367-382
摘要 近年来,人脸识别技术飞速发展,其主要应用于门禁系统和公共安防系统.然而现有的人脸识别系统容易受到仿冒攻击(也称为呈现攻击),例如尝试使用用户的脸部照片、视频或者伪造的3D人脸去攻击人脸识别系统.这些攻击手段给人脸识别系统带来了极具挑战性的安全问题.因此活体检测技术的研究十分重要,其可以使人脸识别系统免于攻击假脸的安全威胁.目前,大部分活体检测的方法将活体检测任务视作有监督的二分类问题,进而努力充分提取真实人脸和攻击人脸的特征,在单个数据集内部训练和测试可以达到很高的准确率,但是在交叉数据集之间训练和测试往往效果不佳.本文将活体检测任务定义为异常检测任务,并基于此来解决之前活体检测方法存在的泛化能力差的问题.因此本文提出了一种新颖的基于隐空间约束的深度对抗网络,它通过半监督学习的方式进行对抗训练,在此过程中模型不仅仅可以获得正常样本在隐空间中的分布,还可以通过一种惩罚的方式对隐空间中正常样本的特征进行约束,这将带来更加有效和鲁棒的活体检测效果.测试过程中,攻击人脸样本将被视作离群的样本,它们相对于正常样例在隐空间中的表达具有更高的重构差.实验表明提出的模型相较于前沿的半监督异常检测方法具备明显的优势,并且在活体检测跨数据集和单数据集内达到了可比的效果或者目前最好的效果.
关键词 对抗网络; 活体检测; 弱监督学习; 异常检测; 人脸仿冒攻击; adversarial networks; live face detection; semi-supervised learning; anomaly detection; face spoofing attacks;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 0

三维标架场可控去旋方法

Controllable curl-correction of 3D frame fields

方贤忠, 金耀, 黄劲, 鲍虎军
中国科学: 信息科学, 2021, 51(2): 263-278
摘要 六面体网格因其良好的数值性能成为有限元分析等领域中重要的一种离散化方法,而基于标架场导引的重网格化是实现可控六面体网格剖分的重要技术.现有的标架场生成技术由于所获得的标架场往往存在拓扑矛盾,难以运用于纯六面体网格的生成,但较易用于六面体主导混合网格的生成.然而,这种六面体主导网格的质量容易受到标架场旋度的影响.针对这一问题,本文提出了一种三维标架场保向且长度可控去旋方法.该方法通过分析三维向量场的旋度,构造针对四面体网格的离散旋度能量,并将其推广至三维标架场的旋度能量.为保持原标架场方向并控制其长度,引入了表达三维标架场3个子向量场长度伸缩量的标量场,并将新标架场表示为标量场和原标架场的合成,最后通过极小化合成场的旋度得到优化后的标架场.实验结果表明,通过约束标量场的变化范围,能在保持其方向不变的情况下,有效地控制去旋程度;将该标架场运用于已有重网格化方法,可得到方向和密度可控的六面体主导的混合网格.此外,该方法只需求解一个带界约束的二次凸规划问题,鲁棒性强且易于计算.
关键词 三维标架场; 去旋; 长度可控; 六面体主导网格; 3D frame field; curl correction; length-controllable; hexahedral dominant mesh;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 7

基于强化学习的舰载机保障作业实时调度方法

Real-time scheduling for carrier-borne aircraft support operations: a reinforcement learning approach

李亚飞, 吴庆顺, 徐明亮, 吕培, 姜晓恒, 朱睿杰, 周兵
中国科学: 信息科学, 2021, 51(2): 247-262
摘要 衡量航母作战性能的重要指标是舰载机出动架次率,而影响舰载机出动架次率的关键因素是舰载机保障作业调度效率.舰载机保障作业调度是指在有限时间、空间和资源约束的前提下合理安排舰载机所需保障作业顺序并高效完成舰载机的作业保障.现有基于最优化方法 (动态规划、线性规划等)和启发式方法 (如遗传算法、粒子群等)的求解策略仅适用于保障作业可预知情况下的作业调度,很难满足高动态作战场景下的实时保障作业调度需求.基于此,本文提出了一种新的基于DQN (deep Q-network)的舰载机保障作业实时调度方法,将舰载机保障作业调度问题建模成部分可观测马尔科夫决策过程(partially observable Markov decision processes)问题,利用全局与长期收益对保障作业调度过程进行优化,并通过离线学习和在线调配的学习决策框架进行解决.经过仿真实验验证,该方法能显著提高舰载机保障作业调度效率并满足实时决策环境的需要.
关键词 舰载机; 保障作业; 实时调度; 强化学习; 仿真验证; carrier-borne aircraft; support operations; real-time scheduling; reinforcement learning; simulations;

计算机 图形图像 论文 Website Google Scholar SCOPUS引次: 1

基于设备性能的Web3D动态实时光影云渲染系统

A Web3D cloud rendering system for dynamic real-time lighting and shadow based on device power

刘畅, 刘小军, 贾金原, 徐识溥, 张乾, 黄晨曦, 黄欣
中国科学: 信息科学, 2021, 51(2): 231-246
摘要 本文面向多种硬件平台提出了一套Web3D实时动态光影的协同式渲染系统,该系统把Web前端的硬件性能作为整个云渲染系统中光影渲染任务分配的关键因素.对于Web前端性能较强的硬件设备,系统分配复杂度较高的光影渲染任务给前端,相应的云后端的渲染负担则有所降低;反之,系统则分配复杂度较低的光影渲染任务给前端,相应的云后端承担大部分的渲染任务.在上述机制的引导下,该系统的前后端部署了4类关键的实时光影渲染算法,最终通过对算法运行帧率、算法所在设备的运行效率以及光影渲染结果等多种数据的分析,验证了部署的合理性.
关键词 云渲染; Web3D; 实时绘制; 动态光影; 全局光照; cloud rendering; Web3D; real-time rendering; dynamic lighting and shadow; global illumination;