计算机 高性能计算 论文 Website Google Scholar PDF

ACC: 一种敏捷的数据中心网络拥塞控制技术

袁郭苑, 路远, 周仁杰, 董德尊, 彭伟
中国科学: 信息科学, 2025, 55(1): 46-63

关键词 数据中心网络拥塞控制; 带内网络遥测; 带宽抢占; 交换机主机协同

引用格式 袁郭苑, 路远, 周仁杰, 等. ACC: 一种敏捷的数据中心网络拥塞控制技术. 中国科学: 信息科学, 2025, 55(1): 46-63, doi: 10.1360/SSI-2024-0184
Guoyuan YUAN, Yuan LU, Renjie ZHOU, et al. ACC: agile congestion control in datacenter networks. Sci Sin Inform, 2025, 55(1): 46-63, doi: 10.1360/SSI-2024-0184

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

保证延迟敏感型任务服务质量的情况下利用流处理器内所有并行性以最大化系统吞吐

赵涵, 邓俊骁, 崔炜皞, 陈全, 曾德泽, 杨静, 过敏意
中国科学: 信息科学, 2024, 54(12): 2743-2760

摘要 为了应对越来越高的算力需求, GPU在流处理器内集成了多种通用计算单元及专用计算单元(FP32 Core, INT32 Core, FP64 Core, Tensor Core, RT Core).任意一种GPU内可能包含以上计算单元中的部分单元.尽管GPU的流处理器内存在着多种计算单元,它们之间的计算并行性无法从硬件设计白皮书中获知.与此同时,现有调度接口无法支持使用不同计算单元的核函数并行利用这些计算资源,更无法支持运行时的精细调度以最大化系统吞吐.面对以上问题,我们提出了硬件感知吞吐导向的核函数调度方法 Hato. Hato首先设计了一个硬件并行性感知工具,支持为任意GPU定位出所有的流处理器内并行性.其次, Hato提出了一个核函数混跑建模方法,通过核函数混跑利用到流处理器内并行性,并支持核函数在混跑情况下的执行时间精准预测.最后, Hato提出了一个吞吐导向的调度策略,支持在保证延迟敏感型应用服务质量的同时,利用到所有可能的流处理器内并行性,以最大化整体系统吞吐.实验结果表明, Hato相比最新调度系统Tacker提升了平均19.2%,最高54.1%的系统吞吐.

关键词 GPU; 流处理器内并行性; 吞吐提升; 运行时系统; GPU; intra-SM parallelism; throughput improvement; runtime system

引用格式 赵涵, 邓俊骁, 崔炜皞, 等. 保证延迟敏感型任务服务质量的情况下利用流处理器内所有并行性以最大化系统吞吐. 中国科学: 信息科学, 2024, 54(12): 2743-2760, doi: 10.1360/SSI-2024-0121
Han ZHAO, Junxiao DENG, Weihao CUI, et al. Exploiting all intra-SM parallelism to maximize the throughput while ensuring QoS. Sci Sin Inform, 2024, 54(12): 2743-2760, doi: 10.1360/SSI-2024-0121

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

视觉端边云融合架构: 面向超级智慧城市群演进的关键技术

纪雯, 杨哲铭, 王智, 郭斌, 沈博
中国科学: 信息科学, 2024, 54(11): 2518-2532

摘要 随着城市化建设进程的加速,超级智慧城市群的新格局正在形成,物联网、人工智能和大数据等技术正快速渗透至城市信息基础设施的建设,使智慧城市形成极具前景的新兴交叉研究领域.然而现有智慧城市解决方案通常是面向不同城市的定制化方案,在实际应用中缺乏对城市运行状态全面智能感知和多区域协同能力.本文提出了视觉端边云融合的架构,用于智慧城市群的协同发展.首先,将推动智慧城市信息基础设施的新质生产力凝练出算力、运力、数力、智力、视力的新五维特征.之后,通过构建层次化的城市内和城市间视觉端边云架构,解决数据互通瓶颈并助力打破城市间的信息孤岛,提升整体系统的灵活性和可靠性.同时,本文还提出了特征重构的资源共享技术、面向大规模群体的跨域协同优化技术、以及面向复杂城市网络的持续演化的关键技术,从而实现城市智慧连接,形成共通、共享、共赢的新型城市网络架构,以支持智慧城市群通过视觉数据进行跨场景、精准、动态实时的计算.本文旨在为智慧城市群的发展提供一个全面的技术架构和解决方案,以支撑超级智慧城市群的协同演进,推动智慧城市群的智能化进程.

关键词 视觉端边云; 端边云系统; 智慧城市群; 智能系统; 视觉计算; visual end-edge-cloud; end-edge-cloud system; smart city clusters; intelligent system; visual computing

引用格式 纪雯, 杨哲铭, 王智, 等. 视觉端边云融合架构: 面向超级智慧城市群演进的关键技术. 中国科学: 信息科学, 2024, 54(11): 2518-2532, doi: 10.1360/SSI-2023-0397
Wen JI, Zheming YANG, Zhi WANG, et al. Visual end-edge-cloud fusion architecture: key technologies of future super metropolitan clusters. Sci Sin Inform, 2024, 54(11): 2518-2532, doi: 10.1360/SSI-2023-0397

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

多移动终端轻量化感-算-策协同增强方法

高元, 刘思聪, 郭斌, 徐祥瑞, 卞浩羽, 郝静怡, 徐王锦, 於志文
中国科学: 信息科学, 2024, 54(9): 2136-2156

摘要 近年来,随着物联网和人工智能技术的融合,智能物联网(AI+IoT, AIoT)逐渐成为备受关注的新兴前沿领域.在这一背景下,深度学习驱动的智能应用逐渐渗透到智慧城市、公共安全等多个领域.为了实现智能计算从云端向物联网终端和边缘端延伸,智能物联网的多移动终端设备协同工作需要面对的挑战包括可用资源受限和环境动态变化等方面.在智能物联网中,多移动终端具备泛在感知、智能计算与自主决策能力,并参与到感知、计算、学习和决策的过程中.本文提出了多移动终端轻量化感–算–策协同增强方法,旨在克服单终端的视野、资源和性能局限,提升系统的感知覆盖和计算效率,提高在多种应用场景下的任务性能.

关键词 智能物联网; 数据融合感知; 深度模型伸缩卸载; 大小模型互馈决策; 异构系统跨层优化; intelligent Internet of Things; data fusion perception; deep model scalability offloading; mutual feedback decision of large and small models; cross-layer optimization of heterogeneous systems

引用格式 高元, 刘思聪, 郭斌, 等. 多移动终端轻量化感-算-策协同增强方法. 中国科学: 信息科学, 2024, 54(9): 2136-2156, doi: 10.1360/SSI-2024-0089
Yuan GAO, Sicong LIU, Bin GUO, et al. Lightweight sensing-computing-decision collaboration enhancement for multi-mobile terminals. Sci Sin Inform, 2024, 54(9): 2136-2156, doi: 10.1360/SSI-2024-0089

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

面向忆阻器存内计算架构的高能效编解码机制

黄禹, 郑龙, 刘海峰, 邱启航, 辛杰, 廖小飞, 金海
中国科学: 信息科学, 2024, 54(8): 1827-1842

摘要 近年来,以忆阻器为代表的存内计算架构被广泛研究,用于加速各种应用,并有望突破冯·诺伊曼(von Neumann)架构面临的内存墙瓶颈.本文观察到忆阻器计算操作的能源消耗存在不对称性,即在低电阻状态下对忆阻器单元的操作能耗可能比在高电阻状态下高出数个数量级.这为通过减少低电阻状态单元的数量来节省计算能源提供了机会.为此,本文提出了一套通用且高效的忆阻器编解码机制,可以无缝集成到现有加速器中,并且不会影响其计算结果.在编码部分,设计了一个基于减法的编码器,实现了低电阻状态到高电阻状态的编码转换,并将编码问题表述为图遍历问题以实现最优的编码结果.在解码部分,配备了一个轻量级的硬件解码器,用于还原编码的计算结果,并且避免引入额外的计算时间开销.实验结果显示,本方案在机器学习和图计算等多个领域取得不俗效果,分别实现了高达31.3%和56.0%的能源节约.

关键词 存内计算; 忆阻器; 加速器; 高能效; 机器学习; 图计算; processing in memory; memristor; accelerator; energy efficiency; machine learning; graph processing

引用格式 黄禹, 郑龙, 刘海峰, 等. 面向忆阻器存内计算架构的高能效编解码机制. 中国科学: 信息科学, 2024, 54(8): 1827-1842, doi: 10.1360/SSI-2023-0345
Yu HUANG, Long ZHENG, Haifeng LIU, et al. A general yet accurate approach for energy-efficient processing-in-memory architecture computations. Sci Sin Inform, 2024, 54(8): 1827-1842, doi: 10.1360/SSI-2023-0345

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

基于自适应Sketch的高速网络流大小测量机制

卜霄菲, 黄河, 孙玉娥, 王兆杰, 吴晓灿
中国科学: 信息科学, 2024, 54(7): 1677-1691

摘要 高速网络流大小的测量面临着高速存储资源极度稀缺的挑战,难以满足海量流式数据的实时存储需求.目前的研究大多采用存储资源共享技术,以便将设计的估计器置于稀缺的高速片上缓存中.然而,这种方法引入了大量难以消除的噪声,导致中小规模流的估算精度不高.为了解决这一问题,本文提出一种能根据流大小自适应调整所占用存储空间的自适应Sketch技术,并在此基础上设计出一个高精度、低存储开销的每流大小估计器.自适应Sketch技术利用可逆计数器高效滤除海量噪声小流,并进一步采用采样概率逐层递减的采样计数器实现对不同规模流的自适应采样计数,从而控制大流对资源的过多占用,实现了低开销、高精度的每流大小测量.基于真实网络数据集CAIDA 2019的仿真实验表明,所提出的自适应Sketch流大小估计器的平均相对误差较现有机制降低了接近1个数量级.

关键词 高速网络; 流大小测量; Sketch; 噪声小流过滤; 可逆计数器; high-speed network; flow size measurement; Sketch; small flows filtering; reversible counters

引用格式 卜霄菲, 黄河, 孙玉娥, 等. 基于自适应Sketch的高速网络流大小测量机制. 中国科学: 信息科学, 2024, 54(7): 1677-1691, doi: 10.1360/SSI-2023-0294
Xiaofei BU, He HUANG, Yu-E SUN, et al. Adaptive Sketch: accurate flow size measurement in high-speed networks. Sci Sin Inform, 2024, 54(7): 1677-1691, doi: 10.1360/SSI-2023-0294

计算机 高性能计算 论文 Website Google Scholar PDF

一种冗余感知的高能效图计算加速器

姚鹏程, 廖小飞, 金海, 周宇航, 徐鹏, 张伟, 曾圳, 潘晨高, 朱冰
中国科学: 信息科学, 2024, 54(6): 1369-1385

摘要 图作为一种灵活表达对象之间关系的数据结构,广泛地应用于各类重要的现实场景.近年来,随着性能提升速度放缓,通用处理器逐渐无法满足图计算应用的需求,并成为限制图计算发展的主要瓶颈.因此,面向图计算的领域专用加速器成为近年来的研究热点.通过定制化的硬件设计,图计算加速器可以在图计算应用中取得通用处理器数十倍的性能.然而,现有的图计算加速器在运行宽度优先算法时会频繁地重复访问幂律顶点的相关数据,进而导致了严重的冗余访存问题.在特定场景下,现有的图计算加速器的性能甚至低于通用CPU.为了解决该问题,本文提出一种冗余感知的高能效图计算加速器JiFeng.当幂律顶点完成迭代计算时, JiFeng通过跳过剩余的相邻边大幅减少其被重复访问的次数. JiFeng实现了一系列软硬件协同设计,在保证负载均衡的同时提升硬件的执行效率.为了验证JiFeng的有效性,本文采用FPGA原型系统对相关设计进行性能评估. JiFeng在典型的生成图和现实图上实现最高每秒遍历4612亿条边的性能和每秒每瓦特遍历125亿条边的能效比,并在2023年11月的图计算超算排行榜GreenGraph500的小数据集榜单上取得第2名的成绩.

关键词 图计算; 加速器; 宽度优先搜索; 冗余访存; FPGA; graph processing; accelerator; breadth-first search; redundant memory access

引用格式 姚鹏程, 廖小飞, 金海, 等. 一种冗余感知的高能效图计算加速器. 中国科学: 信息科学, 2024, 54(6): 1369-1385, doi: 10.1360/SSI-2023-0387
Pengcheng YAO, Xiaofei LIAO, Hai JIN, et al. A redundancy-aware energy-efficient graph accelerator. Sci Sin Inform, 2024, 54(6): 1369-1385, doi: 10.1360/SSI-2023-0387

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

一种基于动态可寻址会话的服务器无感知计算

李子俊, 赵一龙, 陈全, 过敏意
中国科学: 信息科学, 2024, 54(3): 582-602

摘要 服务器无感知计算作为云原生范式中快速发展的新兴技术,因其按需付费、自动资源伸缩和底层环境屏蔽等特点而受到越来越多的开发人员欢迎. FaaS (函数即服务)作为Serverless架构的主要实现方式,以函数粒度对应用进行解耦和执行.大多数云服务提供商也为应用开发人员提供了基于Serverless架构的应用搭建服务,这些服务允许开发人员以函数的形式部署代码,并根据实际的请求量进行自动扩缩容.然而,在部署有状态函数时,由于Serverless架构的无状态特性,管理其中的有状态数据变得复杂,往往无法满足Serverless中函数对有状态数据的访问性能要求.因此,本文提出了一种基于有状态和动态可寻址会话机制的服务器无感知计算系统XFaaS,实现了低开销的有状态数据访问和更高的应用吞吐.实验结果表明,通过采用XFaaS系统部署有状态函数的方式,可以降低有状态数据访问时延3个数量级,并提高2倍以上的函数最大吞吐量.

关键词 服务器无感知计算; 函数即服务; 有状态函数; 粘滞会话; 容器; Serverless computing; function-as-a-service; stateful function; sticky Session; container

引用格式 李子俊, 赵一龙, 陈全, 等. 一种基于动态可寻址会话的服务器无感知计算. 中国科学: 信息科学, 2024, 54(3): 582-602, doi: 10.1360/SSI-2023-0155
Zijun LI, Yilong ZHAO, Quan CHEN, et al. Serverless computing based on dynamic-addressable session. Sci Sin Inform, 2024, 54(3): 582-602, doi: 10.1360/SSI-2023-0155

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

联邦学习在高度数据异构场景下的泛化鲁棒性增强

万伟, 胡胜山, 陆建荣, 李明慧, 周子淇, 金海
中国科学: 信息科学, 2024, 54(3): 566-581

摘要 联邦学习(federated learning, FL)是一种以保护客户隐私数据为中心的分布式处理网络,为解决隐私泄露问题提供了前景良好的解决方案.然而, FL的一个主要困境是高度非独立同分布(nonindependent and identically distributed, non-IID)的数据会导致全局模型性能很差.尽管相关研究已经探讨了这个问题,但本文发现当面对non-IID数据、不稳定的客户端参与以及深度模型时,现有方案和标准基线FedAvg相比,只有微弱的优势或甚至更差,因此严重阻碍了FL的隐私保护应用价值.为解决这个问题,本文提出了一种对non-IID数据鲁棒的优化方案:FedUp.该方案在保留FL隐私保护特点的前提下,进一步提升了全局模型的泛化鲁棒性. FedUp的核心思路是最小化全局经验损失函数的上限来保证模型具有低的泛化误差.大量仿真实验表明, FedUp显著优于现有方案,并对高度non-IID数据以及不稳定和大规模客户端的参与具有鲁棒性.

关键词 分布式网络; 联邦学习; 异构优化; 泛化性; 鲁棒性; 隐私保护; distributed network; federated learning; heterogeneous optimization; generalization; robustness; privacy protection

引用格式 万伟, 胡胜山, 陆建荣, 等. 联邦学习在高度数据异构场景下的泛化鲁棒性增强. 中国科学: 信息科学, 2024, 54(3): 566-581, doi: 10.1360/SSI-2023-0107
Wei WAN, Shengshan HU, Jianrong LU, et al. Enhancing generalization robustness of federated learning in highly heterogeneous environments. Sci Sin Inform, 2024, 54(3): 566-581, doi: 10.1360/SSI-2023-0107

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

TVMT: 基于TVM的高性能神经网络训练编译器

曾军, 寇明阳, 郑惜元, 姚海龙, 孙富春
中国科学: 信息科学, 2023, 53(12): 2458-2471

摘要 随着深度学习应用的快速发展,神经网络模型的参数量变得越来越大,这意味着训练一个可用的神经网络模型需要更多的算力和更长的计算时间,因此如何提升神经网络训练的效率至关重要.然而训练效率在很大程度上取决于硬件后端和编译器.为了提升神经网络训练的性能,编译器的效率亟待提升,而这主要取决于计算图的优化、算子级别的优化和代码生成.主流的神经网络训练框架(如TensorFlow, PyTorch)使用了供应商特定的、通过手工设计算子获得的算子库.然而,手工设计算子浪费了大量的算子级别的优化空间,因此研究人员提出了TVM.作为一个端到端的编译器, TVM实现了算子级的自动优化,比现有框架进一步提高了性能.此外, TVM支持从多种神经网络框架中导入神经网络模型,并在不同主流硬件后端上部署.然而, TVM的注意力集中于提升神经网络推理任务的性能,并不支持神经网络的训练.本文提出了TVMT,第一个基于TVM、支持神经网络训练的端到端编译器.为了支持神经网络训练,本文提出了以下方法.(1)合并损失函数到现有的计算图中,以支持前向和后向传播;(2)在训练过程中采用设备到主机的机制来更新权重参数;(3)集成了最先进的张量程序调优器,以自动优化神经网络训练程序.实验结果表明,与PyTorch相比, TVMT在Intel CPU和NVIDIA GPU上的神经网络训练性能达到了最高4.88倍的提升;与TensorFlow相比, TVMT在Intel CPU和NVIDIA GPU上的神经网络训练性能达到了最高11.5倍的提升.

关键词 神经网络编译器; 神经网络训练; 算子自动优化; 参数更新; 反向传播; neural network compiler; neural network training; automatic optimization for operators; parameters update; back propagation

引用格式 曾军, 寇明阳, 郑惜元, 等. TVMT: 基于TVM的高性能神经网络训练编译器. 中国科学: 信息科学, 2023, 53(12): 2458-2471, doi: 10.1360/SSI-2022-0140
Jun ZENG, Mingyang KOU, Xiyuan ZHENG, et al. TVMT: TVM-based high-performance neural network compiler supporting training. Sci Sin Inform, 2023, 53(12): 2458-2471, doi: 10.1360/SSI-2022-0140

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

面向SDN网络的分布式轻量级大流检测算法

周京晶, 黄河, 孙玉娥, 杜扬, 张博宇
中国科学: 信息科学, 2023, 53(10): 1924-1944

摘要 在SDN (software-defined networks)网络中检测大流对负载均衡、异常检测、流量工程等网络应用的实施及网络服务质量的提升至关重要. SDN网络通常使用流表统计流量数据,但由于存储流表的三态内容寻址寄存器(ternary content addressable memory, TCAM)资源有限,仅凭流表无法从海量网络数据中识别出所有大流,需要使用紧凑数据结构作为额外的测量模块来辅助检测.现有的研究多考虑将测量模块部署在单台或边缘交换机上,但交换机中的高速存储资源和计算资源极度紧缺,处于高流量链路上的交换机会因执行测量任务承受过高的负载,甚至影响交换机核心功能的执行.为此,本文提出了一种面向SDN网络的分布式轻量级大流检测方案.该方案将网络流量测量任务分摊至全网交换机,进而实现测量负载的均衡,并结合所设计的轻量级测量模块,有效降低了每台交换机执行测量任务所需的计算和存储开销.实验结果证明该方案较已有最新研究成果具有更高的测量精度及更低的计算和存储开销.

关键词 SDN网络; 网络流量测量; 大流检测; 分布式测量; Sketch; software-defined networks; network traffic measurement; elephant flow detection; distributed measurement

引用格式 周京晶, 黄河, 孙玉娥, 等. 面向SDN网络的分布式轻量级大流检测算法. 中国科学: 信息科学, 2023, 53(10): 1924-1944, doi: 10.1360/SSI-2022-0387
Jingjing ZHOU, He HUANG, Yu-E SUN, et al. A distributed and lightweight elephant flow detection algorithm for software-defined networks. Sci Sin Inform, 2023, 53(10): 1924-1944, doi: 10.1360/SSI-2022-0387

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

面向动态有向图的单调图算法硬件加速机制

杨赟, 余辉, 赵进, 张宇, 廖小飞, 姜新宇, 金海, 刘海坤, 毛伏兵, 张吉, 王彪
中国科学: 信息科学, 2023, 53(8): 1575-1592

摘要 随着现实世界中动态图计算需求的快速增长,现有的研究工作已经提出了多种方法来有效支持单调图算法在动态有向图中的处理.然而,由于动态有向图的图结构频繁发生变化,其相邻图顶点之间的状态更新存在复杂的依赖关系,这使得现有的软硬件方法在处理单调图算法时依然面临着数据访问成本高和收敛速度慢的问题.为此,本文提出了一种面向动态有向图的单调图算法加速器DSGraph,它能够充分利用图顶点之间的依赖关系来加快单调图算法在动态有向图处理中的收敛速度,并有效降低数据访问成本.具体来说, DSGraph通过实时提取动态有向图中图顶点的局部拓扑依赖顺序来执行异步迭代处理,从而显著减少冗余的图顶点状态更新.同时, DSGraph设计了一种异步迭代流水线架构,其按照依赖顺序对图顶点状态进行异步迭代处理,从而加速图顶点状态传播速度并减少数据访问开销.最后, DSGraph提出了一种无阻塞数据同步机制,通过并行执行本地图顶点的状态更新和外部图顶点的数据同步来减少系统同步开销.实验显示,与目前最先进的面向单调图算法的动态图处理系统KickStarter相比, DSGraph将动态有向图处理速度平均提升了11.2倍.

关键词 动态有向图; 单调图算法; 增量计算; 依赖感知; 图加速器; dynamic directed graph; monotonic graph algorithms; incremental processing; dependency-aware; graph accelerator;

引用格式 杨赟, 余辉, 赵进, 等. 面向动态有向图的单调图算法硬件加速机制. 中国科学: 信息科学, 2023, 53(8): 1575-1592, doi: 10.1360/SSI-2022-0191
Yun YANG, Hui YU, Jin ZHAO, et al. An efficient hardware accelerator for monotonic graph algorithms on dynamic directed graphs. Sci Sin Inform, 2023, 53(8): 1575-1592, doi: 10.1360/SSI-2022-0191

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

国防科技大学建校70周年专题

学科交叉多物理场耦合并行计算构件模型

莫则尧, 杨章
中国科学: 信息科学, 2023, 53(8): 1560-1574

摘要 随着高性能数值模拟对客观对象逼真度的不断增强,学科交叉特征凸显,带来多物理场耦合的多样性和动态演化,给并行计算带来了新的挑战.相对于单一学科或静态的多物理场耦合,挑战主要表现在两个方面,其一,如何降低耦合的复杂度;其二,如何支撑提升耦合的可信度.本文提出一种跨学科并行计算构件模型,统一表征结构网格、非结构网格和组合几何的网格数据模型,构件化数据通信、负载平衡和数值计算功能,将耦合复杂度从平方量级降低到线性近优,并奠定了耦合可信度提升的并行计算基础.结构–流体–传热等跨学科多物理场耦合并行计算表明,本文提出的构件模型有效.

关键词 构件模型; 并行计算; 学科交叉; 多物理场耦合; component model; parallel computing; interdisciplinary; multiphysics coupling;

引用格式 莫则尧, 杨章. 学科交叉多物理场耦合并行计算构件模型. 中国科学: 信息科学, 2023, 53(8): 1560-1574, doi: 10.1360/SSI-2023-0108
Zeyao MO, Zhang YANG. Parallel computing component model for interdisciplinary multiphysics coupling. Sci Sin Inform, 2023, 53(8): 1560-1574, doi: 10.1360/SSI-2023-0108

计算机 高性能计算 评述 Website Google Scholar PDF SCOPUS引次: 0

国防科技大学建校70周年专题

分离式数据中心的存储系统研究进展

舒继武, 陈游旻, 汪庆, 王晶, 李俊儒, 廖晓坚
中国科学: 信息科学, 2023, 53(8): 1503-1528

摘要 随着全球数据的指数级激增,数据中心在存储和管理数据方面正面临空前挑战,基于服务器架构的传统数据中心在资源利用率、扩展性、性能等方面的缺陷日益显著,已经愈发难以满足业务需求.近年来,一种分离式数据中心架构得到了学术界和工业界的广泛关注:该架构下,硬件资源被拆分为不同的硬件资源池(例如处理器池、内存池、存储池等),并通过高速网络互连;管理员可以按需扩展特定的硬件资源池,且各类硬件资源可以在不同应用间灵活共享.然而,分离式数据中心架构在访存模式、存储层级、容错模型、软件开销等方面呈现出显著差异,这为构建分离式架构友好的存储系统带来了新的挑战.首先,分析了分离式数据中心的驱动因素,阐述了其架构特点及优势,并综述了对应存储系统的关键技术和代表性研究工作;然后,围绕数据容错、异构计算及异构网络,展望了未来的发展趋势并给出了总结.

关键词 分离式数据中心; 分离式内存; 分离式存储; 存算分离; disaggregated datacenter; disaggregated memory; disaggregated storage; separation of compute and storage;

引用格式 舒继武, 陈游旻, 汪庆, 等. 分离式数据中心的存储系统研究进展. 中国科学: 信息科学, 2023, 53(8): 1503-1528, doi: 10.1360/SSI-2023-0034
Jiwu SHU, Youmin CHEN, Qing WANG, et al. Progress on storage systems for disaggregated data centers. Sci Sin Inform, 2023, 53(8): 1503-1528, doi: 10.1360/SSI-2023-0034

计算机 高性能计算 评述 Website Google Scholar PDF SCOPUS引次: 1

国防科技大学建校70周年专题

并行智能训练技术: 挑战与发展

卢凯, 赖志权, 李笙维, 柳炜杰, 葛可适, 卢锡城, 李东升
中国科学: 信息科学, 2023, 53(8): 1441-1468

摘要 近年来,以深度学习为代表的人工智能技术迅猛发展,深度学习模型和训练数据的规模均呈爆炸式增长,给智能模型训练系统带来了巨大挑战.随着高性能计算与人工智能的不断深度融合,并行智能训练技术成为大规模深度学习模型高效训练的主要方法.本文总结了并行智能训练的基本模式和关键技术,以及并行智能训练框架的发展现状,分析了并行智能训练技术和框架发展面临的挑战与发展趋势,简介了银河天璇并行智能训练框架的研究进展.

关键词 智能训练; 高性能计算; 并行智能训练; 深度学习; intelligent training; high-performance computing; parallel intelligent training; deep learning;

引用格式 卢凯, 赖志权, 李笙维, 等. 并行智能训练技术: 挑战与发展. 中国科学: 信息科学, 2023, 53(8): 1441-1468, doi: 10.1360/SSI-2023-0051
Kai LU, Zhiquan LAI, Shengwei LI, et al. Parallel intelligent computing: development and challenges. Sci Sin Inform, 2023, 53(8): 1441-1468, doi: 10.1360/SSI-2023-0051

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 1

一种新型群智感知系统架构模型和实现方法

马华东, 赵东, 王新兵, 王甲海, 华蓓, 童剑军
中国科学: 信息科学, 2023, 53(7): 1262-1280

摘要 物联网移动群智感知模式本质是汇聚大规模普通移动个体的智能感知能力,对开放、动态、复杂物理环境进行感知,通过感知大数据的智能分析,对感知群体引导和反馈,使其持续涌现群体智能并辅助综合决策.目前的群智感知系统仍然存在个体感知欠智能、群体目标少引导、群智过程弱调控三方面的局限性.本文首先讨论了群智感知研究现状和面临的挑战;结合人机物融合、云边端协同、感算控闭环3个核心发展趋势,提出一种智能演进与反馈引导结合的新型群智感知系统架构模型Evo-CPS,并研究了该模型的实现方法;然后结合智慧出行应用场景,将所提出的理论方法进行应用验证;最后,总结全文并展望新一代群智感知研究领域的发展方向.

关键词 群体智能; 群智感知; 人机物融合; 智慧出行; crowd intelligence; crowdsensing; human-cyber-physical fusion; smart transportation;

引用格式 马华东, 赵东, 王新兵, 等. 一种新型群智感知系统架构模型和实现方法. 中国科学: 信息科学, 2023, 53(7): 1262-1280, doi: 10.1360/SSI-2022-0157
Huadong MA, Dong ZHAO, Xinbing WANG, et al. A novel crowdsensing system architecture model and its implementation methods. Sci Sin Inform, 2023, 53(7): 1262-1280, doi: 10.1360/SSI-2022-0157

计算机 高性能计算 评述 Website Google Scholar PDF SCOPUS引次: 0

图计算在ATPG中的应用探究

毛伏兵, 彭达, 张宇, 廖小飞, 姜新宇, 杨赟, 金海, 赵进, 刘海坤, 王柳峥
中国科学: 信息科学, 2023, 53(2): 211-233

摘要 ATPG (automatic test pattern generation)是VLSI (very large scale integration circuits)电路测试中非常重要的技术,它的好坏直接影响测试成本与开销.然而现有的并行ATPG方法普遍存在负载不均衡、并行策略单一、存储开销大和数据局部性差等问题.由于图计算的高并行度和高扩展性等优点,快速、高效、低存储开销和高可扩展性的图计算系统可能是有效支持ATPG的重要工具,这将对减少测试成本显得尤为重要.本文将对图计算在组合ATPG中的应用进行探究;介绍图计算模型将ATPG算法转化为图算法的方法;分析现有图计算系统应用于ATPG面临的挑战;提出面向ATPG的单机图计算系统,并从基于传统架构的优化、新兴硬件的加速和基于新兴存储器件的优化几个方面,对图计算系统支持ATPG所面临的挑战和未来研究方向进行了讨论.

关键词 图计算; 超大规模集成电路; 自动测试向量生成; 电子设计自动化; 电路测试; graph processing; VLSI; ATPG; electronic design automation; circuit test;

引用格式 毛伏兵, 彭达, 张宇, 等. 图计算在ATPG中的应用探究. 中国科学: 信息科学, 2023, 53(2): 211-233, doi: 10.1360/SSI-2021-0267
Fubing MAO, Da PENG, Yu ZHANG, et al. Research on the application of graph processing in ATPG. Sci Sin Inform, 2023, 53(2): 211-233, doi: 10.1360/SSI-2021-0267