计算机 高性能计算 论文 Website Google Scholar PDF

基于自适应Sketch的高速网络流大小测量机制

卜霄菲, 黄河, 孙玉娥, 王兆杰, 吴晓灿
中国科学: 信息科学, 2024, 54(7): 1677-1691

关键词 高速网络; 流大小测量; Sketch; 噪声小流过滤; 可逆计数器; high-speed network; flow size measurement; Sketch; small flows filtering; reversible counters

引用格式 卜霄菲, 黄河, 孙玉娥, 等. 基于自适应Sketch的高速网络流大小测量机制. 中国科学: 信息科学, 2024, 54(7): 1677-1691, doi: 10.1360/SSI-2023-0294
Xiaofei BU, He HUANG, Yu-E SUN, et al. Adaptive Sketch: accurate flow size measurement in high-speed networks. Sci Sin Inform, 2024, 54(7): 1677-1691, doi: 10.1360/SSI-2023-0294

计算机 高性能计算 论文 Website Google Scholar PDF

一种冗余感知的高能效图计算加速器

姚鹏程, 廖小飞, 金海, 周宇航, 徐鹏, 张伟, 曾圳, 潘晨高, 朱冰
中国科学: 信息科学, 2024, 54(6): 1369-1385

摘要 图作为一种灵活表达对象之间关系的数据结构,广泛地应用于各类重要的现实场景.近年来,随着性能提升速度放缓,通用处理器逐渐无法满足图计算应用的需求,并成为限制图计算发展的主要瓶颈.因此,面向图计算的领域专用加速器成为近年来的研究热点.通过定制化的硬件设计,图计算加速器可以在图计算应用中取得通用处理器数十倍的性能.然而,现有的图计算加速器在运行宽度优先算法时会频繁地重复访问幂律顶点的相关数据,进而导致了严重的冗余访存问题.在特定场景下,现有的图计算加速器的性能甚至低于通用CPU.为了解决该问题,本文提出一种冗余感知的高能效图计算加速器JiFeng.当幂律顶点完成迭代计算时, JiFeng通过跳过剩余的相邻边大幅减少其被重复访问的次数. JiFeng实现了一系列软硬件协同设计,在保证负载均衡的同时提升硬件的执行效率.为了验证JiFeng的有效性,本文采用FPGA原型系统对相关设计进行性能评估. JiFeng在典型的生成图和现实图上实现最高每秒遍历4612亿条边的性能和每秒每瓦特遍历125亿条边的能效比,并在2023年11月的图计算超算排行榜GreenGraph500的小数据集榜单上取得第2名的成绩.

关键词 图计算; 加速器; 宽度优先搜索; 冗余访存; FPGA; graph processing; accelerator; breadth-first search; redundant memory access

引用格式 姚鹏程, 廖小飞, 金海, 等. 一种冗余感知的高能效图计算加速器. 中国科学: 信息科学, 2024, 54(6): 1369-1385, doi: 10.1360/SSI-2023-0387
Pengcheng YAO, Xiaofei LIAO, Hai JIN, et al. A redundancy-aware energy-efficient graph accelerator. Sci Sin Inform, 2024, 54(6): 1369-1385, doi: 10.1360/SSI-2023-0387

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

一种基于动态可寻址会话的服务器无感知计算

李子俊, 赵一龙, 陈全, 过敏意
中国科学: 信息科学, 2024, 54(3): 582-602

摘要 服务器无感知计算作为云原生范式中快速发展的新兴技术,因其按需付费、自动资源伸缩和底层环境屏蔽等特点而受到越来越多的开发人员欢迎. FaaS (函数即服务)作为Serverless架构的主要实现方式,以函数粒度对应用进行解耦和执行.大多数云服务提供商也为应用开发人员提供了基于Serverless架构的应用搭建服务,这些服务允许开发人员以函数的形式部署代码,并根据实际的请求量进行自动扩缩容.然而,在部署有状态函数时,由于Serverless架构的无状态特性,管理其中的有状态数据变得复杂,往往无法满足Serverless中函数对有状态数据的访问性能要求.因此,本文提出了一种基于有状态和动态可寻址会话机制的服务器无感知计算系统XFaaS,实现了低开销的有状态数据访问和更高的应用吞吐.实验结果表明,通过采用XFaaS系统部署有状态函数的方式,可以降低有状态数据访问时延3个数量级,并提高2倍以上的函数最大吞吐量.

关键词 服务器无感知计算; 函数即服务; 有状态函数; 粘滞会话; 容器; Serverless computing; function-as-a-service; stateful function; sticky Session; container

引用格式 李子俊, 赵一龙, 陈全, 等. 一种基于动态可寻址会话的服务器无感知计算. 中国科学: 信息科学, 2024, 54(3): 582-602, doi: 10.1360/SSI-2023-0155
Zijun LI, Yilong ZHAO, Quan CHEN, et al. Serverless computing based on dynamic-addressable session. Sci Sin Inform, 2024, 54(3): 582-602, doi: 10.1360/SSI-2023-0155

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

联邦学习在高度数据异构场景下的泛化鲁棒性增强

万伟, 胡胜山, 陆建荣, 李明慧, 周子淇, 金海
中国科学: 信息科学, 2024, 54(3): 566-581

摘要 联邦学习(federated learning, FL)是一种以保护客户隐私数据为中心的分布式处理网络,为解决隐私泄露问题提供了前景良好的解决方案.然而, FL的一个主要困境是高度非独立同分布(nonindependent and identically distributed, non-IID)的数据会导致全局模型性能很差.尽管相关研究已经探讨了这个问题,但本文发现当面对non-IID数据、不稳定的客户端参与以及深度模型时,现有方案和标准基线FedAvg相比,只有微弱的优势或甚至更差,因此严重阻碍了FL的隐私保护应用价值.为解决这个问题,本文提出了一种对non-IID数据鲁棒的优化方案:FedUp.该方案在保留FL隐私保护特点的前提下,进一步提升了全局模型的泛化鲁棒性. FedUp的核心思路是最小化全局经验损失函数的上限来保证模型具有低的泛化误差.大量仿真实验表明, FedUp显著优于现有方案,并对高度non-IID数据以及不稳定和大规模客户端的参与具有鲁棒性.

关键词 分布式网络; 联邦学习; 异构优化; 泛化性; 鲁棒性; 隐私保护; distributed network; federated learning; heterogeneous optimization; generalization; robustness; privacy protection

引用格式 万伟, 胡胜山, 陆建荣, 等. 联邦学习在高度数据异构场景下的泛化鲁棒性增强. 中国科学: 信息科学, 2024, 54(3): 566-581, doi: 10.1360/SSI-2023-0107
Wei WAN, Shengshan HU, Jianrong LU, et al. Enhancing generalization robustness of federated learning in highly heterogeneous environments. Sci Sin Inform, 2024, 54(3): 566-581, doi: 10.1360/SSI-2023-0107

计算机 高性能计算 论文 Website Google Scholar PDF

TVMT: 基于TVM的高性能神经网络训练编译器

曾军, 寇明阳, 郑惜元, 姚海龙, 孙富春
中国科学: 信息科学, 2023, 53(12): 2458-2471

摘要 随着深度学习应用的快速发展,神经网络模型的参数量变得越来越大,这意味着训练一个可用的神经网络模型需要更多的算力和更长的计算时间,因此如何提升神经网络训练的效率至关重要.然而训练效率在很大程度上取决于硬件后端和编译器.为了提升神经网络训练的性能,编译器的效率亟待提升,而这主要取决于计算图的优化、算子级别的优化和代码生成.主流的神经网络训练框架(如TensorFlow, PyTorch)使用了供应商特定的、通过手工设计算子获得的算子库.然而,手工设计算子浪费了大量的算子级别的优化空间,因此研究人员提出了TVM.作为一个端到端的编译器, TVM实现了算子级的自动优化,比现有框架进一步提高了性能.此外, TVM支持从多种神经网络框架中导入神经网络模型,并在不同主流硬件后端上部署.然而, TVM的注意力集中于提升神经网络推理任务的性能,并不支持神经网络的训练.本文提出了TVMT,第一个基于TVM、支持神经网络训练的端到端编译器.为了支持神经网络训练,本文提出了以下方法.(1)合并损失函数到现有的计算图中,以支持前向和后向传播;(2)在训练过程中采用设备到主机的机制来更新权重参数;(3)集成了最先进的张量程序调优器,以自动优化神经网络训练程序.实验结果表明,与PyTorch相比, TVMT在Intel CPU和NVIDIA GPU上的神经网络训练性能达到了最高4.88倍的提升;与TensorFlow相比, TVMT在Intel CPU和NVIDIA GPU上的神经网络训练性能达到了最高11.5倍的提升.

关键词 神经网络编译器; 神经网络训练; 算子自动优化; 参数更新; 反向传播; neural network compiler; neural network training; automatic optimization for operators; parameters update; back propagation

引用格式 曾军, 寇明阳, 郑惜元, 等. TVMT: 基于TVM的高性能神经网络训练编译器. 中国科学: 信息科学, 2023, 53(12): 2458-2471, doi: 10.1360/SSI-2022-0140
Jun ZENG, Mingyang KOU, Xiyuan ZHENG, et al. TVMT: TVM-based high-performance neural network compiler supporting training. Sci Sin Inform, 2023, 53(12): 2458-2471, doi: 10.1360/SSI-2022-0140

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

面向SDN网络的分布式轻量级大流检测算法

周京晶, 黄河, 孙玉娥, 杜扬, 张博宇
中国科学: 信息科学, 2023, 53(10): 1924-1944

摘要 在SDN (software-defined networks)网络中检测大流对负载均衡、异常检测、流量工程等网络应用的实施及网络服务质量的提升至关重要. SDN网络通常使用流表统计流量数据,但由于存储流表的三态内容寻址寄存器(ternary content addressable memory, TCAM)资源有限,仅凭流表无法从海量网络数据中识别出所有大流,需要使用紧凑数据结构作为额外的测量模块来辅助检测.现有的研究多考虑将测量模块部署在单台或边缘交换机上,但交换机中的高速存储资源和计算资源极度紧缺,处于高流量链路上的交换机会因执行测量任务承受过高的负载,甚至影响交换机核心功能的执行.为此,本文提出了一种面向SDN网络的分布式轻量级大流检测方案.该方案将网络流量测量任务分摊至全网交换机,进而实现测量负载的均衡,并结合所设计的轻量级测量模块,有效降低了每台交换机执行测量任务所需的计算和存储开销.实验结果证明该方案较已有最新研究成果具有更高的测量精度及更低的计算和存储开销.

关键词 SDN网络; 网络流量测量; 大流检测; 分布式测量; Sketch; software-defined networks; network traffic measurement; elephant flow detection; distributed measurement

引用格式 周京晶, 黄河, 孙玉娥, 等. 面向SDN网络的分布式轻量级大流检测算法. 中国科学: 信息科学, 2023, 53(10): 1924-1944, doi: 10.1360/SSI-2022-0387
Jingjing ZHOU, He HUANG, Yu-E SUN, et al. A distributed and lightweight elephant flow detection algorithm for software-defined networks. Sci Sin Inform, 2023, 53(10): 1924-1944, doi: 10.1360/SSI-2022-0387

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

面向动态有向图的单调图算法硬件加速机制

杨赟, 余辉, 赵进, 张宇, 廖小飞, 姜新宇, 金海, 刘海坤, 毛伏兵, 张吉, 王彪
中国科学: 信息科学, 2023, 53(8): 1575-1592

摘要 随着现实世界中动态图计算需求的快速增长,现有的研究工作已经提出了多种方法来有效支持单调图算法在动态有向图中的处理.然而,由于动态有向图的图结构频繁发生变化,其相邻图顶点之间的状态更新存在复杂的依赖关系,这使得现有的软硬件方法在处理单调图算法时依然面临着数据访问成本高和收敛速度慢的问题.为此,本文提出了一种面向动态有向图的单调图算法加速器DSGraph,它能够充分利用图顶点之间的依赖关系来加快单调图算法在动态有向图处理中的收敛速度,并有效降低数据访问成本.具体来说, DSGraph通过实时提取动态有向图中图顶点的局部拓扑依赖顺序来执行异步迭代处理,从而显著减少冗余的图顶点状态更新.同时, DSGraph设计了一种异步迭代流水线架构,其按照依赖顺序对图顶点状态进行异步迭代处理,从而加速图顶点状态传播速度并减少数据访问开销.最后, DSGraph提出了一种无阻塞数据同步机制,通过并行执行本地图顶点的状态更新和外部图顶点的数据同步来减少系统同步开销.实验显示,与目前最先进的面向单调图算法的动态图处理系统KickStarter相比, DSGraph将动态有向图处理速度平均提升了11.2倍.

关键词 动态有向图; 单调图算法; 增量计算; 依赖感知; 图加速器; dynamic directed graph; monotonic graph algorithms; incremental processing; dependency-aware; graph accelerator;

引用格式 杨赟, 余辉, 赵进, 等. 面向动态有向图的单调图算法硬件加速机制. 中国科学: 信息科学, 2023, 53(8): 1575-1592, doi: 10.1360/SSI-2022-0191
Yun YANG, Hui YU, Jin ZHAO, et al. An efficient hardware accelerator for monotonic graph algorithms on dynamic directed graphs. Sci Sin Inform, 2023, 53(8): 1575-1592, doi: 10.1360/SSI-2022-0191

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

国防科技大学建校70周年专题

学科交叉多物理场耦合并行计算构件模型

莫则尧, 杨章
中国科学: 信息科学, 2023, 53(8): 1560-1574

摘要 随着高性能数值模拟对客观对象逼真度的不断增强,学科交叉特征凸显,带来多物理场耦合的多样性和动态演化,给并行计算带来了新的挑战.相对于单一学科或静态的多物理场耦合,挑战主要表现在两个方面,其一,如何降低耦合的复杂度;其二,如何支撑提升耦合的可信度.本文提出一种跨学科并行计算构件模型,统一表征结构网格、非结构网格和组合几何的网格数据模型,构件化数据通信、负载平衡和数值计算功能,将耦合复杂度从平方量级降低到线性近优,并奠定了耦合可信度提升的并行计算基础.结构–流体–传热等跨学科多物理场耦合并行计算表明,本文提出的构件模型有效.

关键词 构件模型; 并行计算; 学科交叉; 多物理场耦合; component model; parallel computing; interdisciplinary; multiphysics coupling;

引用格式 莫则尧, 杨章. 学科交叉多物理场耦合并行计算构件模型. 中国科学: 信息科学, 2023, 53(8): 1560-1574, doi: 10.1360/SSI-2023-0108
Zeyao MO, Zhang YANG. Parallel computing component model for interdisciplinary multiphysics coupling. Sci Sin Inform, 2023, 53(8): 1560-1574, doi: 10.1360/SSI-2023-0108

计算机 高性能计算 评述 Website Google Scholar PDF SCOPUS引次: 0

国防科技大学建校70周年专题

分离式数据中心的存储系统研究进展

舒继武, 陈游旻, 汪庆, 王晶, 李俊儒, 廖晓坚
中国科学: 信息科学, 2023, 53(8): 1503-1528

摘要 随着全球数据的指数级激增,数据中心在存储和管理数据方面正面临空前挑战,基于服务器架构的传统数据中心在资源利用率、扩展性、性能等方面的缺陷日益显著,已经愈发难以满足业务需求.近年来,一种分离式数据中心架构得到了学术界和工业界的广泛关注:该架构下,硬件资源被拆分为不同的硬件资源池(例如处理器池、内存池、存储池等),并通过高速网络互连;管理员可以按需扩展特定的硬件资源池,且各类硬件资源可以在不同应用间灵活共享.然而,分离式数据中心架构在访存模式、存储层级、容错模型、软件开销等方面呈现出显著差异,这为构建分离式架构友好的存储系统带来了新的挑战.首先,分析了分离式数据中心的驱动因素,阐述了其架构特点及优势,并综述了对应存储系统的关键技术和代表性研究工作;然后,围绕数据容错、异构计算及异构网络,展望了未来的发展趋势并给出了总结.

关键词 分离式数据中心; 分离式内存; 分离式存储; 存算分离; disaggregated datacenter; disaggregated memory; disaggregated storage; separation of compute and storage;

引用格式 舒继武, 陈游旻, 汪庆, 等. 分离式数据中心的存储系统研究进展. 中国科学: 信息科学, 2023, 53(8): 1503-1528, doi: 10.1360/SSI-2023-0034
Jiwu SHU, Youmin CHEN, Qing WANG, et al. Progress on storage systems for disaggregated data centers. Sci Sin Inform, 2023, 53(8): 1503-1528, doi: 10.1360/SSI-2023-0034

计算机 高性能计算 评述 Website Google Scholar PDF SCOPUS引次: 1

国防科技大学建校70周年专题

并行智能训练技术: 挑战与发展

卢凯, 赖志权, 李笙维, 柳炜杰, 葛可适, 卢锡城, 李东升
中国科学: 信息科学, 2023, 53(8): 1441-1468

摘要 近年来,以深度学习为代表的人工智能技术迅猛发展,深度学习模型和训练数据的规模均呈爆炸式增长,给智能模型训练系统带来了巨大挑战.随着高性能计算与人工智能的不断深度融合,并行智能训练技术成为大规模深度学习模型高效训练的主要方法.本文总结了并行智能训练的基本模式和关键技术,以及并行智能训练框架的发展现状,分析了并行智能训练技术和框架发展面临的挑战与发展趋势,简介了银河天璇并行智能训练框架的研究进展.

关键词 智能训练; 高性能计算; 并行智能训练; 深度学习; intelligent training; high-performance computing; parallel intelligent training; deep learning;

引用格式 卢凯, 赖志权, 李笙维, 等. 并行智能训练技术: 挑战与发展. 中国科学: 信息科学, 2023, 53(8): 1441-1468, doi: 10.1360/SSI-2023-0051
Kai LU, Zhiquan LAI, Shengwei LI, et al. Parallel intelligent computing: development and challenges. Sci Sin Inform, 2023, 53(8): 1441-1468, doi: 10.1360/SSI-2023-0051

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 1

一种新型群智感知系统架构模型和实现方法

马华东, 赵东, 王新兵, 王甲海, 华蓓, 童剑军
中国科学: 信息科学, 2023, 53(7): 1262-1280

摘要 物联网移动群智感知模式本质是汇聚大规模普通移动个体的智能感知能力,对开放、动态、复杂物理环境进行感知,通过感知大数据的智能分析,对感知群体引导和反馈,使其持续涌现群体智能并辅助综合决策.目前的群智感知系统仍然存在个体感知欠智能、群体目标少引导、群智过程弱调控三方面的局限性.本文首先讨论了群智感知研究现状和面临的挑战;结合人机物融合、云边端协同、感算控闭环3个核心发展趋势,提出一种智能演进与反馈引导结合的新型群智感知系统架构模型Evo-CPS,并研究了该模型的实现方法;然后结合智慧出行应用场景,将所提出的理论方法进行应用验证;最后,总结全文并展望新一代群智感知研究领域的发展方向.

关键词 群体智能; 群智感知; 人机物融合; 智慧出行; crowd intelligence; crowdsensing; human-cyber-physical fusion; smart transportation;

引用格式 马华东, 赵东, 王新兵, 等. 一种新型群智感知系统架构模型和实现方法. 中国科学: 信息科学, 2023, 53(7): 1262-1280, doi: 10.1360/SSI-2022-0157
Huadong MA, Dong ZHAO, Xinbing WANG, et al. A novel crowdsensing system architecture model and its implementation methods. Sci Sin Inform, 2023, 53(7): 1262-1280, doi: 10.1360/SSI-2022-0157

计算机 高性能计算 评述 Website Google Scholar PDF SCOPUS引次: 0

图计算在ATPG中的应用探究

毛伏兵, 彭达, 张宇, 廖小飞, 姜新宇, 杨赟, 金海, 赵进, 刘海坤, 王柳峥
中国科学: 信息科学, 2023, 53(2): 211-233

摘要 ATPG (automatic test pattern generation)是VLSI (very large scale integration circuits)电路测试中非常重要的技术,它的好坏直接影响测试成本与开销.然而现有的并行ATPG方法普遍存在负载不均衡、并行策略单一、存储开销大和数据局部性差等问题.由于图计算的高并行度和高扩展性等优点,快速、高效、低存储开销和高可扩展性的图计算系统可能是有效支持ATPG的重要工具,这将对减少测试成本显得尤为重要.本文将对图计算在组合ATPG中的应用进行探究;介绍图计算模型将ATPG算法转化为图算法的方法;分析现有图计算系统应用于ATPG面临的挑战;提出面向ATPG的单机图计算系统,并从基于传统架构的优化、新兴硬件的加速和基于新兴存储器件的优化几个方面,对图计算系统支持ATPG所面临的挑战和未来研究方向进行了讨论.

关键词 图计算; 超大规模集成电路; 自动测试向量生成; 电子设计自动化; 电路测试; graph processing; VLSI; ATPG; electronic design automation; circuit test;

引用格式 毛伏兵, 彭达, 张宇, 等. 图计算在ATPG中的应用探究. 中国科学: 信息科学, 2023, 53(2): 211-233, doi: 10.1360/SSI-2021-0267
Fubing MAO, Da PENG, Yu ZHANG, et al. Research on the application of graph processing in ATPG. Sci Sin Inform, 2023, 53(2): 211-233, doi: 10.1360/SSI-2021-0267

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 1

代际交错背景下移动蜂窝系统的近因现象与自调控设计: 速度、能耗与可靠性

刘云浩, 李振华, 李洋, 林灏, 宫良一, 郑雅文
中国科学: 信息科学, 2022, 52(12): 2290-2305

摘要 移动蜂窝系统正经历着从2G/3G/4G到5G的交错式代际进化过程,多样化的信号与协议长期共存.如何在庞大、异构、高动态的蜂窝环境中保证服务的高速(传输快)、高能效(耗电少)和高可靠性(不断网)成为至关重要但又非常困难的问题,该问题同时涉及手机制造商、网络服务提供商、操作系统和应用软件开发商.我们研究和综述了近年来针对该问题的代表性工作,发现蜂窝系统表观层面的多个反常性能问题,实际上归因于核心机制层面隐蔽而深刻的“近因现象”:受社会舆论和商业宣传影响,在选择使用移动网络时,存在非理性的代际偏颇和不自觉的速度至上倾向,进而引发了偏向5G的“亏损迁移”、网络容量的“饱和饥饿”以及基站连接的“乒乓跳跃”等连锁效应.为修复上述缺陷,我们提出基于4G/5G双连接以及非齐次时变马尔可夫过程的自调控技术设计,将5G设备的故障发生率降低40%并将所有设备的平均故障持续时间缩短36%,同时探讨我们基于大规模工业合作实践的洞察和创新.

关键词 代际交错; 5G; 近因现象; 亏损迁移; 自调控技术; interlaced generations; 5G; recency effect; loss-making migration; self-regulating design;

引用格式 刘云浩, 李振华, 李洋, 等. 代际交错背景下移动蜂窝系统的近因现象与自调控设计: 速度、能耗与可靠性. 中国科学: 信息科学, 2022, 52(12): 2290-2305, doi: 10.1360/SSI-2022-0062
Yunhao LIU, Zhenhua LI, Yang LI, et al. Recency effect and self-regulating design of mobile cellular systems in the context of interlaced generations: network bandwidth, power efficiency, and connection reliability. Sci Sin Inform, 2022, 52(12): 2290-2305, doi: 10.1360/SSI-2022-0062

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

面向机器学习系统的张量中间表示

庄毅敏, 文渊博, 李威, 郭崎
中国科学: 信息科学, 2022, 52(6): 1040-1052

摘要 随着各类机器学习算法的广泛应用,高能效地定制机器学习系统受到越来越多的关注.定制机器学习系统高效部署的关键在于其编程与编译环境.中间表示是编程与编译环境的核心,用于连接上层编程语言和底层硬件指令.当前的中间表示或是面向上层算法或是面向以标量处理为核心的传统处理器,难以高效应对以张量处理为核心的机器学习系统.本文提出了面向机器学习系统的张量中间表示,以提升机器学习系统的编程和运行效率.具体而言,我们定义了一系列张量类型,张量操作及张量存储空间,并在此基础上进行张量处理优化.我们将所提出的张量中间表示对TVM的底层标量中间表示进行了扩展并在典型机器学习系统上进行了实验.我们探索了原有中间表示没有发掘的优化并取得了1.62~2.85倍的性能提升,同时在典型算子的开发效率上平均提升了5.46倍.

关键词 机器学习系统; 编程与编译; 张量处理; 中间表示; 编程效率; machine learning systems; programming & compiling; tensor processing; intermediate representation; programming efficiency;

引用格式 庄毅敏, 文渊博, 李威, 等. 面向机器学习系统的张量中间表示. 中国科学: 信息科学, 2022, 52(6): 1040-1052, doi: 10.1360/SSI-2020-0398
Yimin ZHUANG, Yuanbo WEN, Wei LI, et al. A tensor intermediate representation for machine learning systems. Sci Sin Inform, 2022, 52(6): 1040-1052, doi: 10.1360/SSI-2020-0398

计算机 高性能计算 评述 Website Google Scholar PDF SCOPUS引次: 0

下一代互联网互联设备关键技术专利导航研究综述

贾宏君, 周静, 乔开文, 张丹, 谢祥, 刘杰, 娄颖, 张铭, 马跃, 张柏秋, 何笑冬, 张凌宇, 郑晔晴, 邹昊, 刘科
中国科学: 信息科学, 2022, 52(5): 765-783

摘要 下一代互联网是全球各国推动科技产业革命和重塑国家长期竞争力的基础设施和先导领域,同样也是高科技密布、专利密集的战略性新兴产业领域,技术研发与创新竞争异常激烈.本文运用专利导航方法对全球下一代互联网互联设备相关技术进行了分析,通过对本导航领域多位技术专家的访谈,澄清和界定了下一代互联网互联设备关键技术的基本定义与范畴,从总体趋势、地域、核心申请人、核心发明人、专利强度、我国向国外申请专利,以及技术分支等方面分析了全球及我国下一代互联网互联设备关键技术的专利布局现状、竞争前沿和未来趋势,结合本导航领域国内外典型案例的总结,对研发创新和专利运用提出了相应的导航建议.

关键词 下一代互联网; 未来网络; 互联技术; 专利导航; next generation Internet; future network; interconnection technologies; patent navigation;

引用格式 贾宏君, 周静, 乔开文, 等. 下一代互联网互联设备关键技术专利导航研究综述. 中国科学: 信息科学, 2022, 52(5): 765-783, doi: 10.1360/SSI-2021-0286
Hongjun JIA, Jing ZHOU, Kaiwen QIAO, et al. Patent navigation on key technologies of next generation Internet interconnection technologies: a review. Sci Sin Inform, 2022, 52(5): 765-783, doi: 10.1360/SSI-2021-0286

计算机 高性能计算 评述 Website Google Scholar PDF SCOPUS引次: 0

计算体系架构研究综述与思考

高彦钊, 邬江兴, 刘勤让, 沈剑良, 宋克, 张帆
中国科学: 信息科学, 2022, 52(3): 377-398

摘要 随着摩尔定律(Moore’s law)与迪纳德(Dennard)缩放定律逐步走向终结,依靠集成电路制程工艺的进步提升计算系统性能与效能越来越困难,计算体系架构的演进成为了未来计算系统发展的重要技术途径.本文首先从应用适应性、计算驱动方式、系统重心变化、计算核心构成,以及计算逻辑使用等不同的角度回顾了体系架构的发展历程,总结了不同体系架构的优缺点;然后着重分析了在人工智能、大数据等应用飞速发展的条件下未来计算系统的能力需求特征;最后提出了软件定义计算体系架构,并梳理了其重点研究内容与关键技术,为未来计算体系架构的发展提供了一条可行的技术途径.

关键词 体系架构; 软件定义计算; 领域专用架构; 异构计算; 可重构计算; architecture; software-defined computing; domain-specific architecture; heterogeneous computing; reconfigurable computing;

引用格式 高彦钊, 邬江兴, 刘勤让, 等. 计算体系架构研究综述与思考. 中国科学: 信息科学, 2022, 52(3): 377-398, doi: 10.1360/SSI-2021-0163
Yanzhao GAO, Jiangxing WU, Qinrang LIU, et al. Review and thoughts on the development of computing architecture. Sci Sin Inform, 2022, 52(3): 377-398, doi: 10.1360/SSI-2021-0163

计算机 高性能计算 观点与争鸣 Website Google Scholar PDF SCOPUS引次: 2

专用处理器比较分析

鄢贵海, 卢文岩, 李晓维, 孙凝晖
中国科学: 信息科学, 2022, 52(2): 358-375

摘要 微处理器是现代信息系统的核心基础设施.大数据、人工智能、5G等技术的快速发展催生了数据量的爆发性增长,随之对数据处理能力的需求也急剧增长.专用计算技术被广泛认为是后摩尔时代的计算机体系结构演化的重要方向.专用处理器技术的发展一直伴生着通用处理器的发展,数字信号处理技术甚至早于传统意义上的通用处理器.通用处理器技术的发展,不仅在商业上取得了巨大的成功,很多关键技术也被专用处理器吸收借鉴用于提升专用计算的性能、优化可编程性等.本文主要分析了数字信号处理器(DSP)、图像处理器(GPU)、深度学习处理器(AI芯片)和网络处理器(NPU)的关键技术特征,并进一步对专用计算架构未来发展可能涉及的关键点作出了简要的评述.

关键词 专用处理器; 数字信号处理; 图像处理; 深度学习; 网络处理; domain-specific processor; digital signal processing; graphic processing; deep learning; network processing;

引用格式 鄢贵海, 卢文岩, 李晓维, 等. 专用处理器比较分析. 中国科学: 信息科学, 2022, 52(2): 358-375, doi: 10.1360/SSI-2021-0274
Guihai YAN, Wenyan LU, Xiaowei LI, et al. Comparative study of the domain-specific processors. Sci Sin Inform, 2022, 52(2): 358-375, doi: 10.1360/SSI-2021-0274

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 1

FJoin: 一种基于FPGA的流连接并行加速器

林力韬, 陈汉华, 金海
中国科学: 信息科学, 2022, 52(2): 314-333

摘要 流连接广泛应用于提取多源流数据之间的关键信息,是大数据处理的重要支撑技术.但连接两条大数据流时大规模的连接谓词计算,使其易成为性能瓶颈.为提高处理性能,流连接系统常采用并行和分布式两种方式扩展.然而,采用多核并行的流连接系统的扩展性受到CPU核数限制,无法应对大规模数据流.采用分布式扩展的流连接系统由于引入分布式框架运行的开销,导致硬件处理效率严重下降.为实现高效大规模扩展,本文提出一种利用FPGA加速器外设向上扩展的流连接系统FJoin.加速器可进行高并行的流动连接,载入多个流元组后,连接窗口中的数据流经一次即可完成所有连接计算.对于逻辑容易在FPGA实现的连接谓词,通过大量基本连接单元串联构成深度连接流水线,实现大规模并行.通过主机CPU和FPGA设备协同进行连接控制,将连续的流连接计算划分为独立的小批量任务,高效地保证并行化流连接的完整性.在装备FPGA加速卡的平台实现了FJoin,基于大规模真实数据集的测试结果表明,对比部署在40个节点集群上的目前最好的分布式流连接系统,本文提出的流连接加速器FJoin可在单一FPGA加速卡上将连接计算速度提升16倍,达到5倍的系统吞吐,且时延满足实时流处理要求.

关键词 流连接; FPGA; 流处理; 硬件加速; 并行计算; stream join; FPGA; stream process; hardware accelerate; parallel computing;

引用格式 林力韬, 陈汉华, 金海. FJoin: 一种基于FPGA的流连接并行加速器. 中国科学: 信息科学, 2022, 52(2): 314-333, doi: 10.1360/SSI-2021-0214
Litao LIN, Hanhua CHEN, Hai JIN. FJoin: an FPGA-based parallel accelerator for stream join. Sci Sin Inform, 2022, 52(2): 314-333, doi: 10.1360/SSI-2021-0214

计算机 高性能计算 论文 Website Google Scholar PDF SCOPUS引次: 0

一种高效的面向高并发图分析任务的存储系统

赵进, 姜新宇, 张宇, 廖小飞, 金海, 刘海坤, 杨赟, 张吉, 王彪, 余婷
中国科学: 信息科学, 2022, 52(1): 111-128

摘要 随着现实世界中图计算需求的快速增长,同一平台上往往并发运行着大量迭代图分析任务.然而,现有的图计算系统主要是为了高效执行单个图分析任务而设计的.因此,当多个并发图分析任务同时在同一个底层图上并行执行时,现有图计算系统会面临巨大的数据访问开销.为了提高并发图分析任务的吞吐量,现有的核外并发图处理方案通过共享图数据减少并发任务的数据存储与访问开销.但是,由于现实世界中图的图顶点度数幂律分布特性以及图分析任务之间的差异性,现有方案在访问数据时依旧存在着大量的不必要的冗余I/O开销.这是因为即使静态图分区中绝大部分顶点处于非活跃状态或者只被少数图分析任务共享,现有方法也依旧会将整个分区加载入内存供并发图分析任务处理.为解决上述问题,本文提出了一个面向并发图分析任务的高效存储系统GraphDP.它能够插入到现有核外图计算系统中来透明有效地减少现有图计算系统执行并发图分析任务时的存储消耗与数据访问开销,从而提高并发图分析任务的吞吐量.具体来说, GraphDP使用一种新颖的动态I/O调度策略,能够使系统以最优的I/O访问方式完成图数据的加载,并有效地减少加载到内存和cache的数据.同时, GraphDP通过高效的缓存机制在内存中优先缓存被频繁访问的图数据,从而进一步减少数据访问开销.为证明GraphDP的有效性,我们将GraphDP插入到目前流行的核外图计算系统中,包括GridGraph, GraphChi和X-Stream.实验结果表明, GraphDP分别将GridGraph, GraphChi和X-Stream的吞吐量提高了1.57~2.19倍, 1.86~2.37倍和1.62~2.21倍.

关键词 迭代图处理; 并发任务; 存储系统; I/O开销; 吞吐量; iterative graph processing; concurrent jobs; storage system; I/O overhead; throughput;

引用格式 赵进, 姜新宇, 张宇, 等. 一种高效的面向高并发图分析任务的存储系统. 中国科学: 信息科学, 2022, 52(1): 111-128, doi: 10.1360/SSI-2021-0020
Jin ZHAO, Xinyu JIANG, Yu ZHANG, et al. An efficient storage system towards high throughput of concurrent graph processing jobs. Sci Sin Inform, 2022, 52(1): 111-128, doi: 10.1360/SSI-2021-0020