计算机
其他
编者按
Website
Google Scholar
陈云霁, 窦勇, 梁云, 汪东升
面向智能应用的定制计算加速器技术专题
面向智能应用的定制计算加速器技术专题编者按
陈云霁, 窦勇, 梁云, 汪东升
中国科学: 信息科学, 2019, 49(3): 245-246
关键词 人工智能技术; 智能应用; 深度学习技术; 众核处理器; 加速器; 卷积神经网络;
计算机
体系结构
评述
Website
Google Scholar
李宏亮, 郑方, 郝子宇, 高红光, 过锋, 唐勇, 吕晖, 刘鑫, 陈芳园
面向智能应用的定制计算加速器技术专题
面向智能计算的国产众核处理器架构研究
Research on homegrown manycore architecture for intelligent computing
李宏亮, 郑方, 郝子宇, 高红光, 过锋, 唐勇, 吕晖, 刘鑫, 陈芳园
中国科学: 信息科学, 2019, 49(3): 247-255
摘要 当前人工智能对算力的需求以超摩尔定律的速度增长,算法并行性高、数据重用性强,为处理器体系结构设计带来了更大的设计空间.众核处理器以其强大的片上计算能力、灵活的片上体系结构、高效的片上通信、柔性优化的存储等特性,为人工智能提供了更广阔的发展空间.本文在介绍众核处理器发展历史的基础上梳理了主要技术路线,重点论述人工智能应用对国产众核处理器体系结构和关键特性的需求.
关键词 众核处理器; 智能计算; 体系结构; 通信机制; 存储体系; manycore processor; intelligent computing; computer architecture; communication mechanism; memory system;
计算机
体系结构
评述
Website
Google Scholar
王慧丽, 郭阳, 屈婉霞
面向智能应用的定制计算加速器技术专题
基于通用向量DSP的深度学习硬件加速技术
Deep learning hardware acceleration based on general vector DSP
王慧丽, 郭阳, 屈婉霞
中国科学: 信息科学, 2019, 49(3): 256-276
摘要 随着深度学习在众多领域发挥着越来越重要的作用,如何设计高性能、低功耗、低延迟的深度学习硬件加速器成为体系结构领域的研究热点.本文基于深度学习算法模型的结构和优化方法,分析了深度学习硬件实现中面临的困难和挑战,并对比当前主流的深度学习硬件加速平台的优势和不足,提出了基于飞腾–迈创通用向量DSP的深度学习硬件加速方案,对其向量广播、矩阵转换等加速技术进行了阐述.并围绕目前通用向量DSP硬件加速的不足,对兼顾通用向量计算和专用深度学习计算的可重构计算阵列等优化技术进行了深入的探讨与研究.
关键词 深度学习; 体系结构; 硬件设计; 加速器; 数字信号处理器(DSP); deep learning; architecture; hardware design; accelerator; digital signal processor;
计算机
体系结构
评述
Website
Google Scholar
卢丽强, 郑思泽, 肖倾城, 陈德铭, 梁云
面向智能应用的定制计算加速器技术专题
面向卷积神经网络的FPGA设计
Accelerating convolutional neural networks on FPGAs
卢丽强, 郑思泽, 肖倾城, 陈德铭, 梁云
中国科学: 信息科学, 2019, 49(3): 277-294
摘要 近年来,卷积神经网络作为深度学习中的常用算法,被广泛地应用在计算机视觉的任务中.FPGA凭借它的高并行计算、低功耗和可重复配置的特点在实现卷积神经网络的多种加速器中显示了优异的特性.近几年,使用FPGA加速卷积神经网络的方法已经被人们广泛地探索,但是大部分设计的性能都受限于片上乘法器数量.快速算法在卷积操作中能够有效降低运算中乘法的数量,进而达到平衡资源的效果.本文首先介绍4种实现卷积神经网络的算法:传统的空间卷积算法、矩阵乘法、Winograd算法和FFT算法.同时介绍国内外对于不同算法在硬件上的实现,以及相应的优化手段,并且总结使用FPGA加速CNN的发展历程.
关键词 卷积神经网络; FPGA; 卷积算法; 快速算法; Winograd; FFT; CNN; FPGA; convolution algorithm; fast algorithm; Winograd; FFT;
计算机
体系结构
评述
Website
Google Scholar
王靖, 张路, 王鹏宇, 徐嘉鸿, 李超, 朱浩瑾, 钱学海, 过敏意
面向智能应用的定制计算加速器技术专题
面向图计算的内存系统优化技术综述
Memory system optimization for graph processing: a survey
王靖, 张路, 王鹏宇, 徐嘉鸿, 李超, 朱浩瑾, 钱学海, 过敏意
中国科学: 信息科学, 2019, 49(3): 295-313
摘要 图(graph)是一种以顶点和边构成的包含多种信息的复杂数据结构.图计算(graph processing)要求我们将现实条件中的关系属性抽象为图数据结构并进行复杂计算.由于CPU性能提升遇到瓶颈,人们尝试了多种协处理器或专用加速器,致力于提高运行速度并节省能耗.由于图计算具有数据依赖性强、访存–计算比高的特点,提高图计算访存效率是改善系统性能的关键.尤其是随着图数据规模的扩大,高效的内存管理优化对异构图计算性能的提高显得尤为重要.本文将介绍异构架构图计算中内存系统的管理及优化方法,归纳目前能够提高访存效率的图数据格式;分析图计算专用加速器GPU, FPGA, ASIC, PIM等的架构特点与内存方面的优化工作;概括国内相关研究进展;同时总结图计算在内存方面的机遇与挑战.
关键词 图计算; 专用加速器; 内存管理; 内存系统架构; 访存优化; graph processing; accelerator; memory management; memory system architecture; memory access optimization;
计算机
体系结构
论文
Website
Google Scholar
严佳乐, 张颖, 涂锋斌, 杨建勋, 郑时轩, 欧阳鹏, 刘雷波, 谢源, 魏少军, 尹首一
面向智能应用的定制计算加速器技术专题
低功耗神经网络计算芯片技术研究
Research on low-power neural network computing accelerator
严佳乐, 张颖, 涂锋斌, 杨建勋, 郑时轩, 欧阳鹏, 刘雷波, 谢源, 魏少军, 尹首一
中国科学: 信息科学, 2019, 49(3): 314-333
摘要 当前人工智能引发了全球的热潮,它涵盖了图像识别、视频检索、语音识别、自动驾驶等各类智能应用.在人工智能算法中,神经网络算法扮演着举足轻重的作用,也成为了当前的研究热点.但是神经网络算法本身具有灵活性高、计算复杂、数据量大的特点,这也对计算平台提出了高性能、低功耗、高灵活性及高存储等方面的需求.针对神经网络专用芯片,本文提出了可重构硬件架构来满足神经网络的灵活性需求,以可重构架构为基础的Thinker系列可以执行多类神经网络运算.在该架构基础上,本文探究了相应的数据访存优化方案来降低功耗.在存储系统优化方面,基于eDRAM的神经网络加速方案和计算存储一体化ReRAM方案可以满足神经网络计算在存储性能及低功耗方面的需求,它们配合可重构硬件架构可以实现全新的神经网络加速框架.在高效计算方面,本文针对低比特神经网络的标准卷积计算提出基于积分和基于滤波器拆分特征重建的优化方案,以此满足高性能需求.
关键词 人工智能; 神经网络算法; 神经网络专用芯片; 可重构架构; 低功耗; artificial intelligence; neural network algorithms; neural network accelerator; reconfigurable hardware architecture; low power;
计算机
体系结构
观点与争鸣
Website
Google Scholar
马立伟
面向智能应用的定制计算加速器技术专题
深度学习驱动的领域专用架构
Domain-specific architectures driven by deep learning
马立伟
中国科学: 信息科学, 2019, 49(3): 334-341
摘要 深度学习是人工智能近年来的新进展,其对计算的新需求驱动新的计算架构.本文首先通过分析人工智能的阶段和任务指出深度学习的需求实质,然后从3个方面讨论深度学习领域专用架构,分别是计算结构的评价标准、数字计算的数制基础和深度学习计算架构的研究方向.本文首次提出使用K-L距离(Kullback-Leibler divergence)来评价深度学习结构的复杂度和准确度.本文认为以Posit数制为基础,不仅可以重新构造深度学习的计算架构,而且可以重新构造科学计算的计算架构,形成计算芯片设计的后发优势.最后全文总结认为深度学习驱动的领域专用架构将是计算架构创新的重要组成部分.
关键词 深度学习; 熵; 互熵; 数制; 计算架构; deep-learning; entropy; cross-entropy; numerical system; computing architecture;