AI硬件加速器的爆炸式增长推动AI发展

2018-08-02 08:35

专业的硬件平台是人工智能、机器学习和深度学习的未来，也是我们所生活的云到边缘世界的每一项任务的未来。

人工智能的快速发展正在催生一种新型的机器学习和深度学习的硬件加速器。

一些人把这称为“寒武纪大爆发”，这是对当前狂热创新时期的一个恰当比喻。它指的是大约5亿年前的一段时期，基本上所有多细胞动物的生物“身体结构”都是在那时首次出现的。从那时起，这些生物——包括我们自己在内——开始分散开来，占领、开发并彻底改变地球上的每一个生态位。

创新的人工智能硬件加速器架构的范围正不断扩大。虽然您可能认为图形处理单元（GPU）是主要的人工智能硬件架构，但这远非事实。在过去几年中，无论是初创企业还是老牌芯片供应商都推出了令人印象深刻的新一代硬件架构，这些架构针对机器学习、深度学习、自然语言处理和其他人工智能工作负载进行了优化。

除了新一代的GPU之外，这些新的AI优化芯片组体系结构中最主要的是神经网络处理单元（ NNPUs ）、现场可编程门阵列（ FPGAs ）、专用集成电路（ ASIC ）和各种被称为神经突触结构的相关方法。正如Ars Technica上的一篇文章所指出的，今天的人工智能市场没有相当于英特尔x86 CPU的硬件单一文化，而x86 CPU曾经主宰着桌面计算领域。这是因为，这些新的人工智能加速器芯片架构正在适应迅速发展的云到边缘生态系统（如计算机视觉）中高度特定的角色。

AI加速器芯片的发展

要了解AI加速器芯片的快速发展，最好将重点放在市场机遇和挑战上，如下所示。

AI层

要了解人工智能加速器是如何发展的，先看看边缘生态系统，在那里新的硬件平台正在被优化，以实现移动、嵌入式和物联网设备的更大自主性。除了智能手机嵌入式人工智能处理器的激增之外，这方面最值得注意的是人工智能机器人技术的创新，它正在渗透到从无人驾驶汽车到无人驾驶飞机、智能电器和工业物联网的所有领域。

在这方面最值得注意的进展之一，是英伟达（Nvidia）对其Jetson Xavier AI系列芯片（SOCs）上的人工智能系统的最新增强。NVIDIA发布了Isaac软件开发工具包，以帮助构建在其专用机器人硬件上运行的机器人算法。

Jetson Xavier芯片反映了智能机器人的复杂性，由六个处理单元组成，包括512核的Nvidia Volta Tensor Core GPU、八核的Carmel Arm64 CPU、双Nvidia深度学习加速器以及图像、视觉和视频处理器。这些让它可以处理数十种算法，帮助机器人自主感知环境，有效响应，并与人类工程师一起安全的操作。

人工智能任务

AI加速器已经开始渗透到分布式云到边缘、高性能计算、超聚合服务器和云存储体系结构中的每一层。所有这些领域都有源源不断的新硬件创新，以支持更快速、更高效和准确的人工智能处理。

人工智能硬件创新正在进入市场，以加速这些不同应用环境的特定数据驱动的任务。市场上无数的人工智能芯片组架构反映了机器学习、深度学习、自然语言处理和其他人工智能工作负载的不同范围，从存储密集型到计算密集型，涉及到不同程度的设备自主性和人与人之间的互动。

为了解决AI芯片组用于支持的各种工作负载，供应商在其产品组合中甚至在特定的嵌入式AI部署中混合了各种技术，例如驱动智能机器人和移动应用的SOC。

Intel的Xeon Phi CPU架构已经被用于加速人工智能任务。但是英特尔认识到，如果没有专门的AI加速器芯片，它将无法跟上时代的步伐，因为这些芯片让它能够与Nvidia Volta （在GPU中）以及大量生产NNPUs和其他专门AI芯片的厂商正面竞争。因此，英特尔现在有一个产品团队正在开发一个新的GPU，将在未来两年内发布。

与此同时，它继续通过AI优化的芯片组对下面几种架构类别进行风险对冲：神经网络处理器（Nervana），FPGA（Altera），计算机视觉ASIC（Movidius）和自动驾驶汽车ASIC（MobilEye）。它还计划为下一代人工智能的挑战构建自学习神经形态和量子计算的芯片。

AI容差

每一个加速硬件创新都必须拥有满足在相关的操作和经济公差中实现特定指标的能力。

在操作指标中，每个AI芯片组必须符合形状因素、能效、热和电磁辐射以及在坚固性方面的相关约束。

在经济度量中，它必须在性能和成本方面具有竞争力，以适应其要部署到的层和任务。比较行业基准将成为决定AI加速器技术能否在竞争激烈的市场生存下去的关键因素。

在一个正在走向工作负载优化的人工智能体系结构的行业中，用户将采用最快、最可扩展、最节能和成本最低的硬件、软件和云平台来运行他们的人工智能任务，包括在每一层中进行开发、培训、操作和推理。

AI加速器专用集成电路的多样性

当下的AI加速器硬件架构百花齐放。它们是如此的多样化，如此的发展迅速，以至于人们很难跟上这个市场不断创新的步伐。

除了核心的人工智能芯片组制造商（如Nvidia和intelasics）之外，针对特定平台的AI工作负载的制造商比比皆是。你可以在最近的几个新闻中看到这种趋势：

微软正在为其HoloLens现实增强耳机准备一款AI芯片。

Google有一个特殊的NNPU，即Tensor处理单元，可用于Google Cloud Platform上的AI应用程序。

据报道，亚马逊正在为其Alexa家庭助理开发AI芯片。

Apple正在开发一款能为Siri和FaceID提供动力的AI处理器。

特斯拉（Tesla）正在为其自动驾驶汽车开发人工智能处理器。

AI加速器的基准框架开始出现

AI加速器市场中的跨供应商的合作伙伴关系正变得越来越复杂和重叠。例如，看看中国科技巨头百度是如何分别与英特尔和英伟达合作的。除了在自然语言处理、图像识别和自动驾驶方面推出自己的NNPU芯片外，百度还与英特尔合作，在其公共云上支持FPGA支持的AI工作负载加速，推出一个用于Xeon CPU的AI框架、配备人工智能的自主汽车平台、电脑视觉驱动的零售摄像头，以及采用英特尔nGraph的一个硬件无关的深层神经网络编译器。这一切都是在与英伟达发布类似的声明之后，包括将Volta GPU引入百度云，对百度的paddelpaddle AI开发框架进行调整，并将Nvidia驱动的AI推向中国消费者市场。

在云计算和专业SoCs中，整理这些令人困惑的AI加速器硬件选项及其组合已经变得越来越困难。如果没有灵活的基准测试框架，将AI加速器硬件在任何给定任务上对整体性能的贡献分离出来是很困难的。

幸运的是，人工智能行业正在开发开放、透明和与供应商无关的框架，以用于评估不同工作负载下不同硬件／软件栈的性能比较。

MLPerf

例如，MLPerf开源基准组正在开发一个标准套件，用于对机器学习软件框架、硬件加速器和云平台的性能进行基准测试。MLPerf可以在GitHub上获取，目前仍是测试版，它为当今人工智能部署中占主导地位的一些人工智能任务提供了参考实现。它将基准限制在特定算法（如resnet － 50v1）对特定数据集（如ImageNet）执行的特定AI任务（如图像分类）上。核心基准集中在特定的硬件／软件部署上，比如在ubuntu16．04、Nvidia Docker和CPython 2上运行的图像分类训练任务，这些任务由16个CPU芯片、一个Nvidia P100 Volta GPU和600G本地磁盘组成。

MLPerf框架足够灵活，因此可以想象，基于GPU的图像分类训练可以与运行在不同硬件加速器上的相同任务（比如最近发布的百度Kunlun FPGAs ）进行基准对比，但是要使用等效的软件／硬件堆栈。

其他人工智能行业基准测试计划也支持对替代人工智能加速器芯片以及部署中的其他硬件和软件组件进行比较性能评估，这些组件使用相同的模型针对相同的训练或运营数据来处理相同的任务。其他的基准指标包括DawnBench、ReQuest、Transaction Processing Performance委员会的人工智能工作组和CEAN2D2。它们都足够灵活，可以应用于任何部署层中运行的任何人工智能工作负载任务，并可以根据任何经济容差进行测量。

EEMBC机器学习基准套件

在将人工智能工作负载转移到边缘的过程中，一些人工智能基准测试计划完全侧重于测量部署在这一层的硬件／软件栈的性能。例如，行业联盟EEMBC最近开始了一项新的工作，定义一个基准套件，用于在功率受限的边缘设备中运行的优化芯片组中执行机器学习任务。在英特尔的主持下，EEMBC的机器学习基准套件组将使用来自虚拟助理、智能手机、物联网设备、智能扬声器、物联网网关和其他嵌入式／边缘系统的真实机器学习工作负载，来确定用于加速机器学习推理作业的处理器内核的性能潜力和能效。

EEMBC机器学习基准将测量低、中、高复杂度推理任务的推理性能、神经网络启动时间和功率效率。它与机器学习前端框架、后端运行时环境和硬件加速器目标无关。该小组正在进行概念验证，并计划在2019年6月前发布其初始基准套件，解决一系列基于边缘推理的神经网络架构和用例。

EEMBC Adasmark基准测试框架

EEMBC的Adasmarkbenchmarking框架专注于配备AI的智能车辆，针对的是较窄范围的边缘层和任务。除了机器学习基准测试之外，EEMBC还在为嵌入在高级辅助驾驶系统的AI芯片开发一个单独的性能测量框架。

该套件有助于测量在多设备、多芯片、多应用智能汽车平台上执行的人工智能推理任务的性能。它对与高度并行的智能车辆应用程序（如计算机视觉、自动驾驶、汽车环绕视图、图像识别和移动增强现实）相关联的现实世界推断工作负载进行了基准测试。它可以度量复杂智能汽车边缘架构的推理性能，这些架构通常包括多个专用CPU，GPU以及在公共机箱内执行不同任务的其他硬件加速器芯片组。

新兴的人工智能场景将需要更多的特殊芯片

几乎可以肯定的是，还会有其他专门的AI边缘场景出现，它们需要自己的专用芯片、SoCs、硬件平台和基准测试。AI芯片组的下一个巨大增长领域可能是用于加快加密货币挖掘的边缘节点，这一用例与AI和游戏一起，已经吸收了对Nvidia GPU的大量需求。

专注于这一领域的一家供应商是DeepBrain Chain，它最近宣布了一种计算平台，可以部署到分布式配置中，以实现人工智能工作负载的高性能处理和加密货币的挖掘。采矿站有两个、四个和八个GPU的配置，以及独立工作站和128个GPU的定制AI HPC集群。

不久之后，我们几乎肯定会看到新一代的专注于分布式加密货币挖掘的人工智能ASIC。

在我们生活的这个从云到边缘计算的世界中，为每一层和每一项任务采用专业的硬件平台是人工智能的未来。