又是“拼装货”？英伟达800亿晶体管核弹GPU芯片架构深入解读

水木然真实性核验

认证：电脑配件优质原创作者

发布时间：2022-03-24 15:27 来源：什么值得买

浏览量：2838 941次收藏

本文有1850个文字，大小约为8KB，预计阅读时间5分钟

[导读]：编者注：NVIDIA 在 3 月 23 日公布基于全新 Hopper 架构的 GPU H100，其多种精度下的 AI 性能达到上一代 A100 的 3~6 倍。NVIDIA 如何做到如此大幅的性能升级？Hopper 架构有何玄机？千芯科技董事...

精选评测好文

编者注：NVIDIA 在 3 月 23 日公布基于全新 Hopper 架构的 GPU H100，其多种精度下的 AI 性能达到上一代 A100 的 3~6 倍。NVIDIA 如何做到如此大幅的性能升级？Hopper 架构有何玄机？千芯科技董事长陈巍博士对此加以解读。

在 2022 年 3 月 NVIDIA GTC 大会上，NVIDIA 创始人兼 CEO 黄仁勋介绍了一款基于全新 Hopper 架构的 H100 GPU，这是英伟达迄今用于加速人工智能（AI）、高性能计算（HPC）和数据分析等任务的最强 GPU 芯片。

▲ Hopper 架构 H100 GPU 的主要升级

Hopper 架构以计算科学的先驱 Grace Hopper 的姓氏命名。黄教主称：“Hopper H100 是有史以来最大的代际飞跃。H100 具有 800 亿个晶体管，在性能上堪称 NVIDIA 的“新核弹”。

那么，“新核弹”的核心是什么样的？本文将深入解读和分析 Hopper 架构。

▲ Hopper 架构的 H100 与前几代 GPU 性能对比

注：Grace Hopper 博士是哈佛 Mark 1 的首批程序员，被誉为编译语言之母。据称她发现了计算机程序中的第一个 Bug，同时也创造了计算机世界最大的 Bug—— 千年虫。

01. Hopper 的整体结构拆解

NVIDIA Hopper 架构 H100 芯片采用台积电 4nm 工艺（N4 是台积电 N5 工艺的优化版），芯片面积为 814 平方毫米（比 A100 小 14 平方毫米）。

▲ H100 Tensor Core GPU 的性能规格

Hopper 架构可以视为由两组对称结构拼接而成。（是不是有点类似我们之前介绍的苹果 UltraFusion 架构的拼接思路？不过这里的 GPU 还是单片的。回顾苹果 UltraFusion 架构可参见《苹果芯片“拼装”的秘方，在专利里找到了》文章。）

在顶层拓扑上，Hopper 似乎与她的前辈 Ampere 架构差别不大。图中的 Hopper 架构 GPU 由 8 个图形处理集群（Graphics Processing Cluster，GPC）“拼接”组成。

▲ Hopper 架构基本结构

外周与多组 HBM3 封装在一起（Chiplet 技术），形成整个芯片模组 —— 从模组上看又是个“拼装货”。片上的每个 GPC 又由 9 个纹理处理集群（Texture Processor Cluster，TPC）“拼接”组成。

由 PCIe5 或 SMX 接口进入的计算任务，通过带有多实例 GPU（Multi-Instance GPU，MIG）控制的 GigaThread 引擎分配给各个 GPC。GPC 之间通过 L2 缓存共享中间数据，GPC 计算的中间数据通过 NVLink 与其他 GPU 连接 / 交换。每个 TPC 由 2 个流式多处理器（Streaming Multiprocessor，SM）组成。

Hopper 架构的性能提升和主要变化体现在新型线程块集群技术和新一代的流式多处理器（具有第 4 代张量核心）。

▲ 线程块集群和带有集群的网格

Hopper 架构中引入了一种新的线程块集群机制，该机制可以跨 SM 单元进行协同计算。H100 中的线程块集群可在同一 GPC 内的大量 SM 并发运行，这样对较大的模型具有更好的加速能力。

02. 新一代流式多处理器 SM 与 FP8 支持

Hopper 架构的新一代流式多处理器引入了 FP8 张量核心（Tensor Core）来加速 AI 训练和推理。FP8 张量核心支持 FP32 和 FP16 累加器，以及两种 FP8 输入类型（E4M3 和 E5M2）。

▲ 流式多处理器 SM

与 FP16 或 BF16 相比，FP8 将数据存储要求减半，吞吐量翻倍。我们在 Transformer 引擎的分析中还会看到使用 FP8 可自适应地提升 Transformer 的计算速度。

每个 SM 包括 128 个 FP32 CUDA 核心、4 个第 4 代张量核心（Tensor Core）。

进入 SM 单元的指令首先存入 L1 指令缓存（L1 Instruction Cache），然后再分发到 L0 指令缓存（L1 Instruction Cache）。与 L0 缓存配套的线程束排序器（Wrap Scheduler）和调度单元（Dispatch Unit）来为 CUDA 核心和张量核心分配计算任务。（注：GPU 中最小的硬件计算执行单位是线程束，简称 Warp。）