您好,欢迎来到中国董事会秘书网[商务热线:13391969128]

咨询电话:13391969128

2023年AI算力产业链全景梳理

来源:互联网发布时间:2024-01-12 17:28:37

2023年AI算力产业链全景梳理

  一、AI 有望明显拉动算力基础设施投资

  1.1ChatGPT 爆红引发了人们对于人工智能发展的高度关注

  人工智能(AI)是指由机器展示的智能,即计算机基于大数据模拟人脑的各项功能,例如推理、视觉识别、 语义理解、学习能力及规划与决策能力等。人工智能生成内容(AIGC)是指利用人工智能技术来生成内容,包括绘画、作曲、剪辑、写作等。AIGC 的萌芽可追溯到上世纪 50 年代,90 年代从实验性向实用性逐渐转变,但受限于算法瓶颈,无法直接生成内容,从 21 世纪 10 年代开始,随着以生成对抗网络(GAN)为代表的深度学习算法的提出和迭代,AIGC 迎来了快速发展阶段。

  市场需求推动 AIGC 技术加速落地。1)降低人力和时间成本:AIGC 可以帮助人们完成许多繁琐工作,从而节省人力资本和工作时间,并可以在相同的时间内产出更多内容。2)改善内容质量。AIGC 被认为是继专业生 产内容(PGC)、用户生产内容(UGC)之后的新型内容生产方式。尽管 PGC 和 UGC 的内容更具多元化、个性化,但受限于激励措施和创作者自身因素影响,市场存在供给不足的现象。3)促进产业数字化,助力数字经济发展。产业数字化是数字经济的融合部分,是传统产业应用数字技术所带来的生产数量和效率提升,其新增产出构成数字经济的重要组成部分,AIGC 为数字经济提供了重要的数据要素。

  ChatGPT 的爆红引发了人们对于人工智能发展的高度关注。2022 年 11 月 30 日,OpenAI 发布语言模型 ChatGPT。该模型采用对话的形式与人进行交互,可以回答后续问题、承认错误、挑战不正确的前提、拒绝不适当的请求。ChatGPT 不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现出强大的能力,还具有生成代码、调试代码、为代码生成注释的能力。

  1.2 人工智能需要强大算力支撑

  以 ChatGPT 为代表的人工智能应用在运行背后需要强大的算力支撑。OpenAI 在 2018 年推出的 GPT 参数量 为 1.17 亿,预训练数据量约 5GB,而 GPT-3 参数量达 1750 亿,预训练数据量达 45TB。在模型训练阶段,ChatGPT 的总算力消耗约为 3640PF-days,总训练成本为 1200 万美元,在服务访问阶段则会有更大消耗。

\

  IDC 数据显示:2021 年全球人工智能 IT 投资额为 929.5 亿美元,预计 2026 年将增至 3014.3 亿美元,复合年增长率约 26.5%。2026 年中国市场 AI 投资预计将达 266.9 亿美元,约占全球投资 8.9%,居世界第二位,复合年增长率约 21.7%。未来五年,硬件将成为中国人工智能最大的细分市场,占人工智能总投资的 50%以上。IDC 预测,2026 年,中国在人工智能硬件市场的 IT 投资将超过 150 亿美元,接近美国人工智能硬件的市场规模,五年复合年增长率 16.5%。服务器作为硬件市场的主要组成部分,预计将占总投入的 80%以上。人工智能的发展将对算力提出更高要求,算力网络基础设施需求有望持续提升。根据中国信通院数据,2021 年全球计算设备算力总规模达到 615EFlops(每秒浮点运算次数),同比增长 44%,其中基础算力规模为 369EFlops, 智能算力规模为 232EFlops,超算算力规模为 14EFlops,预计 2030 年全球算力规模将达到 56ZFlps,平均年均增长 65%。我国智能算力规模持续高速增长,2021 年智能算力规模已经超过通用算力。根据中国信通院数据,我国计 算设备算力总规模达到 202EFlops,全球占比约为 33%,保持 50%以上的高速增长态势,增速高于全球,其中智能算力增长迅速,增速为 85%,在我国算力中的占比超过 50%。

  1.3AI 算力产业链涉及环节较多,行业需求有望全面提升

  AI 算力产业链涉及环节较多,按照算力基础设施构成来看,包括 AI 芯片及服务器、交换机及光模块、IDC 机房及上游产业链等。其中,随着训练和推理需求提升,AI 芯片及服务器需求将率先放量;AI 算力对数据中心 内部数据流量较大,光模块速率及数量均有显著提升,交换机的端口数及端口速率也有相应的增长;IDC 也有望进入需求释放阶段,预计液冷温控渗透率将快速提升,海底数据中心也可能将迎来产业化的关键节点。

  1、AI 芯片和服务器需求将率先放量

  根据测算,2023 年-2027 年全球大模型训练端峰值算力需求量的年复合增长率为 78.0%。2023 年全球大模 型训练端所需全部算力换算成的 A100 总量超过 200 万张。从云端推理所需算力角度测算,2023 年-2027 年,全 球大模型云端推理的峰值算力需求量的年复合增长率为 113%,如果考虑边缘端 AI 推理的应用,推理端算力规 模将进一步扩大。

  2、AI 算力改变数据中心内部网络架构,光模块和交换机速率及需求提升

  AI 数据中心中,由于内部数据流量较大,因此无阻塞的胖树网络架构成了重要需求之一,光模块速率及数量均有显著提升,交换机的端口数及端口速率也有相应的增长。800G 光模块 2022 年底开始小批量出货,2023 年需求主要来自于英伟达和谷歌,2024 年有望大规模出货,并存在时间前移的可能。从交换机的电口来看,SerDes 通道的速率每四年翻倍,数量每两年翻倍,交换机的带宽每两年翻倍;从光口来看,光模块每 4 年升级一次,实际出货时间是晚于电口 SerDes 及交换机芯片新版发布的时间。2019 年作为 100G 光模块升级的时间点,市场分成了 200G 和 400G 两条升级路径。但是在 2023 年这个时间点,市场下一代高速率光模块均指向 800G 光模块,叠加 AIGC 带来的算力和模型竞赛,我们预计北美各 大云厂商和相关科技巨头均有望在 2024 年大量采购 800G 光模块,同时 2023 年也可能提前采购。

  3、IDC 需求有望释放,AI 服务器高功率密度或将推升液冷渗透率

  IDC 作为算力基础设施产业链的关键环节,也有望进入需求释放阶段。在过去两年半,受多重因素影响下,云计算需求景气度下行,但 IDC 建设与供给未出现明显放缓,2021 年和 2022 年分别新增机柜数量 120 万架和 150 万架,因此短期内出现供需失衡情况(核心区域供需状况相对良好),部分地区上电率情况一般。所以 IDC 公司 2022 年业绩普遍承压。随着平台经济发展恢复以及 AI 等拉动,IDC 需求有望逐步释放,叠加 2023 新增供 给量有望较 2022 年减少(例如三大运营商 2022 年新增 IDC 机柜 15.6 万架,2023 年计划新增 11.4 万架)。人工智能大模型训练和推理运算所用的 GPU 服务器的功率密度将大幅提升,以英伟达 DGX A100 服务器为例,其单机最大功率约可以达到 6.5kW,大幅超过单台普通 CPU 服务器 500w 左右的功率水平。在此情况下, 一方面需要新建超大功率的机柜,另一方面为降低 PUE,预计液冷温控渗透率将快速提升,海底数据中心也可 能将迎来产业化的关键节点。

  二、AI 芯片需求爆发式增长

  2.1 AI 大规模落地应用对 AI 芯片性能、数量提出全方位要求

  从广义上讲,能运行 AI 算法的芯片都叫 AI 芯片。CPU、GPU、FPGA、NPU、ASIC 都能执行 AI 算法, 但在执行效率层面上有巨大的差异。CPU 可以快速执行复杂的数学计算,但同时执行多项任务时,CPU 性能开 始下降,目前行业内基本确认 CPU 不适用于 AI 计算。CPU+xPU 的异构方案成为大算力场景标配,GPU 为应用最广泛的 AI 芯片。目前业内广泛认同的 AI 芯片 类型包括 GPU、FPGA、NPU 等。由于 CPU 负责对计算机的硬件资源进行控制调配,也要负责操作系统的运行,在现代计算系统中仍是不可或缺的。GPU、FPGA 等芯片都是作为 CPU 的加速器而存在,因此目前主流的 AI 计算系统均为 CPU+xPU 的异构并行。CPU+GPU 是目前最流行的异构计算系统,在 HPC、图形图像处理以及 AI 训练/推理等场景为主流选择。IDC 数据显示,2021 年中国 AI 芯片市场中,GPU 市占率为 89%。

\

  2.1.1 GPU 性能、功能经历长期迭代升级,成为 AI 芯片中应用最广泛的选择

  GPU 能够进行并行计算,设计初衷是加速图形渲染。NVIDIA 在 1999 年发布 GeForce 256 图形处理芯片时首先提出 GPU(Graphic Processing Unit)的概念,并将其定义为“具有集成转换、照明、三角形设置/裁剪和渲 染引擎的单芯片处理器,能够每秒处理至少 1000 万个多边形”。从计算资源占比角度看,CPU 包含大量的控制单元和缓存单元,实际运算单元占比较小。GPU 则使用大量的运算单元,少量的控制单元和缓存单元。GPU 的 架构使其能够进行规模化并行计算,尤其适合逻辑简单,运算量大的任务。GPU 通过从 CPU 承担一些计算密 集型功能(例如渲染)来提高计算机性能,加快应用程序的处理速度,这也是 GPU 早期的功能定位。

  GPU 性能提升与功能丰富逐步满足 AI 运算需要。2010 年 NVIDIA 提出的 Fermi 架构是首个完整的 GPU 计算架构,其中提出的许多新概念沿用至今。Kepler 架构在硬件上拥有了双精度计算单元(FP64),并提出 GPU Direct 技术,绕过 CPU/System Memory,与其他 GPU 直接进行数据交互。Pascal 架构应用了第一代 NVLink。Volta 架构开始应用 Tensor Core,对 AI 计算加速具有重要意义。简要回顾 NVIDIA GPU 硬件变革历程,工艺、 计算核心数增加等基础特性的升级持续推动性能提升,同时每一代架构所包含的功能特性也在不断丰富,逐渐 更好地适配 AI 运算的需要。

\

  均衡分配资源的前提下,处理低精度的硬件单元数量更多,表现更高的算力性能。GPU 作为加速器得到广泛应用一定程度上得益于它的通用性,为了在不同精度的数据类型上具有良好的性能,以兼顾 AI、科学计算等 不同场景的需要,英伟达在分配处理不同数据类型的硬件单元时大体上保持均衡。因为低精度数据类型的计算占用更少的硬件资源,同一款 GPU 中的处理低精度数据类型的硬件单元的数量较多,对应计算能力也较强。以 V100 为例,每个 SM 中 FP32 单元的数量都为 FP64 单元的两倍,最终 V100 的 FP32 算力(15.7 TFLOPS)也近 似为 FP64(7.8 TFLOPS)的两倍,类似的规律也可以在各代架构旗舰 P100、A100 和 H100 中看到。

  Tensor Core 持续迭代提升其加速能力。Volta 架构引入 Tensor Core 的改动使 GPU 的 AI 算力有了明显提升, 后续在每一代的架构升级中,Tensor Core 都有比较大的改进,支持的数据类型也逐渐增多。以 A100 到 H100 为例,Tensor Core 由 3.0 迭代至 4.0,H100 在 FP16 Tensor Core 的峰值吞吐量提升至 A100 的 3 倍。同时,H100 Tensor Core 支持新的数据类型 FP8,H100 FP8 Tensor Core 的吞吐量是 A100 FP16 Tensor Core 的 6 倍。

  数据访问支配着计算能力利用率。AI 运算涉及到大量数据的存储与处理,根据 Cadence 数据,与一般工作 负载相比,每台 AI 训练服务器需要 6 倍的内存容量。而在过去几十年中,处理器的运行速度随着摩尔定律高速 提升,而 DRAM 的性能提升速度远远慢于处理器速度。目前 DRAM 的性能已经成为了整体计算机性能的一个 重要瓶颈,即所谓阻碍性能提升的“内存墙”。除了性能之外,内存对于能效比的限制也成为一个瓶颈,Cadence 数据显示,在自然语言类 AI 负载中,存储消耗的能量占比达到 82%。

\

  硬件单元的改进与显存升级增强了单张 GPU 算力的释放,然而,随着 Transformer 模型的大规模发展和应用,模型参数量呈爆炸式增长,GPT-3 参数量达到了 1750 亿,相比 GPT 增长了近 1500 倍,预训练数据量更是 从 5GB 提升到了 45TB。大模型参数量的指数级增长带来的诸多问题使 GPU 集群化运算成为必须:(1)即使最先进的 GPU,也不再可能将模型参数拟合到主内存中。(2)即使模型可以安装在单个 GPU 中(例如,通过在主机和设备内存之间交换参数),所需的大量计算操 作也可能导致在没有并行化的情况下不切实际地延长训练时间。根据 NVIDIA 数据,在 8 个 V100 GPU 上训练 一个具有 1750 亿个参数的 GPT-3 模型需要 36 年,而在 512 个 V100 GPU 上训练需要 7 个月。

  NVIDIA 开发 NVLink 技术解决 GPU 集群通信。在硬件端,GPU 之间稳定、高速的通信是实现集群运算所必须的条件。传统 x86 服务器的互连通道 PCIe 的互连带宽由其代际与结构决定,例如 x16 PCIe 4.0 双向带宽仅为 64GB/s。除此之外,GPU 之间通过 PCIe 交互还会与总线上的 CPU 操作竞争,甚至进一步占用可用带宽。NVIDIA 为突破 PCIe 互连的带宽限制,在 P100 上搭载了首项高速 GPU 互连技术 NVLink(一种总线及通讯协议),GPU 之间无需再通过 PCIe 进行交互。

  NVDIA 开发基于 NVLink 的芯片 NVSwitch,作为 GPU 集群数据通信的“枢纽”。NVLink 1.0 技术使用时,一台服务器中的 8 个 GPU 无法全部实现直接互连。同时,当 GPU 数量增加时,仅依靠 NVLink 技术,需要众 多数量的总线。为解决上述问题,NVIDIA 在 NVLink 2.0 时期发布了 NVSwitch,实现了 NVLink 的全连接。NVSwitch 是一款 GPU 桥接芯片,可提供所需的 NVLink 交叉网络,在 GPU 之间的通信中发挥“枢纽”作用。借助于 NVswitch,每颗 GPU 都能以相同的延迟和速度访问其它的 GPU。就程序来看,16 个 GPU 都被视为一 个 GPU,系统效率得到了最大化,大大降低了多 GPU 系统的优化难度。

\

  通过添加更多 NVSwitch 来支持更多 GPU,集群分布式运算得以实现。当训练大型语言模型时,NVLink 网络也可以提供显著的提升。NVSwitch 已成为高性能计算(HPC)和 AI 训练应用中不可或缺的一部分。

  2.1.2 NPU 通过特殊架构设计对 AI 运算起到加速作用

  NPU 在人工智能算法上具有较高的运行效率。为了适应某个特定领域中的常见的应用和算法而设计,通常 称之为“特定域架构(Domain Specific Architecture,DSA)”芯片,NPU(神经网络处理器)属于其中一种,常 被设计用于神经网络运算的加速。以华为手机 SoC 麒麟 970 为例,NPU 对图像识别神经网络的运算起到了显著加速效果,使其图像识别速度明显优于同代竞品的表现。

  目前已量产的 NPU 或搭载 NPU 模块的芯片众多,其他知名的芯片包括谷歌 TPU、华为昇腾、特斯拉 FSD、 特斯拉 Dojo 等。各家厂商在计算核心的设计上有其差异,例如谷歌 TPU 的脉动阵列,华为昇腾的达芬奇架构。

  以谷歌 TPU 及计算核心结构脉动阵列为例,对比其相较于 CPU、GPU 的区别:CPU 和 GPU 均具有通用性,但以频繁的内存访问导致资源消耗为代价。CPU 和 GPU 都是通用处理器,可以支持数百万种不同的应用程序和软件。对于 ALU 中的每一次计算,CPU、GPU 都需要访问寄存器或缓存 来读取和存储中间计算结果。由于数据存取的速度往往大大低于数据处理的速度,频繁的内存访问,限制了总吞吐量并消耗大量能源。谷歌 TPU 并非通用处理器,而是将其设计为专门用于神经网络工作负载的矩阵处理器。TPU 不能运行文 字处理器、控制火箭引擎或执行银行交易,但它们可以处理神经网络的大量乘法和加法,速度极快,同时消耗更少的能量,占用更小的物理空间。TPU 内部设计了由乘法器和加法器构成的脉动阵列。

  在计算时,TPU 将内 存中的参数加载到乘法器和加法器矩阵中,每次乘法执行时,结果将传递给下一个乘法器,同时进行求和。所以输出将是数据和参数之间所有乘法结果的总和。在整个海量计算和数据传递过程中,完全不需要访问内存。这就是为什么 TPU 可以在神经网络计算上以低得多的功耗和更小的占用空间实现高计算吞吐量。

  NPU 已经在 AI 运算加速领域获得了广泛应用。在数据中心获得大规模应用的 NPU 案例即 TPU,已被谷歌用于构建数据中心的超级计算机,执行特定神经网络的训练任务。在用户端,手机、汽车、智能安防摄像头等设备开始搭载 AI 计算功能,通常是利用训练好的神经网络模型执行图像处理等工作,此时 NPU 通用性差的劣势被缩小,高算力、高能耗比的优势被放大,因而得到了广泛的应用。在终端设备中,NPU 常以模块的形式包含在 SoC 内部,对 AI 运算进行加速,例如特斯拉自动驾驶芯片 FSD 均包含 NPU。

  2.1.3 训练/推理、云/边分别对 AI 芯片提出不同要求,未来推理端的算力需求将远超训练端

  AI 技术在实际应用中包括两个环节:训练(Training)和推理(Inference)。训练是指通过大数据训练出一个复杂的神经网络模型,使其能够适应特定的功能。训练需要较高的计算性能、能够处理海量数据、具有一定的通用性。推理是指利用训练好的神经网络模型进行运算,利用输入的新数据来一次性获得正确结论的过程。

  根据所承担任务的不同,AI 芯片可以分为训练 AI 芯片和推理 AI 芯片:(1)训练芯片:用于构建神经网络模型,需要高算力和一定的通用性。(2)推理芯片:利用神经网络模型进行推理预测,注重综合指标,单位能耗算力、时延、成本等都要考虑。根据 AI 芯片部署的位置,可以分为云端 AI 芯片和边缘端 AI 芯片:(1)云端:即数据中心,关注算力、扩展能力、兼容性。云端部署的 AI 芯片包括训练芯片和推理芯片。(2)边缘端:即手机、安防摄像头等领域,关注综合性能,要求低功耗、低延时、低成本。边缘端部署的 AI 芯片以实现推理功能为主。云端推理占比逐步提升,AI 落地应用数量增加。根据 IDC 数据,随着人工智能进入大规模落地应用的关键 时期,2022 年在云端部署的算力里,推理占算力已经达到了 58.5%,训练占算力只有 41.5%,预计到 2026 年, 推理占到 62.2%,训练占 37.8%。云端推理占比逐步提升说明,AI 落地应用数量正在不断增加,人工智能模型将逐步进入广泛投产模式。

  带宽、互连速率的限制,使云端超大规模的模型推理选择 A100、H100 更优,而非 T4、A10 等推理卡。以 GPT-3 为例,OpenAI 数据显示 GPT-3 模型 1750 亿参数对应超过 350GB 的 GPU 显存需求。假设参数规模与所 需显存呈线性关系,且推理的中间参数量按 1 倍估算,则 1 万亿参数规模的大模型推理需要约 4000GB 显存, 则需要 50 张 A100(80GB)或者 167 张 A10(24GB)。集群中的 GPU 数量越多意味着更复杂的互连要求,而且 A10 无法应用 NVLink 和 NVSwitch 技术,大量 A10 组成的集群仅依靠 PCIe 通信,互连带宽相比 A100 等显 卡的劣势明显,进而可能导致模型推理的时效性不佳。

  经测算,AI 大模型在训练端和推理端都将产生巨量的算力/AI 芯片需求。如果未来大模型广泛商用落地,推理端的算力/AI 芯片的需求量将明显高于训练端。大模型云端训练对算力的需求测算:测算原理:从模型的(1)参数规模入手,根据(2)训练大模型所需的 Token 数量和(3)每 Token 训练成 本与模型参数量的关系估算总算力需求,再考虑(4)单张 GPU 算力和(5)GPU 集群的算力利用率推导得出 GPU 总需求。(1)参数规模:过去几年,大模型的参数量呈指数上升,GPT-3 模型参数量已达到 1750 亿。GPT-4 具有 多模态能力,其参数量相比 GPT-3 会更大。我们在测算中假设 2023 年多模态大模型的平均参数量达到 10000 亿个,之后每年保持 20%的增速;普通大模型的平均参数量达到 2000 亿个,之后每年保持 20%的增速。(2)训练大模型所需的 Token 数量:参数规模在千亿量级的自然语言大模型 GPT-3、Jurassic-1、Gopher、 MT-NLG,训练所需的 Token 数量在千亿量级,而一些多模态大模型在训练过程中所需 Token 数据量也跟随参 数量增长而增长,我们在测算中假设多模态大模型训练所需 Token 数量达到万亿级别,并且 Token 数量与模型 参数规模保持线性增长关系。

  (3)每 Token 训练成本与模型参数量的关系:参考 OpenAI 发布的论文《Scaling Laws for Neural Language Models》中的分析,每个 token 的训练成本通常约为 6N,其中 N 是 LLM 的参数数量,我们在测算中遵循这一 关系。具体原理如下,神经网络的训练过程包括前向传播和反向传播两个过程,其中大致包括四个步骤:1. 做一个单次的推理操作,得到输出 y,例如输入猫的图片得到输出 0.986。2. 求到输出 y 与真实的目标输出 Y(假定设置的目标输出 Y=1)之间的差值,例如得到输出与目标真实 值的差值为 0.014。3. 将输出差值回溯,计算差值关于每个参数的梯度关系。4. 根据输出差值和梯度修正每个神经元的参数,实现神经网络的参数更新,促使输出逼近目标真实值。因而在一个参数量为 N 的神经网络中,一次输入带来训练过程的整体运算量大致为 6N,其中 2N 为前向传播过程,4N 为反向传播过程。

  (4)单张 GPU 算力:因为在训练大模型时,主要依赖可实现的混合精度 FP16/FP32 FLOPS,即 FP16 Tensor Core 的算力,我们在测算中选取 A100 SXM 和 H100 SXM 对应的算力 312 TFLOPS 和 990 TFLOPS 作为参数。

  (5)GPU 集群的算力利用率:参考 Google Research 发布的论文《PaLM: Scaling Language Modeling with Pathways》中的分析,我们在测算中假设算力利用率约为 30%。

  大模型云端推理对算力的需求测算:在云端推理场景下,我们分别从云端推理所需算力和云端模型部署所 需显存两个维度分别进行测算。算力角度的测算原理:基于前文对参数规模、模型数量等数据的假设,根据(1)大模型日活用户人数、(2) 每人平均查询 Token 数量、(3)每 Token 推理成本与模型参数量的关系估算推理端总算力需求,再考虑(4)单 张 GPU 算力和 GPU 集群的算力利用率推导得出 GPU 总需求。(1)大模型日活用户人数:根据 Similarweb 统计数据,2023 年 1 月 ChatGPT 的日活用户数达到 1300 万。我们在测算中假设 2023 年多模态大模型的平均日活量达到 2000 万,普通大模型的平均日活量达到 1000 万,之 后每年保持快速增长。(2)每人平均查询 Token 数量:根据 OpenAI 数据,平均每 1000 个 Token 对应 750 个单词,我们在测算中假设每位用户平均查询的 Token 数量维持在 1000 个。(3)每 Token 推理成本与模型参数量的关系:参考 OpenAI 发布的论文《Scaling Laws for Neural LanguageModels》中的分析,每个 token 的推理成本通常约为 2N,其中 N 是 LLM 的参数数量,我们在测算中遵循这一 关系。(4)单张 GPU 算力:由于测算中的大模型参数量级分别在千亿量级和万亿量级,考虑带宽容量和集群计算中的带宽限制,我们在测算中假设采用 H100 或 A100 作为云端推理卡。

  根据所有假设及可以得到,从云端推理所需算力角度测算,2023 年-2027 年,全球大模型云端推理的峰值算力需求量的年复合增长率为 113%。显存角度测算原理:首先,目前 SK Hynix 已开发出业界首款 12 层 24GB HBM3,考虑到一张 GPU 板卡面积有限,限制了计算核心周围可布置的 HBM 数量,因此未来一段时间内,GPU 显存容量的提升空间较小。其 次,推理最主要的需求是时效性,为了满足时效性,模型所需要的存储空间需要放到显存内。综合 GPU 板卡 HBM 容量有限和推理端模型需放置在 GPU 显存中这两个条件,我们从模型推理端运行所需显存入手,先预估 推理端运行一个大模型所需显存容量(1),再假设业务场景中大模型的峰值访问量,并以此得到总体的显存需 求(2),最终得到算力/AI 芯片的需求。(1)运行一个模型所需显存:以 1750 亿参数的 GPT-3 模型为例,OpenAI 数据显示参数存储需要 350GB 空间。假设推理计算中间产生的参数按照一倍计算,因此推理至少需要 700GB 显存空间,即部署一个模型需要 9 张 80GB 显存版本的 A100。(2)业务场景部署模型量及所需显存:假设该模型能够同时处理的并发任务数量为 100,即 9 张 A100 80GB 处理 100 用户同时并发访问。业务场景部署以搜索引擎为例,假设最高并发访问人数为 2000 万,则需要 2000 万/100*9=180 万张 A100 80GB。

  2.2 英伟达龙头地位稳固,国内厂商正逐步追赶

  海外龙头厂商占据垄断地位,AI 加速芯片市场呈现“一超多强”态势。数据中心 CPU 市场上,英特尔份额有所下降但仍保持较大领先优势,AMD 持续抢占份额势头正盛。AI 加速芯片市场上,英伟达凭借硬件优势 和软件生态一家独大,在训练、推理端均占据领先地位。根据 Liftr Insights 数据,2022 年数据中心 AI 加速市场 中,英伟达份额达 82%,其余海外厂商如 AWS 和 Xilinx 分别占比 8%、4%,AMD、Intel、Google 均占比 2%。国内厂商起步较晚正逐步发力,部分加速芯片领域已经涌现出一批破局企业,但目前多为初创企业规模较小, 技术能力和生态建设仍不完备,在高端 AI 芯片领域与海外厂商仍存在较大差距。未来,随着美国持续加大对中 国高端芯片的出口限制,AI 芯片国产化进程有望加快。

\

  GPU 市场方面,海外龙头占据垄断地位,国产厂商加速追赶。当前英伟达、AMD、英特尔三巨头霸占全球 GPU 芯片市场的主导地位。集成 GPU 芯片一般在台式机和笔记本电脑中使用,性能和功耗较低,主要厂商包括英特尔和 AMD;独立显卡常用于服务器中,性能更高、功耗更大,主要厂商包括英伟达和 AMD。分应用 场景来看,应用在人工智能、科学计算、视频编解码等场景的服务器 GPU 市场中,英伟达和 AMD 占据主要份额。根据 JPR,2023 年 Q1 英伟达的独立显卡(包括 AIB 合作伙伴显卡)的市场份额达 84%, AMD 和 Intel 则分别占比 12%、4%。

  图形渲染 GPU:英伟达引领行业数十年,持续技术迭代和生态构建实现长期领先。2006 年起,英伟达 GPU 架构保持约每两年更新一次的节奏,各代际产品性能提升显著,生态构建完整,Geforce 系列产品市占率长期保 持市场首位,最新代际 GeForce RTX 40 系列代表了目前显卡的性能巅峰,采用全新的 Ada Lovelace 架构,台积电 5nm 级别工艺,拥有 760 亿晶体管和 18000 个 CUDA 核心,与 Ampere 相比架构核心数量增加约 70%,能耗 比提升近两倍,可驱动 DLSS 3.0 技术。性能远超上代产品。

  AMD 独立 GPU 在 RDNA 架构迭代路径清晰,RDNA 3 架构采用 5nm 工艺和 chiplet 设计,比 RDNA 2 架构有 54%每瓦性能提升,预计 2024 年前 RDNA 4 架构可正 式发布,将采用更为先进的工艺制造。目前国内厂商在图形渲染 GPU 方面与国外龙头厂商差距不断缩小。芯动 科技的“风华 2 号”GPU 像素填充率 48GPixel/s,FP32 单精度浮点性能 1.5TFLOPS,AI 运算(INT8)性能 12.5TOPS, 实测功耗 4~15W,支持 OpenGL4.3、DX11、Vulkan 等 API,实现国产图形渲染 GPU 突破。景嘉微在工艺制程、 核心频率、浮点性能等方面虽落后于英伟达同代产品,但差距正逐渐缩小。2023 年顺利发布 JM9 系列图形处理 芯片,支持 OpenGL 4.0、HDMI 2.0 等接口,以及 H.265/4K 60-fps 视频解码,核心频率至少为 1.5GHz,配备 8GB 显存,浮点性能约 1.5TFlops,与英伟达 GeForce GTX1050 性能相近,有望对标 GeForce GTX1080。

  GPGPU:英伟达和 AMD 是目前全球 GPGPU 的领军企业。英伟达的通用计算芯片具备优秀的硬件设计, 通过 CUDA 架构等全栈式软件布局,实现了 GPU 并行计算的通用化,深度挖掘芯片硬件的性能极限,在各类 下游应用领域中,均推出了高性能的软硬件组合,逐步成为全球 AI 芯片领域的主导者。根据 stateof.AI 2022 报 告,英伟达芯片在 AI 学术论文中的出现频次远超其他类型的 AI 芯片,是学术界最常用的人工智能加速芯片。在 Oracle 以及腾讯云中,也几乎全部采用英伟达的 GPU 作为计算加速芯片。

  AMD 2018 年发布用于数据中心的 Radeon Instinct GPU 加速芯片,Instinct 系列基于 CDNA 架构,如 MI250X 采用 CDNA2 架构,在通用计算领域 实现计算能力和互联能力的显著提升,此外还推出了对标英伟达 CUDA 生态的 AMD ROCm 开源软件开发平台。英伟达的 H100 及 A100、AMD 的 MI100、MI200 系列等是当前最为主流的 GPGPU 产品型号。

  ASIC 市场方面,由于其一定的定制化属性,市场格局较为分散。在人工智能领域,ASIC 也占据一席之地。其中谷歌处于相对前沿的技术地位,自 2016 年以来,就推出了专为机器学习定制的 ASIC,即张量处理器(Tensor Processing Unit,TPU),近期,谷歌首次公布了其用于训练人工智能模型的 AI 芯片 TPU v4 的详细信息,其采 用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度,同时使用了脉动阵 列等设计来优化矩阵乘法与卷积运算,对大规模矩阵的乘法可以最大化数据复用,减少访存次数,大幅提升 Transformer 模型的训练速度,同时节约训练成本。谷歌称在同等规模系统下基于 TPU 的谷歌超级计算机比基于 英伟达 A100 芯片的系统最高快 1.7 倍,节能效率提高 1.9 倍。谷歌 TPU 属于定制化 ASIC 芯片,是专门为神经网络和 TensorFlow 学习框架等量身打造的集成芯片,需要在这类特定框架下才能发挥出最高运行效率。

  生态体系决定用户体验,是算力芯片厂商最深的护城河。虽然英伟达 GPU 本身硬件平台的算力卓越,但其强大的 CUDA 软件生态才是推升其 GPU 计算生态普及的关键力量。从技术角度来讲,GPU 硬件的性能门槛并不高,通过产品迭代可以接龙头领先水平,但下游客户更在意能不能用、好不好用的生态问题。CUDA 推出之前 GPU 编程需要机器码深入到显卡内核才能完成任务,而推出之后相当于把复杂的显卡编程包装成为一个简单的接口,造福开发人员,迄今为止已成为最发达、最广泛的生态系统,是目前最适合深度学习、AI 训练的 GPU 架构。英伟达在 2007 年推出后不断改善更新,衍生出各种工具包、软件环境,构筑了完整的生态,并与众多客户合作构建细分领域加速库与 AI 训练模型,已经积累 300 个加速库和 400 个 AI 模型。尤其在深度学习成为主流之后,英伟达通过有针对性地优化来以最佳的效率提升性能,例如支持混合精度训练和推理,在 GPU 中加 入 Tensor Core 来提升卷积计算能力,以及最新的在 H100 GPU 中加入 Transformer Engine 来提升相关模型的性能。这些投入包括了软件和芯片架构上的协同设计,使得英伟达能使用最小的代价来保持性能的领先。而即便是英伟达最大的竞争对手 AMD 的 ROCm 平台在用户生态和性能优化上还存在差距。CUDA 作为完整的 GPU 解决方案,提供了硬件的直接访问接口,开发门槛大幅降低,而这套易用且能充分调动芯片架构潜力的软件生生态让英伟达在大模型社区拥有巨大的影响力。正因 CUDA 拥有成熟且性能良好的底层软件架构,故几乎所有 的深度学习训练和推理框架都把对于英伟达 GPU 的支持和优化作为必备的目标,帮助英伟达处于持续处于领先地位。

  英伟达领先地位稳固。英伟达凭借良好的硬件性能和完善的 CUDA 生态将持续处于领先地位,但起步较晚的挑战者也在奋起直追,未来有望出现一超多强的多元化竞争格局。训练市场方面,英伟达高算力 GPU 是当前 AI 训练主流选择,谷歌 TPU 面临着通用性的局限,AMD 存在生态构建差距,但在二者的冲击及云厂商自研芯 片的竞争下,AI 训练市场也或将出现格局的变动。推理市场方面,GPU 具有较好的生态延续性仍占主流,如英 伟达针对推理市场的产品 Tesla T4 上的芯片包含了 2560 个 CUDA 内核,性能达到了FP64 0.25 TFLOPS、FP32 8.1TFLOPS、INT8 达 130 TOPS,可提供多精度推理性能,以及优于 CPU 40 倍的低延时高吞吐量,可以实时满足更多的请求。但其他解决方案在成本、功耗具有优势,特定市场竞争格局相对激烈,工作负载不同对应的芯片性能需求不同,T4 PCIe,有望出现各类芯片共存的局面。

  国内算力芯片厂商具备较好的入局机会。国产算力芯片市场需求巨大,国内人工智能生态环境较好,在 AI 应用领域的步伐处于全球前列,国产 GPU 厂商具孵化和发展的沃土,国内厂商供应链多元化的需求带来了国内 AI 芯片厂商适配窗口期,尤其是当前大模型发展早期是适配的黄金窗口期。其中,寒武纪、华为等兼容 CUDA 和自建生态是国产厂商发展的两大趋势,具备很大的竞争力潜力。短期来看,国内厂商兼容英伟达 CUDA,可以减轻开发和迁移难度,进而快速实现客户端导入。同时需要避开英伟达绝对优势领域,在芯片设计结构上形成差异化竞争;长期来看,国产 GPU 如果完全依赖 CUDA 生态,硬件更新将不得不绑定英伟达的开发进程,应借鉴 AMD、Google 构建自身生态体系,开展软硬件结合的平台化布局,并打造不同领域快速落地垂直解决方案的能力,铸造自己的生态圈核心壁垒。预计硬件性能高效以及能够构建符合下游需求的生态体系的国产厂商有望脱颖而出。

  以上就是 2023年AI算力产业链全景梳理的相关内容,希望对大家的学习和解决疑问有所帮助,请您多多支持董秘网和董秘网公众号。

纠错