智算中心建设主流加速卡选型策略

智算中心建设主流加速卡选型策略智算中心建设主流加速卡选型对比 加速卡 H800 A800 L40S B h800fp16

智算中心建设主流加速卡选型对比 —— 加速卡H800、A800、L40S、*B

一、加速卡基本性能比较

序号 比较项 H800 A800 L40S 某国产NPU(本文简称“nB”)

1

加速卡类型

GPU

GPU

GPU

NPU

2

供应商

英伟达

英伟达

英伟达

-

3

FP32(TFLOPS)

67

19.5

91.6

94

4

FP16 AI算力(TFLOPS)

989.5

312

362

312.5

5

RT算力(TFLOPS)

212

6

加速卡内存容量(GB)

80GB HBM3

80GB HBM2e

48GB GDDR6

64GB HBM2e

7

加速卡内存带宽

3.35 TB/s

2TB/s

864GB/s

2TB/s

8

外形规格

SXM

SXM

PCIe双槽

OAI OAM 模组

9

互连技术

NVLink:400GB/s PCIe5.0:128GB/s

NVLink:400GB/sPCIe4.0:64GB/s

PCIe4.0:64GB/s

HCCS:392GB/sPCIe5.0:128GB/s

10

功耗(W)

700

400

350

400

11

RDMA出口带宽

400Gbps IB

200Gbps IB

100Gbps/200Gbps IB/RoCE

200Gbps RoCE

12

RDMA出口方式

通过IB网口扩展出口

通过IB网口扩展出口

通过IB/RoCE网口扩展出口

模组芯片直出网口

  • 说明-1:为了对比,英伟达FP16 AI算力未采用疏技术的算力数值。
  • 说明-2:PCIe互联带宽是双向的。

二、按千卡(1024)进行比较

三、按同等AI算力(FP16 AI算力320P)比较

四、应用场景(大模型、宇宙)比较

五、比较总结与选型建议

1. 加速卡基本性能比较 —— 从单卡性能的角度看:

  • H800的AI算力最强,是最佳的大模型训练的优选型号。
  • L40S同时提供AI算力和渲染算力,支持模型微调与推理,以及渲染和3D建模,且AI算力优于A800和nB。

2. 按千卡(1024)进行比较 —— 从千卡性能和建设成本来看:

  • 千卡H800的AI算力达到1013P,但是价格也是最高的。千卡L40S的AI算力为375.3P,仅次于千卡H800,高于千卡A800(319.5P)和千卡nB(320P)。
  • 千卡A800的建设成本是千卡H800的62.14%,千卡nB的建设成本是千卡H800的66.98%,而千卡L40S的建设成本是千卡H800的52.25%。
  • 另外,千卡L40S同时提供217P的RT算力,可用于后续大模型落地应用的推理、渲染以及3D建模。

因此,千卡L40S集群是性价比最优的。

3. 按同等AI算力(FP16 AI算力320P)比较 —— 从同等AI算力(320P)来看:

  • H800集群最小,只需要41台(328块H800),建设成本最低的。
  • L40S集群次小,只需要110台(880块L40S),建设成本较低,低于A800集群和nB集群。
  • 此外,L40S集群还同时提供187P的RT算力,可适用于渲染和3D建模应用场景。

因此,同等AI算力比较L40S集群建设成本较低,且同时适用于更多应用场景,包括:训练、微调、推理、渲染和3D建模等。

4. 应用场景(大模型、宇宙)比较 —— 从应用场景来看:

  • H800和A800仅提供AI算力,适用于训练、推理、微调和推理加速。
  • L40S是万能卡,可以用于训练和微调,也可以用于推理、渲染与3D建模,且性能优于A800和nB。
  • L40S可用于大模型生态从上游技术研发、中游的验证、下游的应用场景落地全生命周期都可以应用。
  • nB在大模型训练、推理和推理加速上需要一定的适配。

因此,L40S是适用于大模型和宇宙应用场景的通用选择,在目前大模型研发阶段可用于基础模型训练、模型微调,在大模型落地的应用落地阶段可以用于推理。

5. 市场采购难易情况

  • H800和A800目前作为主流的大模型训练卡,在国内互联网、大模型创业公司屯货的情况下,目前H800、A800极其紧张,很难从库存中抢到相应的现货;
  • L40S相对H800和A800在国内还有一定量的库存,目前互联网大厂、大模型创业公司都处于大模型研发阶段,大家现阶段更倾向于高效研发大模型的H800,故L40S现货的竞争相对小,有一些稳定的供货渠道;
  • nB目前供货周期有比较大的延长,从目前市场信息来看,接下来还会面临普遍涨价的情况。目前来看供货量远不及通过其它途径进入国内的H100、A100芯片数量。

在考虑智算中心整体规划可以从大模型全生命周期来考虑,可以分步从中心、区域、边缘的方式考虑建设的阶段。考虑到长期的投资回报和资源持续使用周期,可以选择L40S这类现在合适做训练,随着芯片技术的成熟变成相对低端的性能。在3~5年后服役后,可残值利用拆散放到边缘数据中心作为靠近用户侧的推理、渲染的应用落地。

今天的文章 智算中心建设主流加速卡选型策略分享到此就结束了,感谢您的阅读。
编程小号
上一篇 2025-01-04 18:21
下一篇 2025-01-04 18:17

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/101473.html