智算中心建设主流加速卡选型对比 —— 加速卡H800、A800、L40S、*B
一、加速卡基本性能比较
序号 | 比较项 | H800 | A800 | L40S | 某国产NPU(本文简称“nB”) |
---|---|---|---|---|---|
1 |
加速卡类型 |
GPU |
GPU |
GPU |
NPU |
2 |
供应商 |
英伟达 |
英伟达 |
英伟达 |
- |
3 |
FP32(TFLOPS) |
67 |
19.5 |
91.6 |
94 |
4 |
FP16 AI算力(TFLOPS) |
989.5 |
312 |
362 |
312.5 |
5 |
RT算力(TFLOPS) |
无 |
无 |
212 |
无 |
6 |
加速卡内存容量(GB) |
80GB HBM3 |
80GB HBM2e |
48GB GDDR6 |
64GB HBM2e |
7 |
加速卡内存带宽 |
3.35 TB/s |
2TB/s |
864GB/s |
2TB/s |
8 |
外形规格 |
SXM |
SXM |
PCIe双槽 |
OAI OAM 模组 |
9 |
互连技术 |
NVLink:400GB/s PCIe5.0:128GB/s |
NVLink:400GB/sPCIe4.0:64GB/s |
PCIe4.0:64GB/s |
HCCS:392GB/sPCIe5.0:128GB/s |
10 |
功耗(W) |
700 |
400 |
350 |
400 |
11 |
RDMA出口带宽 |
400Gbps IB |
200Gbps IB |
100Gbps/200Gbps IB/RoCE |
200Gbps RoCE |
12 |
RDMA出口方式 |
通过IB网口扩展出口 |
通过IB网口扩展出口 |
通过IB/RoCE网口扩展出口 |
模组芯片直出网口 |
- 说明-1:为了对比,英伟达FP16 AI算力未采用疏技术的算力数值。
- 说明-2:PCIe互联带宽是双向的。
二、按千卡(1024)进行比较
三、按同等AI算力(FP16 AI算力320P)比较
四、应用场景(大模型、宇宙)比较
五、比较总结与选型建议
1. 加速卡基本性能比较 —— 从单卡性能的角度看:
- H800的AI算力最强,是最佳的大模型训练的优选型号。
- L40S同时提供AI算力和渲染算力,支持模型微调与推理,以及渲染和3D建模,且AI算力优于A800和nB。
2. 按千卡(1024)进行比较 —— 从千卡性能和建设成本来看:
- 千卡H800的AI算力达到1013P,但是价格也是最高的。千卡L40S的AI算力为375.3P,仅次于千卡H800,高于千卡A800(319.5P)和千卡nB(320P)。
- 千卡A800的建设成本是千卡H800的62.14%,千卡nB的建设成本是千卡H800的66.98%,而千卡L40S的建设成本是千卡H800的52.25%。
- 另外,千卡L40S同时提供217P的RT算力,可用于后续大模型落地应用的推理、渲染以及3D建模。
因此,千卡L40S集群是性价比最优的。
3. 按同等AI算力(FP16 AI算力320P)比较 —— 从同等AI算力(320P)来看:
- H800集群最小,只需要41台(328块H800),建设成本最低的。
- L40S集群次小,只需要110台(880块L40S),建设成本较低,低于A800集群和nB集群。
- 此外,L40S集群还同时提供187P的RT算力,可适用于渲染和3D建模应用场景。
因此,同等AI算力比较L40S集群建设成本较低,且同时适用于更多应用场景,包括:训练、微调、推理、渲染和3D建模等。
4. 应用场景(大模型、宇宙)比较 —— 从应用场景来看:
- H800和A800仅提供AI算力,适用于训练、推理、微调和推理加速。
- L40S是万能卡,可以用于训练和微调,也可以用于推理、渲染与3D建模,且性能优于A800和nB。
- L40S可用于大模型生态从上游技术研发、中游的验证、下游的应用场景落地全生命周期都可以应用。
- nB在大模型训练、推理和推理加速上需要一定的适配。
因此,L40S是适用于大模型和宇宙应用场景的通用选择,在目前大模型研发阶段可用于基础模型训练、模型微调,在大模型落地的应用落地阶段可以用于推理。
5. 市场采购难易情况
- H800和A800目前作为主流的大模型训练卡,在国内互联网、大模型创业公司屯货的情况下,目前H800、A800极其紧张,很难从库存中抢到相应的现货;
- L40S相对H800和A800在国内还有一定量的库存,目前互联网大厂、大模型创业公司都处于大模型研发阶段,大家现阶段更倾向于高效研发大模型的H800,故L40S现货的竞争相对小,有一些稳定的供货渠道;
- nB目前供货周期有比较大的延长,从目前市场信息来看,接下来还会面临普遍涨价的情况。目前来看供货量远不及通过其它途径进入国内的H100、A100芯片数量。
在考虑智算中心整体规划可以从大模型全生命周期来考虑,可以分步从中心、区域、边缘的方式考虑建设的阶段。考虑到长期的投资回报和资源持续使用周期,可以选择L40S这类现在合适做训练,随着芯片技术的成熟变成相对低端的性能。在3~5年后服役后,可残值利用拆散放到边缘数据中心作为靠近用户侧的推理、渲染的应用落地。
今天的文章 智算中心建设主流加速卡选型策略分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/101473.html