2025年科普文:软件架构网络系列之【RDMA 能给数据中心带来什么:数据中心网络最佳选择是RoCEv2不是InfiniBand】

科普文:软件架构网络系列之【RDMA 能给数据中心带来什么:数据中心网络最佳选择是RoCEv2不是InfiniBand】IB 网络 vsRoCE 网络当前市场上 多家主流交换机供应商均支持 RoCE 协议 并提供了相应的解决方案

概叙

在 AI 时代,数据中心提供了实现数字化生活所需的信息和算法。

无损传输、高性能存储、高性能网络是数据中心网络对数字转换的顺利进行至关重要指标和要去。 人工智能、网络性能等高性能应用的关键指标包括吞吐量、时延和拥塞。

吞吐量是指快速传输大量数据的网络总容量。时延是指跨数据中心网络事务的总延 迟。当流量超过网络容量时,会发生拥塞。丢包是严重影响吞吐量和时延的因素。

科普文:软件架构网络系列之【高性能网络/存储之基础:TCP/IP、DMA、RDMA、Infiniband、RoCE、iWARP】-CSDN博客

数字化过程中产生的大量数据成为核心资产,人工智能应用也随之出现。根据华为全球产业展望的预测,到 2025 年,新增数据量将达到 180ZB3。

然而,数据并不是“自我终结”。从数据中获取的知识和智慧拥有永恒价值。非结构化数据 (如原始语音、视频、图像数据)的比例不断增加,未来将占到所有数据的 95% (如上图 )。现有的大数据分析方法无法适应数据的快速增长,需要进行性能优化,从原始数据中挖掘更多价值。基于深度学习的人工智能方法可以过滤掉大量无效数据,并自动提取有用信息,提供更有效的决策建议和行为指导。

总体来说,云数据中心架构提高了应用性能,扩大了应用规模。云平台允许 IT资源快速分配,创建以应用程序为中心的服务模型。

在 AI 时代,应用程序需要消耗前所未有的数据量,必要的性能创新增强了云数据中心架构的负载处理能 力。在现有的云数据中心中,很难实现性能创新和新人工智能应用程序的无缝衔 接。知道如何根据人工智能应用的需求实现数据有效处理,至关重要。实现成功 的关键因素是有机结合应用程序的存储资源和计算资源之间的数据流。

数据中心需求和技术不断提升

1.原有数据中心桥接标准

在 10Gbps 以太网的早期,ODCC 工作组就开始关注数据中心桥接(DCB)。

DCB 任务组针对数据中心环境中所用的以太网、网桥和相关协议定义了一组增 强功能。使用案例和重点应用是集群和存储区域网络,使用了传统的专用技术, 如 InfiniBandTM和光纤通道4。以太网的重要目标是消除拥塞造成的损失,并在链 路上为特定流量分配带宽。数据中心桥接的关键参数包括:

  • 优先级流量控制(PFC):一种链路层流量控制机制,消除了数据包丢失 风险,可以独立应用于各种流量。
  • 增强型传输选择(ETS):一种队列调度算法,允许流量带宽分配。
  • 拥塞通知:一种检测拥塞的二层端到端拥塞管理协议,通过跨二层网络 的信号来限制发送端的传输速率,避免丢包。
  • 数据中心桥接能力交换协议(DCBX):一个识别和性能交换协议,与链 路层发现协议(LLDP)共同作用,用于传输上述参数的功能和配置。

这些参数对于将以太网扩展到集群计算和存储区域网络的专业市场非常重 要。然而,随着环境和技术的变化,还需要不断优化。目前,使用三层协议和高 度协调管理系统的数据中心已经实现规模部署。以太网链路已经从 10Gbps 提高 到 400 Gbps,并计划将速度提高到 Tbps 范围。人工智能等新应用程序的出现, 对基础设施提出了新的要求,推动了体系结构变化。为进一步扩大以太网在现代 数据中心中的应用范围,还需要继续创新。

2. 需求演化

人工智能应用给数据中心网络带来了压力。

自动驾驶汽车的人工智能训练就 是一个例子。深度学习算法严重依赖海量数据和高性能计算技术。每天收集的训 练数据接近 PB 级(1PB=1024TB),如果使用传统硬盘存储和普通 CPU 来处理 数据,可能至少需要一年才能完成训练。这显然是不切实际的。为了提高人工智 能的数据处理效率,需要在存储和计算领域进行革命性的变革。

例如,存储性能 需要提高一个数量级才能实现每秒 100 万次以上的输入/输出操作(IOPS)5。 为了满足实时数据的访问要求,存储介质已经从硬盘驱动器(HDD)发展到 固态驱动器(SSD),再到存储类内存(SCMs),存储介质延迟缩短了 1000 倍以 上。如果在网络延迟方面没有类似的改进,这些存储优化就无法实现,只能简单 地将瓶颈从介质转移到网络上。对于网络固态硬盘(SSD),通信时延占端到端存 储总时延的 60%以上。如果转向存储类内存(SCMs),除非网络性能得到改善, 否则这一比例可能会增加到 85%。这就造成了存储介质有一半以上的时间处于闲 置状态。同时优化存储媒介和 AI 计算处理器,会使得通信时延占总时延的 50% ,以上,限制技术进步,造成资源浪费。

人工智能应用程序和应用场景的范围和复杂性持续增加。

例如 2015 年微软 的 Resnet 实现 7 百亿亿次计算,有 6000 万个参数。

2016 年百度在训练深度语音 系统时,实现 20 百亿亿次计算和 3 亿个参数。

2017 年谷歌 NMT 实现 105 百亿 亿次计算和 87 亿个参数。

AI 计算的新特性对数据中心网络的发展提出更高要 求。 传统协议已经不能满足日常生活中新应用程序的服务需求。

举个简单的例子, 美团线上外卖业务增长在过去 4 年里大约增长了 5 倍8。仅在用餐高峰期的几个 小时里,交易量就从 21.49 亿增加到 123.6 亿。美团智能调度系统为用户、商家 和超过 60 万名外卖员设计了一个复杂的多人多点实时决策过程。该系统每天更 新 50 亿次定位数据,这些数据为外卖员计算可选路径并在 0.55 毫秒内选择最佳 路线。

当后端服务器使用 TCP/IP 协议时,内核缓存区、应用缓存区和网卡缓存 区之间的数据量副本使得 CPU 和内存总线资源紧张,导致延迟增加,无法满足 应用程序的需求。

新远程直接内存访问(Remote Direct Memory Access, RDMA) 协议消除了数据副本,释放了 CPU 资源,能够完成路径选择和取出顺序计算。RDMA 效率的提高给网络带来了更大的压力,将瓶颈转移到数据中心网络基础 设施上,低时延和无损行为成为了新的必要需求。

3. AI 计算的特点

传统的数据中心服务(web、数据库和文件存储)是以事件为基础,计算结 果通常是确定的。对于这样的任务,单个事件和相应网络通信之间几乎没有相关 性或依赖性。传统事件的发生和持续时间是随机的。然而,AI 计算并非如此。这 是一个迭代收敛的优化问题。它导致数据集和计算算法之间存在高度的空间相关 性,在通信流之间形成时间相关性。

AI 计算用于大数据,要求快数据。为了满足这一点,它必须与“分而治之”的 问题并行运作。

计算模型和输入数据集较大(例如 100MB 节点条件下,10K 规 则的 AI 模型需要超过 4TB 的内存)。单个服务器无法提供足够的存储容量和处 理资源,使得问题无法按顺序解决。需要 AI 计算和存储节点并行,缩短处理时 间。

这种分布式 AI 计算和存储要求需要快速、高效和无损的数据中心网络,该 网络构建起两种不同的并行计算模式——模型并行计算和数据并行计算。

无论采用哪种并行计算方法,数据中心网络都要承受更大的通信压力。

当网络成为瓶颈时,计算资源的等待时间会超过工作完成时间的 50%10。 对于所有的 AI 应用程序,计算模型都在不断迭代,且存在一个会造成网络 incast 拥塞的同步步骤。

上图显示了 AI 训练中发生 incast 堵塞的方式。训练过程 在不断迭代,在每次迭代都会产生很多同步参数。应用程序在下载模型时会同步 将下一次计算得到的结果(ΔM)上传到参数服务器。上传到参数服务器中的过 程会造成 incast。应用新兴计算技术能够缩短计算时间,但网络压力和由此产生 的 incast 也会随之增加。

4. 技术演进

当不断变化的需求和技术相协调时,即意味着进步。新需求通常会驱动新技 术研发,而新技术能支撑新用例,这些用例又会促成新需求。

网络存储、分布式 计算、系统架构和网络协议的突破推动下一代数据中心的发展。

SSDs 和 NVMeoF:高吞吐量低时延网络

科普文:软件架构网络系列之【RDMA 能给数据中心带来什么:数据中心网络最佳选择是RoCEv2不是InfiniBand】

在网络存储中,一个文件被分发到多个存储服务器,实现输入/输出的加速和 冗余。当数据中心应用程序读取文件时,它会同时从不同的服务器访问数据的不 同部分。数据几乎同时通过数据中心交换机进行聚合。数据中心应用程序写入文 件时,数据写入会在分布式存储节点和冗余存储节点之间触发一系列存储事务。

图 6 显示了由网络存储服务模型触发的数据中心通信示例。

该示例强调了网络同时支持高吞吐量和低时延的重要性。写入主存储服务器 的大量数据会分多次传输到副本。小规模的确认和提交消息必须进行排序,并在 事务完成之前传递给发起客户端,说明了超低时延的必要性。

随着使用非易失性存储器高速(NVMe)接口规范的技术从 HDD 发展到 SSD, 再发展到 SCM,存储性能得到了巨大提升。通过 NVMe 访问存储介质所花时间 相比以前的硬盘技术减少了 1000 倍。不同技术之间的样本搜索时间分别为: HDD= 2-5 毫秒,SATA SSD = 0.2 毫秒,NVMe SSD = 0.02 毫秒。SCM 通常比 NVMe 闪存 SSD 快三到五倍。

图 7 HDD和SSD的端到端时延

NVMe‐over‐fabrics(简称 NVMeoF)是指用于网络存储的 NVMe 配置。介 质的访问速度越快,网络瓶颈越大,网络时延的影响也越显著。图 7 展示了网络 时延如何成为更快 NVMe 存储的主要瓶颈。网络时延是端到端网络硬盘存储时 延中可以忽略的一部分,但随着网络化 SCM 存储的发展,网络时延将成为一个 重要的组成部分。为了最大化新介质的 IOPS 性能,首先必须解决网络时延问题。

图 8 网络时延

时延由静态时延和动态时延两种类型组成。

  • 静态时延包括串行数据时延、设 备转发时延和光/电传输时延。这种时延类型取决于交换硬件的性能和数据传输 的距离。它通常是固定的,而且很容易预测。图 8 显示,当前静态时延的行业测 量值通常为纳秒(10-9 秒)或亚微秒(10-6 秒)级别,在端到端网络总时延中占 比不到 1%。
  • 动态时延对端到端网络总时延的作用更强,并且受通信环境条件的影响更多。动态时延是由于内部排队和数据包重传引起,这些时延的原因是网络拥塞和数据 包丢失。并行 AI 计算模型会形成独特的流量模式,造成严重的网络拥塞。降低 端到端网络时延的关键是解决动态时延,而解决动态时延的关键是缓解拥塞。 动态时延的主要来源是丢包导致的数据包重传。丢包时延比排队时延大一个 数量级,并对应用程序有严重影响。当交换机缓存区因拥塞而溢出时,就会发生 丢包(需要注意的是,此处忽略传输过程中由于低概率比特错误而造成的丢包)。导致丢包的两种主要拥塞分别是网络内拥塞和 incast 拥塞。当网络结构中的链路 过载时,交换机之间的链路就会发生网络内拥塞,这可能是由于负载不平衡。当 许多源同时向相同目的地发送数据时,网络边缘就会出现 incast 拥塞。AI 计算模 型本身所具有的阶段,即在处理迭代之后对数据进行聚合,很容易发生 incast 拥 塞(多打一)。

远程直接内存访问(RDMA)

RDMA 是一种新技术,旨在解决网络应用中服务器端数据处理的高延迟问 题。RDMA 可以让数据直接从一台计算机的存储器传输到另一台计算机,而不 需要任何操作系统的干预。它允许高带宽、低时延的网络通信,特别适用于大规 模并行计算环境。

科普文:软件架构网络系列之【RDMA应用:一文看懂高性能网络】-CSDN博客

科普文:软件架构网络系列之【RDMA技术概览:特点、优缺点与应用场景】-CSDN博客

科普文:软件架构网络系列之【详解RDMA 技术架构与实践】-CSDN博客

科普文:软件架构网络系列之【RDMA 能给数据中心带来什么:数据中心网络最佳选择是RoCEv2不是InfiniBand】

RDMA 协议有三种不同的传输方式:Infiniband、iWarp 和 RoCEv1/RoCEv2 :

  • Infiniband

2000 年,InfiniBand 贸易协会(IBTA)首次发布了支撑 RDMA 的 InfiniBand 准则。InfiniBand 适用于高效硬件设计,可以确保数据传输的可靠性和访问远程 节点内存的直接性。Infiniband 作为一种特定的网络解决方案,需要专门的 Infiniband 交换机和 Infiniband 接口卡。

  • iWarp

iWarp 是一种 RDMA 协议,2014 年,IETF 规定 iWarp 需在 TCP 上运行。使用 TCP 作为传输工具,可以使 iWarp 覆盖互联网和广域网,以及标准以太网 和数据中心。虽然 iWarp 可以在软件中实现,但要获得所需的性能,还需要数据 中心使用专门的 iWarp 网卡。

  • 融合以太网上的 RDMA(RoCE)

2010 年 4 月,IBTA 发布了 RoCEv1 规范,该规范增强了 Infiniband 体系结 构规范性,支持以太网Infiniband(IBoE)。

RoCEv1 标准直接在以太网链路的顶 层指定了一个 Infiniband 网络层。因此,RoCEv1 规范不支持 IP 路由。由于 Infiniband 依赖于无损物理传输,所以 RoCEv1 规范依赖于无损以太网环境。 现代数据中心倾向于使用三层技术来支持大规模和更大流量控制。RoCEv1 规范需要端到端的二层以太网传输,而在三层网络中不能有效运行。

2014 年, IBTA 发布了 RoCEv2,它扩展了 RoCEv1,用 IP 和 UDP 报头替换了 Infiniband 全局路由报头(GRH)。

现在的 RoCE 是可路由的,它很容易集成到首选的数据 中心环境中。然而,为了获得所需的 RDMA 性能,RoCE 协议被卸载,由特定网 络接口卡取代。这些网卡实现了全部的 RoCEv2 协议,包括 UDP 堆栈、拥塞控 制和任何重传机制。

虽然 UDP 的重量比 TCP 轻,但附加支持在提高 RoCEv2 可 靠性的同时,增加了网卡实现的复杂性。RoCEv2 仍然依赖 Infiniband 传输协议, 该协议要在无损 Infiniband 环境中运行,因此 RoCEv2 仍然受益于无损以太网环 境。

数据中心网络最佳选择:RoCEv2 VS InfiniBand

目前AIDC数据中心的高速无损网络主要有两种技术路线,IB(InfiniBand)和RoCE网络。

技术背景和设计理念

  • InfiniBand‌:设计之初就考虑了RDMA,重新设计了物理链路层、网络层、传输层,从硬件级别保证可靠传输,提供更高的带宽和更低的时延。它基于信用令牌机制,确保数据传输的连续性和稳定性‌。
  • RoCE‌:通过以太网实现RDMA功能,分为RoCEv1和RoCEv2。RoCEv2在以太网TCP/IP协议的UDP层实现,引入IP协议以解决可扩展性问题。RoCEv2通过硬件卸载降低CPU利用率,适合大规模部署‌。

性能和成本对比

  • 带宽和时延‌:InfiniBand设计用于高性能计算,提供更高的带宽和更低的时延,适合对网络性能要求极高的场景。RoCEv2虽然也能提供高性能,但其性能略逊于InfiniBand,但在成本上更具优势‌。
  • 成本‌:InfiniBand需要专门的IB网卡和交换机,成本较高。RoCEv2可以使用标准的以太网交换机,成本相对较低,适合预算有限的场景‌。

应用场景

  • InfiniBand‌:适用于对网络性能要求极高的场景,如高性能计算、大规模并行处理任务、AI训练等。
  • RoCEv2‌:适用于需要高性能但预算有限的场景,如数据中心内部通信、云服务提供商等‌。

综上所述,‌InfiniBand在性能上更具优势,适合对网络性能要求极高的场景;而RoCEv2在成本上更具优势,适合预算有限的场景‌。选择哪种技术取决于具体的应用需求和预算限制。

RoCEv2 VS InfiniBand详细对比

在实际应用中,RoCE v2作为一项高效解决方案,在满足大多数智能计算场景需求,InfiniBand则凭借其在特定领域的卓越性能表现而备受瞩目。

在功能可扩展性、性能、供应商、维护、成本五个方面展示了IB和RoCE网络技术的不同优劣势:

  • 业务性能:InfiniBand因其较低的端到端延迟特性,在应用层面上能提供更优的业务性能体验。尽管如此,RoCE v2同样能够在大部分智能计算场景下达到用户所需的业务处理效能标准。

    •  应用层的端到端时延可以从50us(TCP/IP),降低到5us(RoCE)或2us (InfiniBand)。

    • InfiniBand 网卡在速率方面保持着快速的发展,400Gbps 的HDR 已经实现了规模化的商用部署。RoCE 网卡的端口PHY 速率一般是50Gbps 起,当前商用的网卡单端口速率已达400Gbps。

  • 业务规模:InfiniBand具备强大的扩展能力,能够支持数万个GPU卡构建集群,且在大规模部署下仍可保持性能稳定无损,已在业界拥有大量成功商业应用案例。而RoCE v2网络也不甘示弱,它能够支撑数千张卡构成的集群,并且整体网络性能并无显著下滑。

  • 业务运维:InfiniBand相较于RoCE v2更加成熟,提供了诸如多租户隔离及运维诊断等高级功能,为数据中心的运维管理带来了更高的便捷性和可控性。

  • 成本考量:InfiniBand的成本相对较高,主要原因在于其交换机设备和线缆模块的价格高于以太网。

  • 关于供应商:NVIDIA作为InfiniBand的主要供应商,持续为市场提供优质的产品与服务;而在RoCE v2领域,则有多家供应商共同参与并提供支持,国内的华为、华三、浪潮、锐捷等厂家为用户提供了更多元化的选择空间。

RoCE、IB和TCP简介及相关技术背景

以太网: 始于1973年,迄今为止最流行和成功的网络生态系统,普遍适用于计算机之间的互联

Infiniband: 始于1999年,性能最佳的网络系统,专为高性能应用场景设计。

RoCE:始于2010年,由IBTA发布,将IB RDMA特性移植到以太网上,可以在以太网的基础上,实现性能的显著提升。

1.InfiniBand网络

在AI数据中心中,InfiniBand网络凭借其卓越的性能和可靠性备受瞩目。该网络通过专门设计的InfiniBand适配器或交换机实现高效的数据传输,InfiniBand网络可扩展性允许通过交换网络进行水平扩展,以满足多样化的网络需求。随着科学计算、人工智能(AI)和云数据中心的快速发展,InfiniBand在端到端高性能网络的HPC超级计算应用中越来越受到青睐。

InfiniBand交换机采用集中式管理机制,由子网管理器负责整个网络转发表的计算与分发工作,同时承担着配置InfiniBand子网内部特性的重要任务,例如分区策略和服务质量(QoS)。构建InfiniBand网络时,必须使用专为InfiniBand设计的电缆和光模块来确保交换机之间以及交换机与网卡之间的无缝连接。

优势

  • 1. 高性能: 低延迟:IB网络通常具有极低的延迟,适用于高性能计算(HPC)和实时应用。 高带宽:支持高带宽传输,最新的IB网络可以提供数百Gbps的带宽。
  • 2. 高吞吐量: 并行传输:支持大量并行数据流,提高了数据传输的整体吞吐量。
  • 3. 可靠性: 硬件加速:通过专用硬件进行数据传输和处理,减少了CPU的负载,提高了系统的稳定性和可靠性。
  • 4. 专用网络: 独立性:作为专用网络,不与其他网络资源共享,避免了网络拥塞和干扰。

劣势

  • 1. 成本: 设备昂贵:IB网络设备和布线成本较高,包括专用交换机、适配器和光纤电缆。 维护复杂:需要专门的技术人员进行安装和维护。
  • 2. 兼容性: 有限的兼容性:IB网络的兼容性和通用性不如以太网,限制了与其他网络设备的互操作性。

InfiniBand网络解决方案特性

  • 本征无损传输机制:InfiniBand网络创新性地采用了基于信用的信号控制策略,从底层设计上有效防止了缓冲区溢出和数据包丢失的问题。在数据发送前,发送端会确保接收端拥有充足的信用额度来处理相应数量的数据包。每条链路在InfiniBand架构中均预设了缓冲区,数据传输量严格受限于接收端当前可用的缓冲区容量。一旦接收端完成转发任务,即释放缓冲区,并实时更新并反馈当前剩余的缓冲区大小。这种链路级别的流量控制技术确保了发送端不会向网络中过度填充数据,从而有效地避免了因缓冲区满载而导致的数据包丢失。

  • 拥塞控制机制:InfiniBand提供了一套全面且可扩展的服务质量(QoS)管理方法。InfiniBand的拥塞控制架构(CCA,Congestion Control Architecture)是一个精心设计的三阶段过程,用于有效管理网络拥塞事件。当交换机检测到拥塞状况时,它会启动前向显式拥塞通知(FECN,Forward Explicit Congestion Notification)机制,在数据包中标记相应的比特位。当数据包抵达目的适配器时,目的适配器会生成一个具有不同比特设置的数据包作为回应,即后向显式拥塞通知(BECN,Backward Explicit Congestion Notification),发送给源适配器。一旦发送方或源适配器接收到BECN,它会相应地减少数据包的发送速率,以缓解网络拥塞,从而确保带宽的确定性以及延迟的可控性。

  • 自适应路由机制:InfiniBand网络采用了先进的自适应路由技术,支持针对每个数据包进行动态路径选择,其核心管理功能由子网管理器(SM)软件实现。这一集中式管理工具负责根据实时网络条件为交换机配置最佳路由选择。交换机ASIC在决策过程中,会优先选取最空闲的输出端口,以确保网络性能达到最优状态。在选择不同输出交换机端口时,会综合考虑出口端口的队列深度以及路径优先级,其中最短路径通常享有更高的优先级。这使得在网络大规模部署时能充分利用资源,实现最优性能表现。

全球知名芯片制造商NVIDIA,在推动高性能计算和AI领域发展的同时,也成为了提供一系列InfiniBand网卡解决方案的主要力量。NVIDIA ConnectX InfiniBand智能网卡支持更快的速度和创新的网络计算技术,实现了超强性能和可扩展性。

市场主要供应商及其产品优势

InfiniBand网络解决方案市场由NVIDIA主导,市占率超过70%。其他主要参与者包括:
* NVIDIA:领先供应商,市占率超过70%
* 其他参与者(未提及名称)

  • 英特尔 InfiniBand 解决方案:
    专为 InfiniBand 优化的高性能网络产品和解决方案, 助力您解锁企业级性能和可靠性。
  • 思科 InfiniBand 解决方案:思科提供行业领先的 InfiniBand 交换机和配套产品,为高性能计算和数据中心提供卓越的网络连接性。
  • 惠普企业 (HPE) 提供全面的 InfiniBand 网络解决方案,包括适配器、交换机和服务器。作为业界领导者,HPE 的 InfiniBand 解决方案可满足企业高速互联需求,提供卓越的性能和可靠性。

定制优化 InfiniBand 解决方案,满足不同部署需求
InfiniBand 解决方案从定制细分入手,迎合不同用户规模和应用场景,实现灵活部署。

2.RoCE网络

RoCE v2网络采用全分布式架构设计,并由具备RoCEv2功能的NIC和交换机共同构建,通常以两层架构部署在数据中心环境中。

  

RoCE无损网络技术主要依赖数据链路层的PFC流量控制技术、网络层的ECN拥塞控制技术以及RDMA技术来构建“低延时、无丢包、高吞吐”的网络环境。

优势

1. 成本效益: 利用现有以太网基础设施:RoCE可以在现有的以太网基础设施上运行,降低了部署和维护成本。 • 通用设备:使用通用的以太网交换机和网卡,设备成本较低。

2. 兼容性和灵活性: • 广泛兼容:RoCE基于以太网,兼容性和通用性好,可以与其他网络设备和协议无缝集成。 • 灵活部署:可以灵活地部署在不同的网络拓扑和环境中。

3. 易于管理: • 统一管理:由于RoCE基于以太网,可以使用现有的网络管理工具和协议进行管理,简化了管理流程。

劣势

1. 性能:

较高的延迟:尽管RoCE能够提供低延迟,但通常不如IB网络,在极端低延迟需求的应用中可能不如IB表现优秀。

网络拥塞:在共享以太网上运行时,可能受到其他网络流量的影响,导致性能下降。

2. 可靠性: • 依赖于以太网质量:RoCE的性能和可靠性依赖于以太网的质量,如果以太网网络质量不佳,可能会影响RoCE的表现。

RoCE v2网络解决方案特性

  • PFC(Priority-based Flow Control)是一种基于优先级的流量控制技术。PFC允许在一条以太网链路上创建8个虚拟通道,并为每条虚拟通道制定一个IEEE802.1P优先等级,允许单独暂停和重启其中任意一条虚拟通道,同时允许其它虚拟通道的流量无中断通过。这一方法使网络能够为单个虚拟链路创建无丢包类别的服务,使其能够与同一接口上的其它流量类型共存。

  • ECN(Explicit Congestion Notification,显式拥塞通知)定义了一种基于 IP 层和传输层的流量控制和端到端拥塞通知机制。通过在交换机上向服务器端传递特定拥塞信息,然后服务器端再发送至客户端通知源端降速从而实现拥塞控制的目的。

  • 数据中心量化拥塞通知(DCQCN)是显式拥塞通知(ECN)和优先流量控制(PFC)两种机制的结合,旨在支持端到端的无损以太网通信。其核心理念是在网络拥塞发生时,优先使用ECN 来通知发送端降低传输速率,防止 PFC 的不必要激活,同时也要避免拥塞严重导致缓冲区溢出的情况。通过这种精细的流量控制,DCQCN 能够在保持网络高效运行的同时,避免因拥塞造成的数据丢失。

相比于InfiniBand,RoCE v2网络解决方案在灵活性和成本效益上展现出更多优势。该技术不仅能够构建高性能的RDMA(远程直接内存访问)网络环境,同时还能无缝融入传统以太网架构中。然而,在实际部署过程中,需要对交换机进行诸如Headroom预留、PFC(优先级流量控制)以及ECN(显式拥塞通知)等参数的精细配置,这可能会增加一定的实施复杂度。尤其是在大规模部署场景下,尤其是当涉及大量网络接口卡时,相较于InfiniBand网络,RoCE v2网络的整体吞吐性能可能略逊一筹。

RoCE网络利用RDMA技术实现了高效的数据传输,不必占用远程服务器的CPU周期,从而充分利用带宽并增强了网络的可伸缩性。这种方法显著降低了网络延迟并提升了吞吐量,整体上提高了网络性能。RoCE方案的另一个显著优势是它能够无缝地融入现有的以太网基础设施,这意味着企业无需额外投资于新设备或进行设备更换,就能实现性能的飞跃。这种成本效益高的网络升级方式对于降低企业的资本支出至关重要,使得RoCE成为提升智算中心网络性能的优选方案。

3.IB网络 vs RoCE网络

  

总结如下:

  • InfiniBand: RDMA,从硬件级别保证可靠传输,提供更高的带宽和更低的时延。但是成本高,需要支持IB网卡和交换机。
  • RoCE:基于 Ethernet 做 RDMA,消耗的资源比 iWARP 少,支持的特性比 iWARP 多。可以使用普通的以太网交换机,但是需要支持RoCE的网卡。

分布式存储中常用的网络协议

  • IB:在高性能计算(HPC)领域有广泛的应用。
  • RoCE:常用于存储后端网络。
  • TCP/IP:常用于业务网络。

当前市场上,多家主流交换机供应商均支持RoCE协议,并提供了相应的解决方案。

其中,NVIDIA推出的ConnectX系列网络适配器在与RoCE v2兼容性方面表现卓越,已在市场占有率上占据了显著地位。

这意味着选择RoCE v2方案的企业能够在保持较高性价比的同时,享受到来自全球领先厂商的技术支持和服务保障。

从技术层面剖析,InfiniBand通过整合多种创新技术手段,有效提升了网络数据转发效率、缩短了故障恢复时间、增强了网络扩展性,并简化了运维管理的复杂度。

编程小号
上一篇 2025-04-03 10:40
下一篇 2025-02-28 22:46

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/86558.html