超凡国际

从尺度到落地:万兆园区 ,选以太彩光 丨 《万兆园区以太彩光钻研汇报》技术钻研会
date
预约直播
AI时期 ,医疗网络怎么建 丨 超凡国际医疗极简以太彩光双超融合网络解决规划颁布
date
预约直播
超凡国际官网·(集团)有限公司
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
超凡国际官网·(集团)有限公司

您订阅的产品有更新 ,请实时查阅

查看详情

到底什么样的网络 ,能力带得动AIGC?

超凡国际官网·(集团)有限公司 颁布功夫:2023-08-02
超凡国际官网·(集团)有限公司

2023年 ,是AI人为智能技术全面爆红的一年 。

以ChatGPT、GPT-4、文心一言为代表的AIGC大模型 ,集文本撰写、代码开发、诗词创作等职能于一体 ,展示出了超强的内容出产能力 ,带给人们极大震撼 。

超凡国际官网·(集团)有限公司

AIGC ,AI-Generated Content(人为智能出产内容)

作为一个通讯老司机 ,除了AIGC大模型自身之表 ,幼枣君越发关注的 ,是模型背后的通讯技术 。到底是一张怎么的壮大网络 ,在支持着AIGC的运行?此表 ,AI海潮的全面来袭 ,将对传统网络带来怎么的刷新?

AIGC ,到底必要多大的算力?

多所周知 ,数据、算法和算力 ,是人为智能发展的三大根基身分 。

超凡国际官网·(集团)有限公司

前面提到的几个AIGC大模型 ,之所以那么严害 ,不仅是由于它们背后有海量的数据投喂 ,也由于算法在不休进化升级 。更沉要的是 ,人类的算力规模 ,已经发展到了肯定水平 。壮大的算力基础设施 ,齐全可能支持AIGC的推算需要 。

AIGC发展到此刻 ,训练模型参数从千亿级飙升到了万亿级 。为了实现这么大规模的训练 ,底层支持的GPU数量 ,也达到了万卡级别规模 。

以ChatGPT为例 ,他们使用了微软的超算基础设施进行训练 ,听说动用了10000块V100 GPU ,组成了一个高带宽集群 。一次训练 ,必要亏损算力约3640 PF-days(即每秒1千万亿次推算 ,运行3640天) 。

一块V100的FP32算力 ,是0.014 PFLOPS(算力单元 ,蹬宗每秒1千万亿次的浮点运算) 。一万块V100 ,那就是140 PFLOPS 。

也就是说 ,若是GPU的利用率是100% ,那么 ,实现一次训练 ,就要3640÷140=26(天) 。

GPU的利用率是不成能达到100% ,若是按33%算(OpenAI提供的如果利用率) ,那就是26再翻三倍 ,蹬宗78天 。

能够看出 ,GPU的算力、GPU的利用率 ,对大模型的训练有很大影响 。

超凡国际官网·(集团)有限公司

那么问题来了 ,影响GPU利用率的最大成分 ,是什么呢?

答案是:网络 。

一万甚至几万块的GPU ,作为推算集群 ,与存储集群进行数据交互 ,必要极大的带宽 。此表 ,GPU集群进行训练推算时 ,都不是独立的 ,而是混归并行 。GPU之间 ,有大量的数据互换 ,也必要极大的带宽 。

若是网络不给力 ,数据传输慢 ,GPU就要期待数据 ,导致利用率降落 。利用率降落 ,训练功夫就会增长 ,成本也会增长 ,用户履历会变差 。

业界已经做过一个模型 ,推算出网络带宽吞吐能力、通讯时延与GPU利用率之间的关系 ,如下图所示:

超凡国际官网·(集团)有限公司

各人能够看到 ,网络吞吐能力越强 ,GPU利用率越高;通讯动态时延越大 ,GPU利用率越低 。

一句话 ,没有好网络 ,别玩大模型 。

怎么的网络 ,能力支持AIGC的运行?

为了应对AI集群推算对网络的调整 ,业界也是想了不少法子的 。

传统的应对战术 ,重要是三种:Infiniband、RDMA、框式互换机 。我们别离来单一相识一下 。

Infiniband组网

Infiniband(直译为“无限带宽”技术 ,缩写为IB)组网 ,搞数据通讯的童鞋应该不会陌生 。

这是目前组建高机能网络的最佳蹊径 ,带宽极高 ,能够实现无拥塞和低时延 。ChatGPT、GPT-4所使用的 ,听说就是Infiniband组网 。

若是说Infiniband组网有什么弊端的话 ,那就是一个字——贵 。相比传统以太网的组网 ,Infiniband组网的成本会贵好几倍 。这项技术比力封关 ,业内目前成熟的供给商只有1家 ,用户没什么选择权 。

RDMA网络

RDMA的全称是Remote Direct Memory Access(远程直接数据存 。 。它是一种新型的通讯机造 。在RDMA规划里 ,利用法式的数据 ,不再经过CPU和复杂的操作系统 ,而是直接和网卡通讯 ,不仅大幅提升了吞吐能力 ,也降低了时延 。

超凡国际官网·(集团)有限公司

RDMA最早提出时 ,是承载在InfiniBand网络中的 。此刻 ,RDMA逐步移植到了以太网上 。

目前 ,高机能网络的主流组网规划 ,是基于RoCE v2(RDMA over Converged Ethernet ,基于融合以太网的RDMA)和谈来组建支持RDMA的网络 。

这种规划有两个沉要的搭配技术 ,别离是PFC(Priority Flow Control ,基于优先级的流量节造)和ECN(Explicit Congestion Notification ,显式拥塞通知) 。它们是为了预防链路中的拥塞而产生的技术 ,但是 ,频仍被触发 ,反而会导致发送端暂停发送 ,或降速发送 ,进而拉低通讯带宽 。(下文还会提到它们)

框式互换机

国表有部门互联网公司 ,寄但愿于利用选取框式互换机(DNX芯片+VOQ技术) ,来满足构建高机能网络的需要 。

DNX:broadcom(博通)的一个芯片系列

VOQ:Virtual Output Queue ,虚构输出队列

这种规划看似可行 ,但也面对以下几个挑战 。

首先 ,框式互换机的扩大能力通常 ;虼笥紫薅攘俗畲蠖丝谑 ,如想做更大规模的集群 ,必要横向扩大多个机框 。

其次 ,框式互换机的设备功耗大 ;蚰谙呖ㄐ酒abric芯片、电扇等数量多多 ,单设备的功耗超过2万瓦 ,有的甚至3万多瓦 ,对机柜供电能力要求太高 。

第三 ,框式互换机的单设备端口数量多 ,故障域大 。

基于以上原因 ,框式互换机设备只适合幼规模部署AI推算集群 。

到底什么是DDC

前面说的都是传统规划 。既然这些传统规划不能 ,那当然就要想新法子 。

因而 ,一种名叫DDC的全新解决规划 ,闪亮登场了 。

DDC ,全名叫做Distributed Disaggregated Chassis(散布式分散式机箱) 。

它是前面框式互换机的“分拆版” ?蚴交セ换睦┐竽芰Σ患 ,那么 ,我们索性把它给拆开 ,将一个设备造成多个设备 ,不就OK了?

超凡国际官网·(集团)有限公司

框式设备 ,通常分为互换网板(背板)和业务线卡(板卡)两部门 ,相互之间用衔接器衔接 。

DDC规划 ,将互换网板造成了NCF设备 ,将业务线卡造成了NCP设备 。衔接器 ,则造成了光纤 ?蚴缴璞傅闹卫碇澳 ,在DDC架构中 ,也造成了NCC 。

NCF:Network Cloud Fabric(网络云治理节造平面)

NCP:Network Cloud Packet Processing(网络云数据包处置)

NCC:Network Cloud Controller(网络云节造器)

DDC从集中式造成散布式之后 ,扩大能力大大加强了 。它能够凭据AI集群的大幼 ,矫捷设计组网规模 。

我们来举两个例子(单POD组网和多POD组网) 。

单POD组网中 ,选取96台NCP作为接入 ,其中NCP下行共18个400G接口 ,掌管衔接AI推算集群的网卡 。上行共40个200G接口 ,最大能够衔接40台NCF ,NCF提供96个200G接口 ,该规模高低行带宽为超速比1.1:1 。整个POD可支持1728个400G网络接口 ,依照一台服务器配8块GPU来推算 ,可支持216台AI推算服务器 。

超凡国际官网·(集团)有限公司

单POD组网

多级POD组网 ,规D芄槐涞酶 。

在多级POD组网中 ,NCF设备要就义一半的SerDes ,用于衔接第二级的NCF 。所以 ,此时单POD选取48台NCP作为接入 ,下行共18个400G接口 。

超凡国际官网·(集团)有限公司

多POD组网

单个POD内 ,能够支持864个400G接口(48×18) 。通过横向增长POD(8个) ,实现规模扩容 ,整体最大可支持6912个400G网络端口(864×8) 。

NCP上行40个200G ,接POD内40台NCF 。POD内NCF选取48个200G接口 ,48个200G接口分为12个一组上行到第二级的NCF 。第二级NCF选取40个平面(Plane) ,每个平面4台NCF-P ,别离对应在POD内的40台NCF 。

整个网络的POD内实现了1.1:1的超速比(北向带宽大于南向带宽) ,而在POD和二级NCF之间实现了1:1的收敛比(南向带宽/北向带宽) 。

超凡国际官网·(集团)有限公司

DDC的技术特点

站在规模和带宽吞吐的角度 ,DDC已经能够满足AI大模型训练对于网络的需要 。

然而 ,网络的运作过程是复杂的 ,DDC还必要在时延匹涤注负载平衡性、治理效能等方面有所提升 。

基于VOQ+Cell的转发机造 ,匹敌丢包

网络在工作的过程中 ,可能会出现突发流量 ,造成接管端来不及处置 ,引起拥塞和丢包 。

为了应对这种情况 ,DDC采取了基于VOQ+Cell的转发机造 。

超凡国际官网·(集团)有限公司

发送端从网络接管到数据包之后 ,会分类到VOQ(虚构输出队列)中存储 。

在发送数据包前 ,NCP会先发送Credit报文 ,确定接管端是否有足够的缓存空间处置这些报文 。

若是接管端OK ,则将数据包吩飕成Cells(数据包的幼切片) ,并且动态负载平衡到中央的Fabric节点(NCF) 。

若是接管端临时没能力处置报文 ,报文会在发送端的VOQ中暂存 ,并不会直接转发到接管端 。

在接管端 ,这些Cells会进行沉组和存储 ,进而转发到网络中 。

切片后的Cells ,将选取轮询的机造发送 。它可能充分利用到每一条上行链路 ,确保所有上行链路的传输数据量近似相称 。

超凡国际官网·(集团)有限公司

轮询机造

这样的机造 ,充分利用了缓存 ,能够大幅度削减丢包 ,甚至不会产生丢包情况 。数据沉传削减了 ,整体通讯时延更不调换低 ,从而能够提高带宽利用率 ,进而提升业务吞吐效能 。

PFC单跳部署 ,预防死锁

前面我们提到 ,RDMA无损网络中引入了PFC(基于优先级的流量节造)技术 ,进行流量节造 。

单一来说 ,PFC就是在一条以太网链路上创建 8 个虚构通路 ,并为每条虚构通路指定相应优先级 ,允许单独暂停和沉启其中肆意一条虚构通路 ,同时允许其它虚构通路的流量无中断通过 。

超凡国际官网·(集团)有限公司

PFC能够实现基于队列的流量节造 ,但是 ,它也存在一个问题 ,那就是死锁 。

所谓死锁 ,就是多个互换机之间 ,由于环路等原因 ,同时出现了拥塞(各自端口缓存亏损超过了阈值) ,又都在期待对方开释资源 ,从而导致的“僵持状态”(所有互换机的数据流永远梗塞) 。

DDC的组网下 ,就不存在PFC的死锁问题 。由于 ,站在整个网络的角度 ,所有NCP和NCF能够当作一台设备 。对于AI服务器来说 ,整个DDC ,就是一个互换机 ,不存在多级互换机 。所以 ,就不存在死锁 。

超凡国际官网·(集团)有限公司

另表 ,凭据DDC的数据转发机造 ,可在接口处部署ECN(显式拥塞通知) 。

ECN机造下 ,网络设备一旦检测到RoCE v2流量出现了拥塞(内部的Credit缓和存机造无法支持突发流量) ,就会向服务器端发送CNP(Congestion Notification Packets ,拥塞通知报文) ,要求降速 。

散布式OS ,提升靠得住性

最后再看看治理节造平面 。

前面我们提到 ,在DDC架构中 ,框式设备的治理职能造成了NCC(网络云节造器) 。NCC极度沉要 ,若是选取单点式的方式 ,万一出现问题 ,就会导致整网故障 。

为了预防出现这样的问题 ,DDC能够取缔NCC的集中节造面 ,构建散布式OS(操作系统) 。

基于散布式OS ,能够基于SDN运维节造器 ,通过尺度接口(Netconf、GRPC等)配置治理设备 。这样的话 ,每台NCP和NCF独立治理 ,有独立的节造面和治理面 ,大大提升了系统的靠得住性 ,也越发便于部署 。

DDC的商用进展

综上所述 ,相对传统组网 ,DDC在组网规模、扩大能力、靠得住性、成本、部署速度方面 ,占有显著优势 。它是网络技术升级的产品 ,提供了一种颠覆原有网络架构的思路 ,能够实现网络硬件的解耦、网络架构的统一、转发容量的扩大 。

业界已经使用OpenMPI测试套件进行过框式设备和传统组网设备的对比仿照测试 。测试结论是:在All-to-All场景下 ,相较于传统组网 ,框式设备的带宽利用率提升了约20%(对应GPU利用率提升8%左右) 。

正是由于DDC的显著能力优势 ,此刻这项技术已经成为行业的沉点发展方向 。例如超凡国际网络 ,他们就率先推出了两款可交付的DDC产品 ,别离是400G NCP互换机——RG-S6930-18QC40F1 ,以及200G NCF互换机——RG-X56-96F1 。

超凡国际官网·(集团)有限公司

RG-S6930-18QC40F1互换机的高度为2U ,提供18个400G的面板口 ,40个200G的Fabric内联口 ,4个电扇和2个电源 。

RG-X56-96F1互换机的高度为4U ,提供96个200G的Fabric内联口 ,8个电扇和4个电源 。

据悉 ,超凡国际网络会持续研发 ,持续推出更多适合智算中心网络场景的产品 。

最后的话

AIGC的崛起 ,已经掀起了互联网行业的新一轮技术革命 。

我们能够看到 ,越来越多的企业 ,在参与这个赛路 ,参加角逐 。这意味着 ,网络基础设施的升级 ,火烧眉毛 。

DDC的出现 ,将大幅提升网络基础设施的能力 ,不仅能够有效应对AI革命对网络基础设施提出的挑战 ,更将助力整个社会的数字化转型 ,加快人类数智时期的全面到来 。

关注超凡国际
gfwx_logo
关注超凡国际官网微信
随时相识公司最新动态
超凡国际官网·(集团)有限公司

返回顶部

收起
超凡国际官网·(集团)有限公司 文档AI副手
超凡国际官网·(集团)有限公司 文档评价
ev-close ev-close-m
该资料是否解决了您的问题?
ev-close ev-close-m
您对当前页面的中意度若何?
不咋滴
极度好
dark-star dark-star dark-star dark-star dark-star
ev-close ev-close-m
您中意的原因是(多 。?
您对文档是否还有其它的问题或建议?
为尽快解决问题 ,请您留下联系方式以便回复
邮箱
手机号
ev-bg
感激您的反 。
超凡国际官网·(集团)有限公司
超凡国际官网·(集团)有限公司
超凡国际官网·(集团)有限公司
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】