Ggpoker官网

从尺度到落地:万兆园区  ,选以太彩光 丨 《万兆园区以太彩光钻研汇报》技术钻研会
date
预约直播
AI时期  ,医疗网络怎么建 丨 Ggpoker官网医疗极简以太彩光双超融合网络解决规划颁布
date
预约直播
Ggpoker官网-不凡成就非凡,相信品牌的力量
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
Ggpoker官网-不凡成就非凡,相信品牌的力量

您订阅的产品有更新  ,请实时查阅

查看详情

支持AI的高机能数据中心网络架构若何设计 ?

Ggpoker官网-不凡成就非凡,相信品牌的力量 颁布功夫:2017-12-22
Ggpoker官网-不凡成就非凡,相信品牌的力量

近日  ,工信部印发《推进新一代人为智能产业发展三年行动打算(2018-2020年)》  ,意在加快人为智能从战术到落地  ,推动人为智能和实体经济深度融合。在新工业革命的布景下  ,大数据、推算力、算法等急剧迭代  ,正驱动人为智能进入新阶段。2017年Q3  ,全球AI公司融资金额突破77亿美元  ,是2012年的70余倍 ?赡芑嵊腥怂嫡馐“泡沫”  ,而我更愿意相信这是人为智能发展的必然了局。

在AI技术的利用过程中  ,各个企业都在寻找可能更好支持高机能推算的基础网络解决规划。在《数据中心基础网络架构成功实际及将来发展趋向》这篇文章中  ,我分享了若何设计一个不变靠得住的数据中心网络  ,下面我们再来探求支持AI利用的高机能无损网络应该若何设计。

前面提到大数据、推算力、算法等急剧迭代  ,正驱动人为智能进入新阶段  ,而这些技术的实现对网络的低时延、无丢包、高机能这三个方面提出更高要求。

▲ AI利用的技术系统及对数据中心网络的要求

高机能和无丢包比力好理解  ,就是指网络带宽机能的提升以及网络中不存在拥塞导致的丢包。产生时延的环节较多  ,要实现端到端的低时延  ,必要多角度分析:

其中  ,光电传输时延和数据串行时延相对较幼  ,且很难通过架构设计来优化  ,我们应沉点关注主机处置时延和设备转发时延。在各大企业积极追求的高机能推算规划中  ,基于以太网的RDMA(Remote Direct Memory Access)凭借其高机能和低成本优势逐步取代InfiniBand而成为主流技术。RoCEv2(RDMA over Converged Ethernet)技术基于UDP和谈  ,对于建设支持AI利用的高机能无损以太网络变得尤为沉要。

结合设备转发层面的时延优化伎俩  ,高机能无损网络的实现取决于两个身分:

  • 无带宽收敛(1:1)的网络架构设计
  • 基于PFC(Priority-Based Flow Control)和ECN(explicit congestion notification)职能的优先队列治理和拥塞治理

综上  ,AI集群高机能推算和网络规划实际思路如下图所示:

AI集群高机能规划关键技术组合

在这里  ,我以25G网络为例  ,结合业界主流产品状态  ,分享AI网络架构设计和实现思路。

重要设计理想:

  • 主题设备全线速高机能转发  ,主题之间不互联  ,选取Fabric架构  ,隔离主题故障  ,有效降低主题故障的影响;
  • 三层路由组网  ,通过ECMP提高冗余度  ,降低故障风险;
  • TOR高低行收敛比严格实现1:1  ,通过提高主题设备接口密度扩大单集群服务器规模;
  • 利用PFC+ECN职能  ,实现低延时无损网络。

网络架构设计:

1.中幼型(集群规模1000台)

▲  架构设计

架构个性:

  • 每台TOR选取8*100GE上联8台32口100G BOX互换机  ,OSPF/BGP组网
  • 合用集群规模1000台
  • 每台TOR下联32台Servers  ,IDC内收敛比1:1   ,集群带宽25Tbps

2.中型(集群规模2000台)

▲  架构设计

架构个性:

  • 每台TOR选取8*100GE上联8台64口100G BOX  ,OSPF/BGP组网
  • 合用集群规模2000台
  • 每台TOR下联32台Servers  ,IDC内收敛比1:1   ,集群带宽50Tbps

3.大型(集群规模2000-18000台)

▲  架构设计

架构个性:

  • 每台TOR选取8*100GE上联4~8台主题(机框式)  ,BGP组网
  • 合用集群规模2000~18000台
  • 每台TOR下联32台Servers  ,IDC内收敛比1:1   ,集群带宽50~450Tbps

4.超大型(集群规模20000+台)

▲  架构设计

架构个性:

  • 单POD集群规模1000~2000台  ,数据中心集群规模20000+  ,BGP组网
  • POD内收敛比1:1  ,单POD集群带宽25Tbps  ,总集群带宽500Tbps+
  • POD内收敛比和上行带宽凭据集群带宽需要矫捷配置  ,合用与非AI利用混合部署

在数据中心网络中  ,PFC和ECN职能将部署在Leaf和Spine设备上。PFC作用于设备互联端口  ,通过反压影响上游端口队列的发送速度  ,而ECN是作用在设备转发过程  ,最终影响的是数据流的发送方  ,通过降低某条数据流发送速度躲避数据丢包。

  • PFC 机造将以太链路上的流量分辨为分歧的等级  ,基于每条流量单独发送“不许可证”。相对于PAUSE帧而言  ,PFC能够将链路虚构出8条不一致级的虚构通路  ,当某条通路出现拥塞后不会影响其它通路。
  • RoCEv2 界说了 RoCEv2 Congestion Management ( RCM )  ,其中拥塞治理用的个性ECN(RFC 3168)是在互换机出口(egress port)提议的拥塞节造机造。当互换机的出口buffer达到设定的阈值时  ,互换机遇扭转数据包头中的ECN位来给数据打上ECN标签  ,当带ECN标签的数据达到接管端以来  ,接管端会天生CNP(Congestion Notification Packet)并将它发送给发送端。CNP蕴含了导致拥塞的flow或QP的信息  ,当发送端收到CNP后  ,会采取措施降低发送速度。
  • 由于PFC作用于整个队列  ,而ECN只针对产生拥塞的具体味话  ,在设置PFC和ECN有关水线时  ,应做到先触发ECN后再触发PFC。

从表卖订单和叫车订单的智能调度  ,到电商平台的智能推荐  ,再到人脸鉴别支付以及即将实现的全自动无人驾驶汽车量产  ,AI技术的利用已在方方面面影响着人们的生涯和工作  ,让各人的生涯越来越便捷、功夫利用越来越合理。但是  ,这都离不开基础设施的支持。Ggpoker官网网络将凭借在数据通讯领域近20年的技术堆集和行业经验  ,创新出更好的产品和解决规划  ,助力AI技术的蓬勃发展。

关注Ggpoker官网
gfwx_logo
关注Ggpoker官网官网微信
随时相识公司最新动态
Ggpoker官网-不凡成就非凡,相信品牌的力量

返回顶部

收起
Ggpoker官网-不凡成就非凡,相信品牌的力量 文档AI副手
Ggpoker官网-不凡成就非凡,相信品牌的力量 文档评价
ev-close ev-close-m
该资料是否解决了您的问题 ?
ev-close ev-close-m
您对当前页面的中意度若何 ?
不咋滴
极度好
dark-star dark-star dark-star dark-star dark-star
ev-close ev-close-m
您中意的原因是(多。 ?
您对文档是否还有其它的问题或建议 ?
为尽快解决问题  ,请您留下联系方式以便回复
邮箱
手机号
ev-bg
感激您的反。
Ggpoker官网-不凡成就非凡,相信品牌的力量
Ggpoker官网-不凡成就非凡,相信品牌的力量
Ggpoker官网-不凡成就非凡,相信品牌的力量
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】