超凡国际

从尺度到落地:万兆园区 ,选以太彩光 丨 《万兆园区以太彩光钻研汇报》技术钻研会
date
预约直播
AI时期 ,医疗网络怎么建 丨 超凡国际医疗极简以太彩光双超融合网络解决规划颁布
date
预约直播
超凡国际官网·(集团)有限公司
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
超凡国际官网·(集团)有限公司

您订阅的产品有更新 ,请实时查阅

查看详情
超凡国际官网·(集团)有限公司 超凡国际官网·(集团)有限公司

DCN场景下的BGP和谈优化个性总结

【BGP和谈】本文将通过某互联网公司工程师幼李在建设DCN时辰的亲自填坑经从来相识BGP和谈在数据中心场景的优化个性。

  • 超凡国际官网·(集团)有限公司

    颁布功夫:2019-11-21

  • 超凡国际官网·(集团)有限公司

    点击量:

  • 超凡国际官网·(集团)有限公司

    点赞:

分享至

超凡国际官网·(集团)有限公司
超凡国际官网·(集团)有限公司
超凡国际官网·(集团)有限公司

我想评论

媒介

随着超大型互联网数据中心的规模优势愈加显著 ,出格是在IPv4、IPv6双栈模式下 ,对于我们网络工程师而言 ,所面对的建设和守护压力也是越来越大。在上一篇文章《大型数据中心BGP路由和谈规划》中 ,我们会商了BGP路由和谈在数据中心的规模部署 ,能够大大提升网络的路由机能 ,简化网络规划 ,但是数据中心网络终于与传统广域网分歧 ,对于BGP的部署和运维要求也会存在差距 ,通过优化BGP和谈能够进一步提升网络路由机能及简化运维。本文将通过某互联网公司工程师幼李在建设DCN时辰的亲自填坑经从来相识BGP和谈在数据中心场景的优化个性。

-------------我是华丽丽的宰割线------------

我是幼李。

我上大学想的是司法专业 ,为了省点网费 ,跟校园网部署的超凡国际认证计费系统进行了多年的斗智斗勇 ,也因而爱上了网络这个行当 ,并且考取了超凡国际网络的RCIE(超凡国际认证网络专家)认证 ,毕业后顺利地进入了一家互联网企业工作 ,每天就是处置各类网络的建设、规划、配置、调换 ,也可谓是经验丰硕的老司机。

下面 ,就是我的故事 ,请仔细听噢!

网络建设篇

早晨 ,幼李吹着口哨听着歌 ,一进办公室就接到了老板一个大活 ,要建设一个能够包容5万台以上服务器的数据中心 ,业务服务器必要运行IPv4和IPv6双栈模式 ,先给出具体的网络设计规划和规划。对于网络规划 ,除了物理组网表 ,比力复杂的就是路由、地址等规划 ,但是作为超凡国际《大型数据中心BGP路由和谈规划》文章的优良读者 ,幼李对于路由和谈的选择和规划没有任何疑虑 ,但思考到双栈模式下会有大量的接口地址以及治理地址 ,顿感烦躁!

摆在刻下的情况是:

服务器双栈运行 ,意味着网络也要开启双栈模式;

大量设备互联地址及治理地址规划 ,蕴含IPv4和IPV6;

BGP的IPv4邻居和IPv6邻居配置。

依照传统配置步骤当然能实现 ,这个没有任何问题 ,但幼李作为一个有着创新意识的互联网一线大厂工程师 ,并未急于依照经验进行规划 ,有没有更单一的规划呢?经过一番厂家的互换 ,幼李选取超凡国际网络提供的规划规划:

1.基于Linklocal地址成立会话---简化IPv6地址的分配
Link-localaddress是IPv6和谈栈引入的新地址类型 ,接口开启IPv6和谈后 ,能够自动天生Link-localaddress(FE80::/10) ,并且地址为本地链路有效。设备支持基于Link-local地址成立多个BGP邻居 ,从而能够免去规划分配独立的IPv6地址。
2.单BGP会话双栈路由---削减BGP邻居数量
仅通过IPv4地址或者仅通过IPv6地址成立一个BGP邻居会话 ,同时实现IPv4、IPv6双栈路由传递的职能 ,从而达到节俭设备邻居表项。

幼李发现这两个职能在这种场景下的结合险些不要太好用 ,通过IPv6的Link-local address ,通过指定邻居接口即可成立BGP邻居 ,并基于每个邻居激活IPv4、IPv6双栈路由模式 ,从而实现单IPv6会话 ,传递IPv4、IPv6双栈路由。

幼李的规划提交给了辅导后 ,顿时获得审批通过 ,并立即起头建设执行 ,就在服务器批量上线的时辰 ,幼李又接到了一个新的需要 ,数据中心单独规整齐个POD ,这个POD服务器要运行Docker ,宿主机要与TOR互换机之间必要通过BGP进行路由互换 ,宿主机的网段已经规划实现 ,但具体地址要等业务上线的时辰能力拿到 ,做好生理筹备吧!

幼李大吃一惊 ,什么生理筹备啊 ,还不是业务每上线一台宿主机我都要共同他们做一次 BGP邻居对接配置吗?依照业务上线的习惯每次都要比及后半夜能力上线 ,难不成 ,每天就为了配置一个BGP邻居 ,一分钟不到的事件 ,还要跟他们一路加个班么?

加班虽好 ,但是工作内容价值不高。所以幼李起头斟酌 ,既然网段已经规划好 ,若是BGP的邻居能基于网段成立 ,那不就不必要每天跟业务线的人一路加班了么?

通过翻阅设备手册 ,幼李还真的发现了这个职能:

基于网段被动成立会话
网络设备配置基于网段的BGP邻居 ,配置此模式后 ,不会自动提议BGP邻居成立要求 ,而是被动接管到对端邻居提议成立要求后 ,凭据邻居地址天生对应的真实邻居 ,并成立会话。

功夫指向晚上八点钟 ,配置实现 ,大功告成。作为一个互联网一线大厂的优良工程师 ,幼李吹着口哨听着歌打卡放工了 ,还有功夫健个身 ,内心美滋滋。

网络扩容篇

某日 ,幼李得到辅导铺排的一项新的工作 ,近期公司要上线一批AI业务 ,规模固然不大 ,但是原有网络的收敛比力高 ,生怕不能满足高机能推算的需要 ,要求幼李针对一个POD进行扩容 ,降低收敛比 ,但又不能影响原来在线的业务 ,扩容后的网络架构 ,如图一所示:


▲ 图一:POD扩容架构

幼李接到工作后 ,内心自喜 ,选取Spine-Leaf的一个很大的益处就是横向扩容方便 ,因而就依照规划割接第一台POD-Spine设备上线 ,这时辰业务反馈有少量的丢包。?固然是少量丢包 ,但也引发了幼李深深的思虑 ,到底是怎么回事呢?

查抄配置OK、路由进建改常 ,为什么有丢包呢?经过仔细分析 ,幼李发现原来问题的本原在于路由表项的装置差距上 ,新的POD-Spine上线后 ,向POD-Leaf以及Spine公告了自己的路由 ,并进建网络的路由 ,就在此时 ,对于POD-Leaf来说 ,ECMP由两条 ,立刻造成了三条 ,并且发送数据流量 ,与此同时新上线的POD-Spine设备固然实现了网络路由的进建 ,但装置这些路由表项必要肯定的功夫 ,从而有一个功夫差 ,导致服务器的流量出现了少量的丢包 ,那若何解决这个问题呢?幼李此时想若是设备可能先将路由进建并装置实现以来 ,再向邻居公告自己齐全的路由 ,那这个功夫差不就不存在了吗?想到这里 ,幼李通过翻阅设备手册发现:

BGP路由延长公告
将进建到的路由先装置到硬件路由表项后 ,再向邻居公告这些路由

有了这个职能后应该就能解决这个问题了吧!幼李立刻进行了第二台POD-Spine设备的上线 ,并开启了此职能 ,同时还请业务组同事实时监控服务器的丢包情况 ,发现第二台设备上线后没有造成任何的丢包。搞定 ,成功 ,欧耶~

故障处置篇


天有不测风浪 ,人有早晚祸福 ,幼概率事务也是会产生的。

如图二所示:


▲ 图二:网络守护区域

这天工程师幼王找幼李哭诉 ,由于Spine节点设备出现故障、宕机 ,导致幼王被业务部门投诉 ,暗示出现了10多秒的丢包。咱们网络有10K多的路由 ,收敛也必要功夫啊 ,丢点包怎么了 ,业务又没断。咦?你掌管的区域应该同样会受到这台设备故障株连 ,你怎么还能那么潇洒呢 ,业务部门没有投诉你吗?

这时幼李低声说 ,通知你一个秘籍吧 ,保你轻松应对“黑天鹅事务” ,这个秘籍叫做:

BGP的PIC(prefix independent
convergence)快切
BGP的PIC快切实现了路由前缀无关的收敛 ,收敛速杜纂路由规模无关 ,因而能实现大规模路由的急剧切换。

PIC快切职能基于AS号来实现 ,在EBGP之间启用 ,开启PIC快切职能后 ,BGP颁布路由时会携带PIC扩大集体属性 ,接管该BGP路由的互换机遇凭据颁布者的AS号和router-id分配一个唯一的索引ID ,通过优选推算后会携带该索引下发到转发面。当颁布者上行链路全数中断 ,无法收到此AS的路由信息时 ,通过查找对应的索引ID ,公告转发面将关联该ID的路由一次性实现切换 ,从而实现业务的急剧收敛 ,无需期待逐条删除路由来收敛(通常路由收敛必要逐条删除失效路由信息 ,因而收敛功夫与路由规模强有关)。

单一来说呢 ,就是来自故障节点设备(Spine)颁布的路由 ,POD-Spine设备通过BGP的私有属性进行了归类分组 ,并且携带私有属性将路由公告下游(POD-Leaf) ,一旦Spine节点故障 ,POD-Spine自身会急剧切换 ,并通过私有属性公告POD-Leaf全数路由失效并进行切换。这样 ,我的这个POD内部就可能实现急剧的收敛了。这种实现方式做到了与前缀无关的路由收敛 ,并且极度合用于大规模的路由切换 ,实测数据显示:

12K路由收敛实测:

未开启PIC快切:13S

开启PIC快切:1S以内(0.7S)(此切换功夫不随路由规模变动而变动 ,在大规模路由情况下尤为合用)

那既然是私有属性 ,只能自己鉴别 ,此外设备不支持会影响路由进建吗?幼王疑惑地问。不会的 ,对于不支持这个属性的设备 ,会自动过滤掉这个信息 ,不会影响其他设备路由的正常进建。好吧 ,今天又涨知识了 ,带着满脸佩服表情的幼王回到了自己的工位 ,并将所学知识点立即利用到自己的网络 ,降低“黑天鹅事务”产生后产生的损失。

主题迁徙篇

有人问这次互联网隆冬到底有多冷 ,幼李暗示 ,到底有多冷我不知路 ,但要做的事件一点没有少。这不 ,又接到了一个新机房建设工作。接到工作的幼李 ,立即进行了网络的规划以及硬件查对 ,发现还短缺两台POD-Spine设备?难不成这个设备也要从那个机房迁徙过来吗?幼李得到的回复是注定的 ,那个老机房的业务没有依照预期打算部署 ,流量没有那么高了 ,将收敛比提高一下 ,并下线两台POD-Spine设备吧 ,但肯定不能影响业务哦~


▲ 图三:某某机房网络架构

设备下线 ,要先将待下线设备流量迁徙走 ,保障不影响业务 ,这时幼李通过与设备厂家沟通 ,获取了几种BGP流量迁徙的方式:


Neighbor shutdown
通过向邻居发送notification报文来奉告邻居已经报答shutdown邻居关系 ,常用于框式设备单线卡隔离调换。

Graceful shutdown
向邻居设备发送UPDATE报文 ,用于公告优先级低的路由(local-preference 值为0或MED值为4294967295) ,并且会携带驰名的gshut community ,从而使邻居设备进行路由更新 ,使其流量预先切换到备份链路或其他等价链路上。

BGP advertise-map
通过向邻居发送UPDATE报文携带的withdraw routes字段 ,奉告邻居路由失效 ,邻居收到UPDATE报文之后会更新本地路由表 ,从而将有关的路由都删除。从使其的流量切换到备份链路或其他等价链路上。


通过道理的对比分析 ,幼李总结出这几种流量迁徙方式的差距点 ,如表1所示


▲ 表一:BGP流量迁徙方式总结

经过对比分析 ,幼李发现Neighbor shutdown方式太暴力 ,还会丢包;Graceful shutdown固然不丢包 ,但必要期待路由收敛 ,功夫比力长 ,而第三种BGP Advertise-Map直接公告路由失效的方式 ,既快捷又不丢包 ,并且特殊场景还能够通过ACL加以节造 ,就用它了。

总结

技术路漫漫 ,只有通过不休地进建、堆集和实际能力进取前行。在DCN场景下的BGP优化重要的侧沉点在于在双栈模式下简化BGP和谈的部署、提高BGP和谈的收敛机能以及安稳的流量迁徙。网工幼李把他工作中的经历毫无保留地分享给了其他的网工 ,但愿他们有所收成。而他也在技术路上不休的成长 ,终于穿上了二心爱的格子衫 ,并且。。。。。。

他头上的发量 ,始终是个谜。

 

有关推荐:

大型数据中心BGP路由和谈规划

大型数据中心网络路由和谈选择

新一代数据中心网络架构

Clos组网技术

若何实现数据中心网络架构“去”堆叠

未来30年不落后的网络架构 ,智能网络

互联网数据中心网络25G组网架构设计

更多技术博文

任何必要 ,请联系超凡国际

超凡国际官网·(集团)有限公司

返回顶部

收起
超凡国际官网·(集团)有限公司 文档AI副手
超凡国际官网·(集团)有限公司 文档评价
ev-close ev-close-m
该资料是否解决了您的问题?
ev-close ev-close-m
您对当前页面的中意度若何?
不咋滴
极度好
dark-star dark-star dark-star dark-star dark-star
ev-close ev-close-m
您中意的原因是(多。?
您对文档是否还有其它的问题或建议?
为尽快解决问题 ,请您留下联系方式以便回复
邮箱
手机号
ev-bg
感激您的反。
超凡国际官网·(集团)有限公司
超凡国际官网·(集团)有限公司
超凡国际官网·(集团)有限公司
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】