j9国际站备用

首页
我们是谁
j9国际站备用能力
产品与服务
投资者关系
人才招聘
新闻中心
联系j9国际站备用
旗下子公司
说话
股票代码:300394
搜索
首页 新闻中心 技术文章|超大数据中心架构 ,光电互联接口数量及类型浅谈

技术文章|超大数据中心架构 ,光电互联接口数量及类型浅谈

注: 本文转载于行业媒体光纤在线

原文作者:肖明 (现任j9国际站备用通讯研发和战术副总经理)


1/2019 ,最近和几个业内伴侣谈天时 ,发现好多人对于数据中心使用什么底层网络架构 ,若何演进 ,会必要什么类型的光电接口 ,什么数量级 ,怎么推算需要等等问题存在好多疑惑。心血来潮想结合过往的经验 ,写点器材 ,权当抛砖引玉 ,仅供各人参考和会商 ,个中偏颇之处还请各人指正。 

f0MVPcZAok937A9gkHDdRL0M100g1JsLJAyHtR7j


    首先要提到的是摩尔定律(Moore’s law) ,其在数据中心的演进中阐发的极度显著。险些每2年数据中心的互换带宽在价值不变的情况下翻倍 ,从而满足急剧增长的超等利用对于带宽的需要 ,尤其是视坡粪的利用。好比字节跳动(今日头条的母公司)旗下在北美的幼视频App ,Tik Tok ,流量指数级暴涨让其数据中心服务商阿里云在北美不休忙于升级 ,当然也是“痛并欢乐着”。 

   
 这里以谷歌的数据中心拓扑架构为例 ,(以来有机遇再一路探求Facebook ,Microsoft等的数据中心架构)。谷歌数据中心在从前十来年已经演进了好几代 ,重要是基于Clos网络拓扑架构 ,从一路头的Firehose ,逐步演化到Watchtower ,Saturn ,到近些年不少场所被提到的Jupiter。互换设备接口速度也从1GbE演进到了40GbE/100GbE ,400GbE也在幼量利用中。图1给出了谷歌数据中心拓扑架构的演变示意 ,表1则给出了每个世代的架构参数。更具体的内容能够参考知乎上的文章【1】。 

20190121105711472888171479


图1:谷歌数据中心拓扑架构的演变示意 

20190121105711202491042608

  
表1:谷歌数据中心每个世代的架构参数


    Clos网络架构最早是由Charles Clos于1952年设计出的 ,用多级的幼型互换机阵列构建一个“无阻塞”的网络 ,有这么几个特点: 
? 重要为三级互换架构 
? 每一级的每个单元都与下一级的设备互联 
? 支持递归 ,带宽可无限扩大 ,对肆意一台服务器 ,能使用网卡的最高带宽与数据中心肆意一台服务器通讯 
? 向后兼容 ,兼容现有的以太网及利用 
? 到指定的主张地 ,路由选择在第一级是能够有多个蹊径 ,但后续互换单元之间只存在唯逐一条路由 
    Clos网络架构比力单一 ,不少白盒机厂商用Broadcom的互换芯片就能够出产出机能不错的高端互换机。此刻越来越多的数据中心在使用Clos网络拓扑架构。 
    传统数据中心中南北向(关于网络中南北器材的诠释能够参考【2】)的流量较大 ,但随着散布式推算需要的鼓起 ,器材向的流量急剧加大 ,一方面散布式推算导致服务器之间的接见需要大幅增长;另一方面 ,利用也变得越来越复杂 ,好比物联网中的某个用户提议要求 ,中心服务器可能必要从多多边缘数据中心或者服务器抽取一些数据 ,处置后再返回到用户 ,如此器材向的流量就变得越来越大 ,甚至大过南北向流量。这也就是为什么最近几年数据中心之间的互联需要增长幅度要快于数据中心内部互联 ,见表2 ,Cisco global cloud index 2016-2021 , 

20190121105820516603455267


表2:Cisco global cloud index 2016-2021


    Jupiter是基于一个40Gbps的数据中心网络 ,其架构有这个几个特点: 
1. Centauri TOR(Top of Rack)互换机每一个基础单元是一个4U的机箱 ,每一个含有640G(16x40G)的互换芯片 ,共计4x16x40G的互换容量。若是按3:1南北向分配 ,则能够配置为48x40G容量南向到服务器 ,16x40G北向到fabric network ,或者以10Gbps为基础速度 ,192x10G南向和64x10G北向。当然 ,也能够做1:1分配 ,南北向各32x40G ,如图2。

20190121105927437979419994


图2:Centauri TOR(Top of Rack)互换机配置


2. 中央区块(Middle Blocks)由4个Centauri互换机组成 ,其互换容量为4x4x(16x40G) ,但每个中央区块都由2级(two-stage)Clos互换机组成 ,每一级能够配置为64x40G北向到Spine互换机 ,64x40G或者256x10G南向衔接32个TOR互换机。 
3. 每个汇聚区块(Aggregation Blocks)由8个中央区块组成 ,其互换容量为8x(64x40G)即512x40G北向到Spine互换机 ,南向8x(256x10G)即2048x10G到TOR互换机。 
4. Spine互换机由2-stage Clos互换机组成 ,即2x(64x40G)与汇聚区块互联。 
  
   这样对于一个Jupiter数据中心 ,其架构为256个Spine互换机 ,南向与64个汇聚区块互联 ,每个汇聚区块南向与32个TOR互换机互联 ,也就意味着总共必要2048(=64x32)个TOR机柜;每台机柜能够有最多48台服务器 ,满配也就是说98304台服务器;每台服务器可配置2个高速网卡 ,即一个Jupiter数据中心会必要196,608个10G高速网卡。 

20190121110040718214049808


图3 Jupiter数据中心架构


    从以上的架构来看 ,想必各人已经能够自己算出来光电接口的数量了。这是以最大基础速度40Gbps的Google Jupiter数据中心举的例子 ,当然若是最大基础速度是100Gbps或者400Gbps ,同时服务器网卡最幼速度为25Gbps或者50Gbps ,各人能够依此方式做相应的推演。 
     
    当然 ,数据中心将来的演进还是有不少挑战的。好比电互换的速度逐步会遇到瓶颈 ,以Broadcom的Switching ASIC为例 ,从起初2011年颁布的640G互换容量的Trident ,到2014年颁布的1.2T Trident 2 ,2015年颁布的3.2T Tomahawk ,到2017岁暮颁布2018年3季怀抱产的基于16nm CMOS工艺的12.8T Tomahawk 3 ,技术路线图发展还是很快的 ,但后面的25.6T及以上互换芯片的推出功夫存在好多不确定性 ,重要是由于芯片的BGA封装PIN脚密度 ,IO数量急剧提升难度很大。 

20190121110248793372525094


图4:引入硅光技术的刀片服务器


    如上图4 ,由于硅光技术的引入 ,一台刀片服务器的尺寸能够大幅削减60%以上 ,同时 ,速度大幅提升以及功耗的大幅降落是显然易见的益处。这也就直接驱动主流的芯片公司甚至具体设备商们 ,最近几年大量投入在硅光技术(Silicon Photonics ,SiP) ,以及2.5D/3D的芯片封装技术等。关于硅光技术 ,以来再找机遇做专题会商。 

20190121110248617795235914


图5:硅光内部


    另表 ,也有几个问题会限度数据中心的发展速度 ,好比IEEE在PCIe总线接口尺度的演进太慢 ,目前主流依然是PCIe 3.0 ,每个lane的速度仅为8Gbps ,不少业内专家也在呼吁直接跳过PCIe 4.0去颁布PICe 5.0 ,每个Lane的速度达到32Gbps ,这样光电速度能够匹配。其它问题 ,好比SERDES演进(25G-50G) ,数据中心造冷(传统风冷到液冷) ,Serverless等等 ,也都是不幼的话题。 
     
    总的来说 ,将来的数据中心架构是朝着“?榛⒈馄交⒁桌┐蟆关饧父龇较蛟诜⒄ ,超大型云服务商们也越来越器沉数据中心网络架构的演进和优化 ,物联网 ,5G肯定会催生出超等利用 ,从而推动数据中心的急剧发展。但愿有机遇与业内人士多多探求这方面的话题。下篇将更多探求光电互联接口在数据中心的利用。 

参考文章: 
1 Google从前十年发展数据中心网络的经验 陈宇飞 https://zhuanlan.zhihu.com/p/29945202 
2 网络的器材南北:抛弃SDN ,迎接网络虚构化? https://www.csdn.net/article/2014-01-23/2818233-SDN-Network-Virtualization 
3 “Jupiter Raising: A Decade of Clos Topologies and Centralized Control in Google’s Datacenter Network”
4 “Cisco global cloud index 2016-2021 white paper” 
5 “Facebook’s Data center Network Architecture” 
6 肖明 ,2016年,“Future Data Center and High Speed Optics Interconnection” 


【网站地图】