技术前沿 | 关于光互连,这些问题要谈一谈了-凯发娱乐

   2024-01-23 23940
核心提示:技术前沿 | 关于光互连,这些问题要谈一谈了

光学技术有望有助于实现可组合分解系统,从而推动 ai/ml/hpc(人工智能/机器学习/高性能计算)的新趋势。适合标准化的光互连值得期待,例如compute express link(cxl)及其支持的universal chiplet interface express(ucie),在这篇文章中,我想讨论一下光互连的重要指标


光互连和性能指标


如前所述,光学互连并不是一个新领域。20世纪90年代,并行光传输的研究和开发蓬勃发展。全球各机构展示了12通道(阵列)模块相关的研究成果和产品。


然而,在 2000 年左右,钟摆从并行转向了 10gbit/s 以太网的串行。串行器/解串行器 (serdes) 内置于 asic 中,并且由于 ic 的小型化和 pcb(印刷电路板)高频损耗的降低,serdes 速度的提高也为其提供了支持。


除此之外,2010年还采用了一种短距离方法,即通过串行信号的波分复用(wdm)来扩展每根光纤的传输容量。与电信的dwdm(密集wdm)方法相比,我们通过使用不需要温度控制的cwdm-4(4通道科斯wdm)方法实现了更低的成本。此外,对于100m左右的距离,采用了带有vcsel/mmf(垂直腔表面发射激光器/多模光纤)的sdm-4(4通道空分复用)。


现在,系统要求正在从 4 通道转向 16 通道或更多(大规模并行)。由于对具有极大量端口(高基数)和高速、大容量连接的网络连接的需求的出现,出现了对多个通道的需求。这是因为下一代数据中心将需要访问大量数据。


关于多端口,例如,如果使用最新的51.2t交换ic,则可以创建一个以100gbit/s连接512个节点的交换网络(radix 512)。与使用当前前面板可插拔收发器的 radix 32 相比,创建端口数量增加 16 倍的网络交换机将成为可能。通过使用高基数交换机,可以通过一跳(通过一个交换机 ic)实现低延迟网络。然而,我们认为,在需要多个端口的大型系统中,在时钟同步方面需要一些独创性。


对于高速、大容量连接,tb/s(8tbit/s)级的粗管道也是可能的。nvidia的技术“nvlink”,连接gpu和cpu/gpu,将两个100gbit/s电差分信号称为子链路,并用双向子链路配置链路。通过捆绑其中 18 个链路并使用 72 (4 x 18) 个链路,总速率为 100gbit/s,我们在二段中实现了 900gb/s。


随着去年(2022年)发布的 pcie gen 6.0,全双工 64gbit/s × 16 = 128gb/s,二段转换为 256gb/s。通道数量可扩大四倍,达到 64 条,而 pcie gen 7.0 的标准化目前正在进行中,可使速度提高一倍。


我们相信,通过使用已实现高速和大容量的光学技术,未来将有可能实现相当于双段 2 tb/s(全双工 1 tb/s)的速度。可能需要适合并行光传输的复用技术,例如波分复用(wdm)和空间复用(sdm)。


如今,基于并行传输的光互连正在展现出光技术的新指标。这是一个新的品质因数 (fom),


它是用gbit/s/mm除以pj/bit的指数,由美国darpa(国防高级研究计划局)的g. keeler于2019年提出,在学术会议的演讲中被很多人引用。如图 1所示。横轴为距离,分为in-package、on-board、off-board。纵轴是指数(fom),绿线代表电力,蓝线代表当前光学技术。据此,板外区域存在1米到几十米的差距,这是disaggreated compute systems的主要区域,需要这种凯发娱乐的解决方案。此外,未来车载领域也有望取得突破。在图 1 中,这意味着达到粉红色线或高于粉红色线。



shoreline density(gbit/s/mm)


在互连 fom 中,分子是 gbit/s/mm,这是一种用于电气布线但不熟悉光学的索引。shoreline density是在二维布线板等上定义边界线,将能够通过边界线的总信号容量除以边界线的长度的指标,是电气布线的指标之一封装和 pcb 安装技术。如果光学互连旨在取代电线,那么这是一个自然的指标。但是,您需要小心,因为根据是单向还是双向,数字会相差 2 倍,但这里我们考虑的是双向或全双工。


图 2显示了典型高速光模块 qsfp-dd 、osfp-xd和 oif 3.2t cpo 的shoreline density。光学互连的预期值通常为数百 gbit/s/mm。从图2可以看出,3.2t时超过100gbit/s/mm。另外,由于光纤阵列是一种传输介质,我们认为光纤阵列的总传输容量除以阵列宽度(光纤间距x光纤数量)的比率也很重要,我们已将其添加到表中如图 2 所示。


从图2可以看出,由于模块的宽度在20到24mm之间相差不大,由于电气引脚数量的增加(8→16→32),通过增加模块容量来提高shoreline density。)。这意味着需要高密度的电气引脚。此外,虽然 4 通道复用提高了光纤阵列传输密度 (gbit/s/mm),但通过定义考虑复用的模块,可以预期shoreline density会进一步提高。图2表中的sfr要求接近1。



在数据从右向左流动的光学互连中,海岸线密度由模块安装间距决定。除了模块的宽度外,安装间距还受到主板实现的影响,例如固定方法和散热方法。然而,在这里我想重点关注模块宽度。


图 3显示了光学互连的主要组件和信号流。为了清楚起见,仅示出了发送部分,但在接收部分,信号流与图3所示相反。可能存在没有中介层或光纤阵列单元(fau)来连接电和光之间的节距转换的情况。shoreline density必须满足每个组件边界所需的规格。



broadcom 在光通信会议“ofc”的小组讨论中宣布了“pitch matched”。通过将所有阵列部分设计为具有相同的间距,安装变得更加容易,从而减少通道之间的差异,并且可以预期稳定性。我们认为最好的方法是根据光纤阵列节距来设计每个阵列部分。


让我们考虑一下每个部分的问题。在这里,想象一下单个光纤阵列的宽度。间距为250μm的标准光纤的16、32和64阵列分别为4mm、8mm和16mm。


在电信号输入/输出部分,存在易于交换的要求,这是光互连特有的问题。由于与 asic 相比,故障率相对较高,因此需要能够在发生故障时进行更换的设备,尤其是在数据中心等领域。oif 3.2t cpo采用宽度方向间距为0.6mm的lga插座。标准化过程中,出现过0.4mm间距、0.45mm间距等提案和讨论。对于插座而言,实际标准化很重要,但需要从海岸线密度的角度做出决策。优选地使用不增加插座插入支撑和锁定机构的宽度的方法。


在光子/电子集成电路(pic/eic)中,挑战不仅在于匹配阵列的节距,还在于最大限度地减少增加阵列以外区域宽度的因素。设计和实现不会加宽偏置电路和焊盘布局以及中介层和封装基板宽度的芯片也很重要。此外,允许将焊盘放置在芯片内的倒装芯片接合、(微)焊料凸点接合、金属直接接合等比引线接合更有利。


固定 fau 和光纤时,有许多因素会增加宽度,例如电缆附带的外护套和配合销(孔、凹槽),以及防止机械或温度变化引起的应力的结构。使用插座或可拆卸连接器时,固定部件时必须小心。还有一种方法,如intel的光桥(fau的一种),利用三维光波导将硅光子的一维阵列输入/输出转换为两级阵列,并减小阵列宽度fau 部分减半。


由上可见,安装技术对于保证shoreline density至关重要。我们认为200gbit/s/mm将是暂时的目标,但迫切需要开发设备和实现技术来实现这一目标。


能源效率(pj/gbit)


互连 fom 的分母是 pj/bit,即能源效率。它相当于mw/gbit,是一个始终需要降低的参数。似乎有很多观点认为我们应该首先以 5pj/bit 为目标,然后在未来实现 <1pj/bit。这也可以转化为“在每通道 100gbit/s 的端到端计算中实现 500mw”的目标。目前的 8x100gbit 光收发器(qsfp-dd 和 qsfp)预计功耗为 10 至 15 pj/bit(功耗为 8 至 12 w),因此这是一个非常艰难的目标。


顺便说一下,能源效率的定义最近是一个热门话题。从光互连的角度来看,似乎越来越多的观点认为目标是asic输入/输出电路(serdes)之间的所有功耗。图 4显示了光学互连的主要模块。它由 asic serdes tx、光学模块 tx、光学模块 rx 和 asic serdes rx 组成。换句话说,它是asic输入/输出电路和光互连模块的总功耗。如果您使用外部激光源 (els),则必须添加其功耗。


前面板可插拔的能效仅涵盖光模块,但光是光模块就已经达到了10到15pj/bit,可见5pj/bit的目标是多么严格。由于需要各种独创性,因此预计会出现新方法和电路等具有挑战性的发展。



今年(2023 年)ofc 的主题之一是线性驱动可插拔光学器件 (lpo)。arista 在全体会议和小组会议上进行了带头演讲,macom 举办了 smf 和 mmf 收发器的动态展览。关键是“无需在收发器中安装dsp,即可通过serdes之间的传输将收发器的功耗降低一半”(预计成本也会大幅降低)。通过采用800g(8×100g)lpo(qsfp-dd),功耗减半,51.2t交换盒的功耗可降低至机箱最大允许功率约1.5kw以下。尽管存在交叉兼容性等许多重要问题,但很难阻止这一势头,我们相信我们已经确保前面板(fp)可插拔继续成为超大规模数据中心的主流。


此次lpo不仅给了fp pluggable的勇气,也给了光互连的发展带来了勇气。图 5显示了oif 共封装光学 (cpo) 框架文档中所示的 cpo 方法。fp pluggable的主流是retimed方法,它具有传输和接收的时钟和数据恢复(cdr),并且分离电和光传输标准。例如,oif-cei正在制定电力标准,以太网正在制定光学标准。虽然dsp不是系统的本质,但它在传输pam4调制信号方面特别有效,并且与cdr集成并安装在大多数光模块中。但存在功耗高、延迟高的问题。对此,“openeye”msa被提出作为不使用dsp的重定时方法,据说可以降低20%的功耗。


另一方面,线性放大方法是光模块中不包括cdr(和dsp)的方法。通过使用 ctle 电路补偿由所传输的电信号的电路板引起的传输劣化来调整光输出波形。光接收信号在光接收器中进行线性放大,均衡器和cdr安装在asic serdes rx中。最初,serdes配备了用于电信号传输的均衡电路,并且对其进行了扩展。据说,lpo的实现是因为broadcom的以太网交换机ic“strataxgs tomahawk 5”的serdes均衡器是能够支持线性放大的数字(dsp)。



该方法有三个关键点。一是通过光发射机中的ctle调整预加重来输出高质量的光波形。在 arista 的公告中,它被描述为宽带驱动电路,我们相信它提供了必要且足够的开眼界。


macom 似乎有一份报告称 tdecq(假设 dsp 的光输出信号质量参数)约为 1 db 或更低(以太网标准为 <3.5 db)。目前还不清楚它是否符合“openeye”msa (macom也是成员)标准,该标准提出了一种提高眼图张开度并消除dsp的方法。


第二个问题是传输损耗和波形恶化。如果光传输波形良好,它会在大约 2km 的短距离内到达,几乎没有衰减,因此,衰减是由于光接收器和模块到 serdes 之间的 pcb 上的频带衰减(传输损耗)造成的。arista的公告将其描述为宽带tia(trans-impedance amplifier,接收放大器)电路,因此光接收器很可能具有宽带。关于pcb带宽恶化,据说使用了低dk/df(相对介电常数/介电损耗系数)的高频板。主板价格昂贵,但低成本的 lpo 可以在总成本方面吸收这一成本。因此,它实现了 11db@28ghz 的低损耗,包括通过光收发器 (qsfp-dd) 插座进行的 pcb 布线。


最后一个是 serdes rx。本实验中使用的 broadcom 的 strataxgs tomahawk 5 使用 dsp 进行 serdes rx。11db 的损耗接近 oif-112g-xsr 的 10db,并且可能在目前正在为 cpo(npo)标准化的 -xsr 的规格范围内。arista 的公告甚至表示,cpo 和功耗方面没有显着差异。


光学互连安装在 ic 封装附近或内部,以连接大规模节点计算中汇集的多个 gpu 或 gpu 与内存之间,从而实现低损耗电气布线。预计 -xsr 或 -xsr 损耗可以通过将 cpo 中讨论的线性放大光学互连安装在与 asic 相同的板上来实现。


此外,该lpo采用硅光子技术,在不使用fec的情况下实现1e-8或更低的低ber,并且可以在不使用fec或使用lite fec的情况下应用,从而实现低延迟连接。


缺点是传输波形受光发射机输入波形的影响,因此仍然存在相互兼容性和性能保证(测试)等问题。因此,提出了一种半重定时方法,其中发送器输入信号暂时终止于光模块。这使得光输出波形独立于光发射机输入波形,从而使测试变得更加容易。对于 pcie 或 ucie,我们认为 half retimed 方法很有用,因为可以通过提供传输时钟(forward clock)来简化电路并降低功耗。我们相信开创性的“openeye”msa可以作为参考。


基于以上所述,表 1 显示了上次显示的光学互连规范中添加的海岸线密度和能源效率。我们认为,一些关键数字与 ayar labs 和其他。



参考链接

https://eetimes.itmedia.co.jp/ee/articles/2310/13/news029_3.html









文章转载自微信公众号:北京光博会订阅号

 
举报收藏 0评论 0
 
更多>同类资讯信息
推荐图文
推荐资讯信息
点击排行
网站地图