来源:内容由半导体行业观察(ID:icbank)编译自yole,谢谢。
共封装光学器件 (CPO) 最近因其在数据中心中的功效而受到关注。虽然大多数针对网络应用的 CPO 的主要支持者由于宏观经济的不利因素而停止了 CPO 项目,但人工智能 (AI) 和机器学习 (ML) 系统的 CPO 的情况却有所不同。人工智能模型对计算能力、存储和数据移动有着无法满足的需求,而传统架构正在成为扩展机器学习的主要瓶颈。因此,针对 HPC 的新光学互连和新的分解系统架构应运而生。
在Yole看来,用于 xPU、内存和存储的封装内光学 I/O 技术有助于实现必要的带宽。此外,未来数十亿个光学互连的潜力正在推动大型代工厂为设计公司的任何 PIC 架构的大规模生产(包括硅光子工艺流程)做好准备。例如,TeraPHY 光学 I/O 小芯片和 Ayar Labs 的 SuperNova 光源相结合,能够以更低的延迟、更长的距离和现有电气 I/O 解决方案的一小部分功率,显着提高了带宽。其封装内光学 I/O 解决方案正在颠覆半导体和计算行业的传统性能、成本和效率曲线。
受 AI/ML 设备加速数据移动的推动,2022 年 CPO 收入约为 3800 万美元,预计到 2033 年将达到 26 亿美元,2022 年至 2033 年复合年增长率为 46%。
Ayar Labs方面指出,在传统的边缘耦合方法中,光纤带通过环氧树脂永久固定到 V 形槽中。但是,他们在封装边缘采用英特尔可拆卸光纤连接器的解决方案原型在今年的推出也引起了广泛关注。他们认为,可拆卸的光纤连接器提供了一种更换光纤带的方法。该可拆卸光学连接器仍在开发中,有望实现更高的封装产量和易于现场更换。
同时,Ayar Labs表示,使用小芯片的日益增长的趋势以及强大的标准化工作以实现开放的小芯片生态系统。这是一项重要的发展,符合我们以小芯片形式提供光学 I/O 解决方案的愿景
Ayar Labs TeraPHY 光学 I/O 小芯片具有 4 Tbps 双向带宽、低于 5pJ/b、每个小芯片 + TOF 5 纳秒的延迟以及毫米到公里的覆盖范围
据Ayar Labs的观察,人们在某些应用上对 CPO 的兴趣较少,特别是对于开关类应用。然而,高性能计算对光纤 I/O 的需求仍在继续,这是因为其更适合高性能计算(HPC)和人工智能(AI)/机器学习(ML)应用,在这些应用中,您需要分布式计算和共享内存容量来满足性能、功耗和带宽的需求,而无需增加延迟。具有波分复用 (WDM) 和简单调制的光学 I/O 所需的功率要少得多,并允许更高的密度 – 低至几个 pJ/bit,带宽密度高达 1 Tbps/mm – 仅需几纳秒延迟,而 CPO 往往使用复杂的调制方案,延迟为数百纳秒。
此外,作为电光收发器,光I/O采用微环调制器结构,需要的芯片面积更小,成本也更低。例如,我们的微环调制器的尺寸约为马赫-曾德尔调制器的百分之一。最后,光纤 I/O 使用 WDM,它允许将多个数据流打包到单根光纤中,以实现非常高的吞吐量。
但是,要将光学 I/O 集成到 AI/ML 系统中,还需要面临多方面的挑战:
1 | 人工智能和高性能计算。AI/ML 和 HPC 应用程序需要分布式加速器网络来分散计算并共享内存容量。在内存容量方面,具有数千亿参数的AI/ML模型可能需要高达2TB的内存容量来存储中间计算结果。当您在集群中连接数百个 GPU 以使每个 GPU 都可以与其他 GPU 通信时,每个 GPU 所需的数据吞吐量会迅速成倍增加。这给带宽密度带来了巨大的压力——带宽密度是每个封装边缘或区域可以实现的数据吞吐量的衡量标准。光纤 I/O 对于实现所需的带宽密度、功率和延迟性能指标以支持更大的集群至关重要。 |
2 | 高带宽内存 (HBM) 扩展器。GPU 通常由两到四个本地内存 HBM 堆栈包围,每个堆栈具有大约 64 GB 的内存容量。对于 HPC 和 AI/ML 应用程序来说,这种能力还不够。HBM 内存扩展器可用于将内存容量增加到数百 GB 甚至更多。由于内存应用对延迟非常敏感,因此有必要使用光学 I/O 链路将 GPU 连接到扩展内存模块。仅由于延迟问题,可插拔光学器件或 CPO 光学器件并不适合。 |
3 | 内存池和可组合基础设施。随着云基础设施处理动态变化的工作负载,池化和共享内存的灵活性变得至关重要。愿景是通过所需的 CPU、GPU、内存和存储资源组成基于工作负载的集群,并以高性能和低延迟互连。随着 CXL标准的采用,光学 I/O 互连逐渐成为人们关注的焦点。 |
4 | 航空航天和国防传感系统。在此示例中Ayar Labs近来宣布了与洛克希德马丁公司进行战略合作,光学 I/O 用于捕获、数字化、传输和处理光谱信息。多芯片封装解决方案将高密度、高效率的光学 I/O 小芯片放置在与射频处理器件相同的封装中,将用于相控阵孔径中以连接系统,从而做出更智能、更快速的决策。 |
“目前,光I/O面临的首要挑战是生态系统的发展,这需要众多公司的协调。我们正在与广泛的合作伙伴合作,促进该生态系统的发展。至于这些应用程序的首次发布,考虑到现有的市场需求,我们预计这些应用程序会尽早发布,也许会在明年左右发布。”强调。
正如大家所看到,光学 I/O 性能使 xPU 能够在从毫米到两公里的广泛距离内相互通信。因此,AOC(以太网)和光纤 I/O(CXL、UCIe)之间的竞争预计将非常激烈。
但Ayar Labs方面认为,以太网应用和以计算或内存为中心的应用之间有明显的区别,因此他们不将 AOC 视为直接竞争对手。在以计算或内存为中心的互连协议中,Compute Express Link™ (CXL) 和通用 Chiplet Interconnect Express™ (UCle™) 是互补的。CXL 是一种高层协议,传统上运行在 PCIe 物理层上。最近,CXL 已扩展为还可与 UCIe 物理层配合使用。对于机架内或跨机架的片外连接,使用光学 I/O 技术构建的 UCIe 光学重定时器可以提供 AOC 无法满足的低功耗、低延迟和高带宽密度指标。
借助光学互连,可以以更低的功耗和延迟实现更大的覆盖范围。仍然会有非延迟敏感的应用程序可以适应更高的功率要求,以太网将是首选,包括系统到系统的通信。在这些情况下,可以使用 AOC。但是,一旦您开始考虑深度学习和 HPC 应用程序(再次将许多计算节点连接在一起),AOC 可能无法满足所有性能指标。
对于光纤I/O技术的发展,Ayar Labs首先指出,光纤 I/O 具有高度可扩展性,并且该技术将通过多种方式发展。其中之一是每根光纤的 lambda 数。我们目前每根光纤使用 8 个 lambda,但 CW-WDM MSA(连续波波分复用多源协议)路线图已经制定了每根光纤 16 和 32 个 lambda 的规范。每次将每根光纤的 lambda 数量增加一倍(保持其他条件不变),您就会自动将带宽量增加一倍。我们还可以扩大光端口的数量(我们目前使用 8 个)并提高调制速率(我们目前使用 32 Gbps 的调制速率)。
“在光学 I/O 中,我们预计内部或外部激光器的使用会有所不同。鉴于其紧凑的外形、灵活性和现场可更换性,我们仍然更喜欢外部激光器方法。我们还相信 UCIe 是最适合芯片间连接的标准,它促进了实现光学 I/O 的小芯片方法。”Ayar Labs方面强调。
Ayar Labs进一步指出,当前行业的趋势是使用外部激光源,我们相信这一趋势将持续下去。在光学I/O中,激光器是最敏感的元件,需要在较低的温度环境下工作。将其保持在外部并与计算芯片分开可以让您更好、更有效地控制温度。如果将激光模块放在计算硅旁边,计算节点内 GPU 和 CPU 产生的热量可能会影响激光性能。
大家也应该能看到,将电/光接口置于芯片旁边将对整个行业产生重大影响。但Ayar Labs认为,该行业目前面临着严重的连接瓶颈,这迫使各个参与者探索新的方法。我们看到的一种趋势是将 SoC 单片芯片分解为小芯片。将电光小芯片集成到封装内(紧邻 SoC 核心芯片)是这一趋势的延续。这种一揽子方法将需要改变供应链。
除了使用小芯片封装之外,光纤连接和测试方法也需要发展。我们还看到晶圆代工厂(即 GlobalFoundries、英特尔以及最近的台积电)在支持集成电/光组件方面取得的巨大进展和承诺。最后,选择将激光器保留在外部是我们减轻供应链复杂性的一种方法。
标准化还将在解决供应链挑战和扩展该技术方面发挥关键作用。UCIe 和 CXL 都在寻求解决光纤互连问题,并正在探索光学 I/O 规范的制定。此外,CW-WDM MSA 是一项重要的行业倡议,正在定义和推广光学激光源的新标准和规范。由于光纤 I/O 是一项革命性技术,影响着行业的许多领域,因此非常需要开发和培育这个完整的生态系统。
本文链接://www.dmpip.com//www.dmpip.com/showinfo-27-1122-0.html光学互联,日益重要! 声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com 上一篇: 全球SiC晶圆竞争,进入白热化 下一篇: 芯片短缺,仍在影响生产?