Google最近宣布,其数据中心已开始使用包含TPU v5p的AI加速器。这种新的加速器被视为Google迄今为止最强大、最具扩展性和弹性的AI加速器,被广泛认为是AI Hypercomputer系统中的关键要素。
Google的数据中心正在广泛运用TPU v5p,以提高大型语言模型(LLM)的训练速度。据Google公布的数据显示,与TPU v4相比,TPU v5p在进行LLM训练时的速度要快2.8倍。这种显著的提升将极大地加速AI工作负载的处理速度,对于那些需要大量计算资源和时间来训练和微调大模型的AI应用来说,这是一个重大的进步。
Google的这一进步凸显了TPU迭代的速度正在加快。就在8月份,Google Cloud才刚刚推出了TPU v5e,这表明TPU的迭代速度已经悄然加快。这种快速的迭代使得Google能够保持其在AI领域的领先地位,并满足不断增长的AI工作负载的需求。
Google Cloud机器学习和云端AI副总Amin Vahdat强调,为了有效地管理AI工作负载,需要一个完整的AI分层系统(AI stack),包括算力、储存、网络、软件和相关的开发架构。这些组件需要相互协同,以提供最佳的性能和效率。
Google的AI Hypercomputer基础设施旨在为AI工作负载提供优化支持。这个基础设施从底层开始,首先是硬件层,包括算力(GPU和TPU)、储存(区块、档案和物件类)以及网络资源。这里运用了水冷散热、光纤网络交换等相关技术。
再往上,是开源软件层和消费应用层。TPU不仅被Google自用,也提供给开发者和企业用户使用,以加速他们的AI应用开发时程。目前,已经有多个客户案例,包括Salesforce、Lightricks等。
值得注意的是,云服务领域的领导者AWS最近也提出了生成式AI分层系统的概念。在这个系统中,底层算力包括GPU和AWS的自研芯片系列和开发平台,而上层则是开发工具和应用程序。
微软也是云服务领域的巨头,最近也公布了训练和推论用的AI芯片Maia以及通用运算芯片Cobalt。微软表示,这些自研芯片将在2024年导入其数据中心。微软强调,基础设施系统涵盖了芯片、软件、服务器、机柜、冷却系统等各个层面,每个层面都在不断优化并走向自行设计。
本文链接://www.dmpip.com//www.dmpip.com/showinfo-27-39427-0.htmlGoogle加速TPU迭代,打造AI超算
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com