如今 AI 的生意越做越大,从出圈爆火,到千行百业都开始拥抱 AI,越来越多的企业,都会将 AI 导入到他们的生意模式当中。预计到 2026 年有超过 3000 亿美金将投入到生成式 AI 当中,这其中包括硬件、软件、解决方案等。50% 以上的边缘应用也会采用 AI 技术。到 2028 年有 80% 以上的 PC 都会转换成 AI PC,通过 AI 可以提升大家在 PC 上的生产力。还有 80% 以上的公司,也会在 2026 年之前会导入某种程度的生成式 AI 以提高企业生产力。
各行各业都在积极的拥抱 AI,这离不开强大的算力支持,英特尔在去年 AI 风头正劲的时候推出了第五代英特尔至强可扩展处理器,为云端 AI 能力带来了全新的体验。
第五代至强最多拥有 64 个核,并引入了诸多 AI 特性,如 AMX、AVX-512 指令集等,并通过性能的提升,对生成式 AI 应用带来更快的体验。第五代至强可扩展处理器内存达 5600MT/s,三级缓存进一步提升,加速处理器的数据交换。在软件生态上英特尔也进行了很大投入,目前,英特尔上传了 300 个以上的深度学习模型到社区,也支持了 50 个以上的基于机器学习的、且基于第五代至强优化过的模型,这些开发者都可以调用。针对开发者,英特尔同步更新了其 AI 开发软件,可以在第五代至强上的应用做到较大优化,针对主流大模型、生成式 AI 模型的框架,如 PyTorch 和 TensorFlow,可以无缝拓展至英特尔至强可扩展处理器上。
针对第五代至强可扩展处理器的诸多变化,英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰表示,“基于硬件和软件的优化,第五代至强和第四代至强相比,在 AI 训练、实时推理、批量推理上,基于不同的算法,都可以看到不同性能的提升,最高可提升 40%。”
庄秉翰表示,“对新兴的,尤其是基于云原生的设计,我们提供能效核,每瓦性能可以做到相对极致,而且因为它的核比较精简,可以放更多高密度的核数到每一款的 CPU 和服务器,所以它会支持面向云的高密度超高能效的运算进行能效的优化。在近期对于产品淘汰换新的要求中,有一个重要考量因素就是能效比,而我们在今年推出的能效核,也是符合国家对设备淘汰换新的要求。”
第五代至强大调整,性能更强功耗控制更好第五代英特尔至强可扩展处理器带来了五项升级,在制程工艺方面,第五代至强采用 Intel 7 制程,从第四代至强到第五代至强,英特尔也关键的技术指标做了改进,特别是在系统的漏电流控制和动态电容方面,这两方面的指标都对整个晶体管的性能表现有比较大的影响。通过这些调整,整体上第五代至强在同等功耗下的频率可以提升 3%。
芯片布局方面,通过把四片芯片改成两片芯片的设计,可以更好的对芯片的面积进行控制。通过 MDF 和 SCF 连接,在第五代至强可进一步实现芯片之间的高效互连。
在关键表现上,第五代至强做了如下调整:
升级到 Raptor Cove 核心。
核心数增加,从最多的 60 核升级到 64 核。
LLC 大小从 1.875MB 增加到 5MB。
DDR 速度从 4800MT/s提升到了 5600MT/s。
UPI 速度从 16GT/s提升到 20GT/s。
SoC 芯片拓扑结构更改,4 芯片封装改为 2 芯片封装。
待机功耗降低。
待机功耗下降是通过英特尔全集成供电模块(FIVR),实现不同场景下节电优化。在性能能效方面,与第四代至强相比,第五代至强有两个数据提升比较明显,一个是常规的整数计算,第五代至强 SPEC integer 和整数相关的一系列的性能评价指标有 21% 的提升。针对 AI 负载,性能提升更多达到 42%。
为了达到这一性能提升,英特尔引入了新的 Raptor cove 核心并将四芯片封装改成两个芯片,这样可以减少芯片间的功耗,把更多功耗放在处理器的性能提升上。另外,DDR 的频率以及 LLC 的提升,这些都是和内存带宽相关的业务,有更好的性能表现。
在三级缓存上,第五代至强每个模块的三级缓存容量达到了 5MB,所以这款芯片有高达 320MB 缓存,如果数据集不是很大,大部分的数据都可以放在 LLC 缓存当中,大量减少对内存的访问。而在数据停留在缓存里面和到内存去访问,能带来的性能收益是比较大的。第五代至强在设计上做到同频同延迟下密度提升 30%。
内存方面,第五代至强 DDR 速度从 4800MT/s提升到 5600MT/s,英特尔做了很多优化,包括一些 MIM 的内存、基板上走线的提升以及片上的低噪声的供电措施等,还通过 DFE 功能尽可能的减少码间干扰(ISI)。
软件解决方案发展迅速,充分利用第五代至强性能如今数字化又有了新的需求,英特尔通过新的计算范式支持新的数字化需求。云计算是 AI 时代离不开的话题,AI 时代下,存在三个瓶颈,一是算力,二是数据,三是工程化能力。到了 AI 时代,数据中心的耗电量问题,也是摆在企业面前的一座大山。如何提升能效?英特尔的技术专家提出两种方式,一是为前端客户提供智能,二是自身的底层设施智能化。在过去的 10 年,英特尔致力于构建一个完备的生态,通过软、硬件结合帮助生态合作伙伴们充分挖掘和利用底层 CPU 能力。
第五代至强可扩展处理器在 AI 推理训练上最高提升了 14 倍,基础架构的存储能够达到 2.8 倍,网络边缘可以达到 3.2 倍,高性能计算能达到 3 倍,数据分析可以达到 3.7 倍,这些综合起来可以获得了多维度的提升,L3 缓存增加,受益最大的是数据库,AI 和大数据分析也会从 L3 的提升中受益。核数增加之后,“红利”最大的是科学计算和大数据。核之间 UPI 总线也会越来越快,所以核数多少对于 AI / 大数据比较重要。当然若是底层主频高了,内存带宽大了,4800MT/s提升至 5600MT/s了,那么大家都能获益。在 AI 当中,通过英特尔 AMX 加速器专门针对矩阵运算,性能便会大幅提升。
英特尔在第五代至强产品上充分挖掘 CPU 的能力,通过不同层次的深度挖掘,让 CPU 更适合 AI 场景,成为 AI 时代全能的大侠。
第五代至强可扩展处理器将持续保持至强平台性能的领先地位,与第四代至强可扩展处理器相比,其 AI 推理的高性能提升高达 42%,通用计算性能增益 21%。
英特尔拥有开放的生态,也帮助行业伙伴直接使用,并很好带动整个生态的发展。英特尔始终致力于在 CPU 上部署 AI,并基于 OpenVINO 对整个模型进行优化、量化。包括推荐、语音识别、图像识别、基因测序等,英特尔均做了大量的优化,尤其是推荐系统,其模型非常大,当 GPU 无法运行的时候,用 CPU 反而是主流的。因为 GPU 不够的时候,就意味着需要跨 GPU,或者说和 CPU 有频繁交互。那么,跟主存有频繁交互的时候,实际上使用 CPU 会更快。因此,对于推荐系统、大模型、稀疏矩阵等,用 CPU 效率更高。
对于通用的 AI 工作负载,英特尔采用 AMX 和 AVX-512 两个指令集,基于 OpenVINO 进行优化。在推理的过程中,指令集上可以进行切分,通过加速器定向加速某一部分,整个效果替代传统的基于 GPU 的 AI 模型。
依靠第五代英特尔至强可扩展处理器的硬件特性包括对 AI 的支持及内存带宽和吞吐量的提升使得 AI 推理能力也得到了增强,对于最终企业客户而言带来了整体性能的提升。配合软件优化使得在 CPU 上进行大模型推理成为可能。CPU 在推理能力上可以与 GPU 媲美,通过 oneCCL 的加持,甚至可以支持 700 亿参数的模型推理,延迟在 100ms 以内。
本文链接://www.dmpip.com//www.dmpip.com/showinfo-26-78151-0.html生成式 AI 算力新台阶,第五代至强可扩展处理器详解
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com