随着人工智能的快速发展,大型语言模型(LLM)在商业领域的应用越来越广泛。然而,传统的微调方法往往需要耗费大量的运算资源和成本,这对于资源有限的企业来说是一个巨大的阻碍。
为了解决这个问题,史丹佛大学和加州大学柏克莱分校(UC Berkeley)的研究团队共同开发了一种名为S-LoRA的创新技术,该技术可以大幅降低微调LLM的成本,让企业能够在单一图形处理单元(GPU)上运行数百个甚至数千个模型。
传统上,微调LLM需要使用新的范例,重新训练预训练模型并调整所有参数。然而,LLM通常拥有数十亿个参数,因此需要大量的运算资源。S-LoRA技术通过参数高效微调法(PEFT)解决了这个问题。
LoRA是一种由微软开发的低端适应款模型,它可以降低可训练参数的数量,同时维持准确度,从而大幅减少定制化模型所需的存储器和运算资源。S-LoRA则拥有动态存储器管理系统,可以在主存储器(RAM)和GPU之间灵活切换LoRA适配器。
S-LoRA系统还引入了“统一分页”(Unified Paging),让服务器能够处理数百个甚至数千个批量的查询,而不会出现存储器碎片化问题。此外,S-LoRA还整合了“张量平行系统”(Tensor parallelism)。
这些特点使得S-LoRA能够在单一GPU或多个GPU上服务许多LoRA适配器。最显著的成就是,S-LoRA能够同时服务2,000个适配器。
目前,S-LoRA的程序码已经公布在GitHub上。研究人员计划将其整合到当今流行的LLM服务架构中,这样企业就可以轻松地将S-LoRA融入自家应用程序,以最小的成本享受定制化的LLM驱动服务。
本文链接://www.dmpip.com//www.dmpip.com/showinfo-27-38475-0.htmlS-LoRA技术:减轻企业LLM部署负担
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com