当前位置:首页 > 科技  > 资讯

StreamingLLM框架亮相:突破文本长度限制

来源: 责编: 时间:2023-10-06 19:15:52 186观看
导读10月06日消息,麻省理工学院与metaAI的研究人员最近宣布他们成功开发了一项名为StreamingLLM的创新框架,该框架被认为能够解决大型语言模型面临的内存和泛化问题,使其能够轻松处理无限长度的文本内容。这一研究的关键焦点

10月06日消息,麻省理工学院与metaAI的研究人员最近宣布他们成功开发了一项名为StreamingLLM的创新框架,该框架被认为能够解决大型语言模型面临的内存和泛化问题,使其能够轻松处理无限长度的文本内容。ur728资讯网——每日最新资讯28at.com

ur728资讯网——每日最新资讯28at.com

这一研究的关键焦点在于克服实现高效流式语言模型(Efficient Streaming LanguageModels,ESLM)时所面临的障碍,尤其是在长时间多轮对话等场景下可能出现的问题。ur728资讯网——每日最新资讯28at.com

据ITBEAR科技资讯了解,研究人员指出,构建流式语言模型主要面临两大挑战。解码阶段获取标记(token)的键(Key)和值(Value)状态会耗费大量内存。其次,现有的大型语言模型很难泛化到处理超出其训练序列长度的长文本。ur728资讯网——每日最新资讯28at.com

过去的研究尝试解决这些挑战,例如扩展注意力窗口以处理长文本或建立一个固定大小的活动窗口,只关注最近的标记状态以维护内存使用和解码速度。然而,这些策略在处理超出缓存大小的序列时表现不佳。ur728资讯网——每日最新资讯28at.com

ur728资讯网——每日最新资讯28at.com

StreamingLLM采用了一种名为"注意力下沉"的策略,通过观察到自回归语言模型中,某些标记会获得大量的注意力,即使它们在语义上并不重要,这些标记也会吸引模型的关注。这种策略确保了无论输入序列的长度如何,模型的注意力计算都能保持稳定。ur728资讯网——每日最新资讯28at.com

StreamingLLM的重要贡献在于提供了一种简单而高效的解决方案,使语言模型能够处理无限长度的文本,而无需进行微调。这将有助于解决当前流式应用中语言模型面临的问题。虽然流式语言模型在未来将变得更加重要,但由于内存效率和长序列处理性能等方面的限制,相关模型的发展仍面临挑战。ur728资讯网——每日最新资讯28at.com

据研究团队验证,StreamingLLM能够使Llama2、MPT、Falcon和Pythia等模型可靠地处理长达400万个标记的文本,从而为流式语言模型的部署提供了更多可能性。这一创新有望推动自然语言处理领域的发展,并为各种应用场景带来更强大的语言模型支持。ur728资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-16-11921-0.htmlStreamingLLM框架亮相:突破文本长度限制

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 华为鸿蒙原生应用全面启动,全面布局移动生态链

下一篇: OpenAI或将收购目标公司,推进AI芯片自主研发计划

标签:
  • 热门焦点
  • 8月总票房已突破10亿!《封神》第一:口碑已经成了

    8月总票房已突破10亿!《封神》第一:口碑已经成了

    8月5日消息,据灯塔专业版数据,截至8月5日9时35分,8月总票房(含预售)已突破10亿。其中,《封神》以大比分的优势领先。根据官方消息,目前该片总票房已经超过14.
  • 分布式系统中的CAP理论,面试必问,你理解了嘛?

    分布式系统中的CAP理论,面试必问,你理解了嘛?

    对于刚刚接触分布式系统的小伙伴们来说,一提起分布式系统,就感觉高大上,深不可测。而且看了很多书和视频还是一脸懵逼。这篇文章主要使用大白话的方式,带你理解一下分布式系统
  • .NET 程序的 GDI 句柄泄露的再反思

    .NET 程序的 GDI 句柄泄露的再反思

    一、背景1. 讲故事上个月我写过一篇 如何洞察 C# 程序的 GDI 句柄泄露 文章,当时用的是 GDIView + WinDbg 把问题搞定,前者用来定位泄露资源,后者用来定位泄露代码,后面有朋友反
  • 慕岩炮轰抖音,百合网今何在?

    慕岩炮轰抖音,百合网今何在?

    来源:价值研究所 作者:Hernanderz“难道就因为自己的一个产品牛逼了,从客服到总裁,都不愿意正视自己产品和运营上的问题,选择逃避了吗?”这一番话,出自百合网联合创
  • 2天涨粉255万,又一赛道在抖音爆火

    2天涨粉255万,又一赛道在抖音爆火

    来源:运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁这个暑期,旅游赛道彻底火了:有的「地方」火了——贵州村超旅游收入 1 个月超过 12 亿;有的「博主」火了&m
  • 大厂卷向扁平化

    大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 东方甄选单飞:有些鸟注定是关不住的

    东方甄选单飞:有些鸟注定是关不住的

    作者:彭宽鸿来源:华尔街科技眼‍‍‍‍‍‍‍‍‍‍东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一
  • 华为将推出盘古数字人大模型 可帮助用户12小时完成数字人生成

    华为将推出盘古数字人大模型 可帮助用户12小时完成数字人生成

    在今日举行的2023年华为云数字文娱AI创新峰会上,华为云全球Marketing与销售服务总裁石冀琳表示,华为云将在后续推出盘古数字人大模型,可帮助用户12小
  • 支持aptX Lossless无损传输 iQOO TWS 1赛道版发布限时优惠价369元

    支持aptX Lossless无损传输 iQOO TWS 1赛道版发布限时优惠价369元

    2023年7月4日,“无损音质,声动人心”iQOO TWS 1正式发布,支持aptX Lossless无损传输,限时优惠价369元。iQOO TWS 1耳机率先支持端到端aptX Lossless无
Top
Baidu
map