当前位置:首页 > 元宇宙 > AI

英伟达 NVLM 1.0 引领多模态 AI 变革:媲美 GPT-4o,不牺牲性能平衡文本和图像处理难题

来源: 责编: 时间:2024-09-24 08:59:43 20观看
导读 9 月 21 日消息,科技媒体 marktechpost 昨日(9 月 20 日)发布博文,报道了英伟达(Nvidia)最新发布的论文,介绍了多模态大语言模型系列 NVLM 1.0。多模态大型语言模型(MLLM)多模态大型语言模型(MLLM)所创建的 AI 系统,能够

9 月 21 日消息,科技媒体 marktechpost 昨日(9 月 20 日)发布博文,报道了英伟达(Nvidia)最新发布的论文,介绍了多模态大语言模型系列 NVLM 1.0。o1m28资讯网——每日最新资讯28at.com

多模态大型语言模型(MLLM)

多模态大型语言模型(MLLM)所创建的 AI 系统,能够无缝解读文本和视觉数据等,弥合自然语言理解和视觉理解之间的差距,让机器能够连贯地处理从文本文档到图像等各种形式的输入。o1m28资讯网——每日最新资讯28at.com

多模态大型语言模型在图像识别、自然语言处理和计算机视觉等领域拥有广阔应用前景,改进人工智能整合和处理不同数据源的方式,帮助 AI 朝着更复杂的应用方向发展。o1m28资讯网——每日最新资讯28at.com

英伟达 NVLM 1.0

NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三种主要架构。每个架构都结合先进的多模态推理功能与高效的文本处理功能,从而解决了以往方法的不足之处。o1m28资讯网——每日最新资讯28at.com

NVLM 1.0 的一个显著特点是在训练过程中加入了高质量纯文本监督微调(SFT)数据,这使得这些模型在视觉语言任务中表现出色的同时,还能保持甚至提高纯文本性能。o1m28资讯网——每日最新资讯28at.com

研究团队强调,他们的方法旨在超越 GPT-4V 等现有专有模型和 InternVL 等开放式替代模型。o1m28资讯网——每日最新资讯28at.com

NVLM 1.0 模型采用混合架构来平衡文本和图像处理:o1m28资讯网——每日最新资讯28at.com

NVLM-D:纯解码器模型,以统一的方式处理两种模式,因此特别擅长多模式推理任务。o1m28资讯网——每日最新资讯28at.com

NVLM-X:采用交叉注意机制,提高了处理高分辨率图像时的计算效率o1m28资讯网——每日最新资讯28at.com

NVLM-H:混合了上述两种架构的优势,在保持文本推理所需的效率的同时,实现了更详细的图像理解。o1m28资讯网——每日最新资讯28at.com

o1m28资讯网——每日最新资讯28at.com

这些模型结合了高分辨率照片的动态平铺技术,在不牺牲推理能力的情况下显著提高了 OCR 相关任务的性能。o1m28资讯网——每日最新资讯28at.com

性能

在性能方面,NVLM 1.0 模型在多个基准测试中取得了令人印象深刻的成绩。o1m28资讯网——每日最新资讯28at.com

o1m28资讯网——每日最新资讯28at.com

归功于在训练过程中集成了高质量的文本数据集,在 MATH 和 GSM8K 等纯文本任务中,NVLM-D1.0 72B 模型比其纯文本骨干提高了 4.3 分。o1m28资讯网——每日最新资讯28at.com

在视觉问题解答和推理任务中,这些模型还表现出了强大的视觉语言性能,在 VQAv2 数据集上的准确率为 93.6%,在 AI2D 上的准确率为 87.4%。o1m28资讯网——每日最新资讯28at.com

在 OCR 相关任务中,NVLM 模型的表现明显优于现有系统,在 DocVQA 和 ChartQA 数据集上的准确率分别为 87.4% 和 81.7%,突出显示了其处理复杂视觉信息的能力。o1m28资讯网——每日最新资讯28at.com

NVLM-X 和 NVLM-H 模型也取得了这些成绩,它们在处理高分辨率图像和多模态数据方面表现出色。o1m28资讯网——每日最新资讯28at.com

研究的主要发现之一是,NVLM 模型不仅在视觉语言任务中表现出色,而且还保持或提高了纯文本性能,这是其他多模态模型难以达到的。o1m28资讯网——每日最新资讯28at.com

o1m28资讯网——每日最新资讯28at.com

例如,在基于文本的推理任务(如 MMLU)中,NVLM 模型保持了较高的准确率,在某些情况下甚至超过了纯文本模型。o1m28资讯网——每日最新资讯28at.com

o1m28资讯网——每日最新资讯28at.com

想象一下在自动驾驶汽车中的应用场景。NVLM 1.0 可以通过摄像头实时获取道路信息,并与车辆导航系统进行语言沟通。o1m28资讯网——每日最新资讯28at.com

它不仅能识别交通标志,还能理解复杂路况下的人类指令,例如“如果前方有施工,请寻找替代路线”。这得益于其强大的视觉-语言处理能力以及出色的文本推理能力,使得自动驾驶更加智能、安全、可靠。o1m28资讯网——每日最新资讯28at.com

小结

英伟达开发的 NVLM 1.0 模型代表了多模态大型语言模型的重大突破,该模型通过在多模态训练中集成高质量文本数据集,并采用动态平铺和高分辨率图像平铺标记等创新架构设计,解决了在不牺牲性能的前提下平衡文本和图像处理的关键难题。o1m28资讯网——每日最新资讯28at.com

NVLM 系列模型不仅在视觉语言任务方面超越了领先的专有系统,而且还保持了卓越的纯文本推理能力,让多模态人工智能系统的发展又向前迈进一大步。o1m28资讯网——每日最新资讯28at.com

附上参考地址o1m28资讯网——每日最新资讯28at.com

This AI Paper by NVIDIA Introduces NVLM 1.0: A Family of Multimodal Large Language Models with Improved Text and Image Processing Capabilitieso1m28资讯网——每日最新资讯28at.com

NVLM: Open Frontier-Class Multimodal LLMso1m28资讯网——每日最新资讯28at.com

NVLM: Open Frontier-Class Multimodal LLMs Githubo1m28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-7545-0.html英伟达 NVLM 1.0 引领多模态 AI 变革:媲美 GPT-4o,不牺牲性能平衡文本和图像处理难题

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: JetBrains联手阿里云,AI Assistant助力中国开发者飞跃新世代!

下一篇: OpenAI 笑傲 AI 江湖:新 50-70 亿美元融资将完成,估值有望破 1500 亿美元

标签:
  • 热门焦点
  • 一份全面清单:Web3行业高薪酬的13种工作

    一份全面清单:Web3行业高薪酬的13种工作

    来源:区块链骑士这可能会让许多人感到震惊,但除了成为开发人员之外,Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域,换句话说,它由许多个在不同领域中具有不同
  • B端难做:留给魔珐科技的时间不多了

    B端难做:留给魔珐科技的时间不多了

    来源:零态LT元宇宙泡沫正在碎裂,进入2023年后这一赛道热度一直在递减。今年2月,微软解散了成立仅四个月的工业元宇宙部门;今年3月,该公司2017年收购的虚拟现实社交平台AltspaceVR
  • “平均时代”:ChatGPT模仿秀的隐喻

    “平均时代”:ChatGPT模仿秀的隐喻

    来源:锦缎如果你问ChatGPT,Instagram上最美的女人是谁?它很可能会给你一个名字,叫卡戴珊。如果你观察过Instagram这个美版小红书:平台上的所有网红,展现的几乎是统一面孔:统一的医
  • 银保监会:打击以“元宇宙”为名义的违法行为

    银保监会:打击以“元宇宙”为名义的违法行为

    今日,银保监会发布《关于防范以“元宇宙”名义进行非法集资的风险提示》,全文如下:近期,一些不法分子蹭热点,以“元宇宙投资项目”“元宇宙链游”等名目吸收资金,涉
  • 吸金31亿美元,谁在催火2021年的链游?

    吸金31亿美元,谁在催火2021年的链游?

    2021年究竟发生了什么,才使得链游领域在这年一飞冲天?作者:廖羽2022年2月16日,Invest Game发布《2021年全球游戏投资报告》,报告显示,游戏行业的投资重点正在向区块
  • 元宇宙社交时代,华丽归来的超级QQ秀重构虚拟社交场景

    元宇宙社交时代,华丽归来的超级QQ秀重构虚拟社交场景

    作者:狂人 不知不觉间,QQ已经迎来了第23个生日。作为国内社交平台的起点,QQ可谓是睥睨全网,不仅有庞大的用户群体,还将虚拟形象及QQ整合成在线虚拟社区,开启了时髦
  • 量子计算在未来能否提高区块链技术的效率

    量子计算在未来能否提高区块链技术的效率

    区块链技术的主要成功之处在于对不透明的金融流程进行了去中心化的访问量子计算机的内在目标是解决传统计算机不可能解决的问题随着区块链技术的使用案例逐渐
  • 花旗集团前高管加入Provenance区块链,担任CEO

    花旗集团前高管加入Provenance区块链,担任CEO

    No.1 花旗集团前高管加入Provenance区块链,担任CEO3月1日消息,Provenance区块链基金会已任命花旗集团前高管摩根·麦肯尼(Morgan McKenney)为新任首席执行官。麦肯
  • 元宇宙不完全是想出来的,而是实打实做出来的

    元宇宙不完全是想出来的,而是实打实做出来的

    沈阳强调,元宇宙不完全是想出来的,而是靠实打实做出来的;互联网向三维化升级是已经明确的大方向,这意味着大量的资金和技术会持续涌入。跨入2022年,元宇宙并没有“
Top
Baidu
map