当前位置:首页 > 元宇宙 > AI

字节与浙大联合推多模态大语言模型Vista-LLaMA 可解读视频内容

来源: 责编: 时间:2024-01-10 17:23:40 263观看
导读Vista-LLaMA 在处理长视频内容方面的显著优势,为视频分析领域带来了新的解决框架。近年来,大型语言模型如 GPT、GLM 和 LLaMA等在自然语言处理领域取得了显著进展,基于深度学习技术能够理解和生成复杂的文本内容。然而,将

Vista-LLaMA 在处理长视频内容方面的显著优势,为视频分析领域带来了新的解决框架。zTx28资讯网——每日最新资讯28at.com

近年来,大型语言模型如 GPT、GLM 和 LLaMA等在自然语言处理领域取得了显著进展,基于深度学习技术能够理解和生成复杂的文本内容。然而,将这些能力扩展到视频内容理解领域则是一个全新的挑战 ——视频不仅包含丰富多变的视觉信息,还涉及时间序列的动态变化,这使得大语言模型从视频中提取信息变得更为复杂。zTx28资讯网——每日最新资讯28at.com

面对这一挑战,字节跳动联合浙江大学提出了能够输出可靠视频描述的多模态大语言模型 Vista-LLaMA。Vista-LLaMA专门针对视频内容的复杂性设计,能够有效地将视频帧转换为准确的语言描述,从而极大地提高了视频内容分析和生成的质量。zTx28资讯网——每日最新资讯28at.com

640.png

论文主页:https://jinxxian.github.io/Vista-LLaMA/zTx28资讯网——每日最新资讯28at.com

640.jpeg

图 1zTx28资讯网——每日最新资讯28at.com

技术创新路径zTx28资讯网——每日最新资讯28at.com

现有多模态视觉与语言模型在处理视频内容时,通常将视频帧转化为一系列的视觉 token,并与语言 token结合以生成文本。然而,随着生成文本长度的增加,视频内容的影响往往逐渐减弱,导致生成的文本越来越多地偏离原视频内容,产生所谓的 “幻觉” 现象。zTx28资讯网——每日最新资讯28at.com

Vista-LLaMA 通过创新的方式处理视频和文本间的复杂互动,突破了传统视频语言模型的限制。Vista-LLaMA 的核心创新在于其独特的视觉与语言token 处理方式。不同于其他模型,它通过维持视觉和语言 token间的均等距离,有效避免了文本生成中的偏差,尤其是在长文本中更为显著。这种方法大幅提高了模型对视频内容的理解深度和准确性。zTx28资讯网——每日最新资讯28at.com

640 (1).jpeg

图 2zTx28资讯网——每日最新资讯28at.com

Vista-LLaMA 采用了一种改良的注意力机制 —— 视觉等距离 token 注意力(EDVT),它在处理视觉与文本 token时去除了传统的相对位置编码,同时保留了文本与文本之间的相对位置编码。EDVT 机制通过特定的函数处理隐藏层输入,有效区分视觉 token 来源。zTx28资讯网——每日最新资讯28at.com

640 (1).png

具体而言,它首先对输入进行查询、键和值的映射转换,接着对查询和键输入应用旋转位置编码(RoPE),分别计算带 RoPE 和不带 RoPE的注意力权重。随后,根据视觉 token 的存在与否合并这两种注意力权重,通过 softmax函数实现注意力的归一化,并最终通过基于注意力权重的线性映射更新表示,生成输出结果。这种创新使得多模态大语言模型能够更加关注视频的内容,尤其在复杂的视频场景中,能够有效地捕捉关键视觉元素,提升了文本生成的质量和相关性。zTx28资讯网——每日最新资讯28at.com

640 (2).png

图 3zTx28资讯网——每日最新资讯28at.com

同时,该模型引入的序列化视觉投影器为视频中的时间序列分析提供了新的视角,它不仅能够处理当前视频帧,还能利用前一帧的信息,从而增强视频内容的连贯性和时序逻辑。zTx28资讯网——每日最新资讯28at.com

视觉投影器的作用是将视频特征映射到语言嵌入空间,以便大型语言模型融合和处理视觉与文本输入。如图 4所示,早期的视觉投影器通常使用线性层或查询转换器(Q-Former)直接将帧特征转换为语言token。然而,这些方法忽略了时间关系,限制了语言模型对视频的全面理解。Vista-LLaMA 中引入了序列化视觉投影器,它通过线性投影层编码视觉 token的时间上下文,增强了模型对视频动态变化的理解能力,这对于提升视频内容分析的质量至关重要。zTx28资讯网——每日最新资讯28at.com

640 (3).png

图 4zTx28资讯网——每日最新资讯28at.com

基准测试结果zTx28资讯网——每日最新资讯28at.com

Vista-LLaMA 在多个开放式视频问答基准测试中展现了卓越性能。它在 NExT-QA 和 MSRVTT-QA测试中取得了突破性成绩,这两个测试是衡量视频理解和语言生成能力的关键标准。在零样本 NExT-QA 测试中,Vista-LLaMA 实现了 60.7%的准确率。而在 MSRVTT-QA 测试中达到了 60.5% 的准确率,超过了目前所有的 SOTA 方法。这些成绩在行业中属于先进水平,显著超越了其他 SOTA模型,如 Video-ChatGPT 和 MovieChat。zTx28资讯网——每日最新资讯28at.com

640 (4).png

图 5zTx28资讯网——每日最新资讯28at.com

640 (5).png

这些测试结果证明了 Vista-LLaMA 在视频内容理解和描述生成方面的高效性和精准性,Vista-LLaMA能够准确理解和描述视频内容,显示了其强大的泛化能力。这些成绩不仅展示了 Vista-LLaMA在理解复杂视频内容方面的能力,还证明了其在多模态语言处理领域的领先地位。zTx28资讯网——每日最新资讯28at.com

数据集:CineClipQAzTx28资讯网——每日最新资讯28at.com

640 (6).png

图 6zTx28资讯网——每日最新资讯28at.com

与 Vista-LLaMA 一同提出的还有 CineClipQA 新数据集。zTx28资讯网——每日最新资讯28at.com

CineClipQA 包含了 153 个精选视频片段,这些片段来自五部风格和叙事手法各异的电影。每个片段代表电影情节的一个或多个独特部分,并附有 16个量身定制的问题,共计 2448 个问题。问题分为系统提示和问题两部分:zTx28资讯网——每日最新资讯28at.com

● 系统提示提供了当前视频片段中关键角色的基本信息,并在必要时为角色的初始行动提供提示。zTx28资讯网——每日最新资讯28at.com

●问题主要分为五类:识别、时间性(预测)、空间性(互动)、意图和感知。具体来说,识别包括地点和行动的问题;时间性涉及下一个行动、之前的行动、同时发生的行动和预测行动的问题;空间性涉及物体与人之间的空间信息问题;意图涉及行动目的地三种相似问题;感知检查情感识别和询问“如何”(方式、态度等)。zTx28资讯网——每日最新资讯28at.com

该研究还提供了所有 16 种类型的详细解释和相应案例。在 CineClipQA 数据集中,Vista-LLaMA 也表现出了卓越的性能。zTx28资讯网——每日最新资讯28at.com

640 (7).png

图 7zTx28资讯网——每日最新资讯28at.com

简言之,Vista-LLaMA在处理长视频内容方面的显著优势,为视频分析领域带来了新的解决框架,推动人工智能在视频处理和内容创作方面的发展,预示着未来多模态交互和自动化内容生成领域的广泛机遇。zTx28资讯网——每日最新资讯28at.com

更多详情,请访问项目页面 [https://jinxxian.github.io/Vista-LLaMA]。zTx28资讯网——每日最新资讯28at.com

关于字节跳动智能创作团队zTx28资讯网——每日最新资讯28at.com

智能创作团队是字节跳动音视频创新技术和业务中台,覆盖了计算机视觉、图形学、语音、拍摄编辑、特效、客户端、服务端工程等技术领域,借助字节跳动丰富的业务场景、基础设施资源和良好的技术协作氛围,实现了前沿算法- 工程系统 -产品全链路的闭环,旨在以多种形式向公司内部各业务线以及外部合作客户提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。zTx28资讯网——每日最新资讯28at.com

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。(作者:彭傲晴)zTx28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
奇瑞汽车预计2024年汽车行业增长低位,但仍坚持高质量发展路线
奇瑞汽车预计2024年汽车行业增长低位,但仍坚持高质量发展路线
TCL震撼CES 2024:发布115英寸QM891G电视,引领画质新纪元
TCL震撼CES 2024:发布115英寸QM891G电视,引领画质新纪元
TCL QM891G电视闪耀CES 2024:115英寸巨幕引领视听新风尚
TCL QM891G电视闪耀CES 2024:115英寸巨幕引领视听新风尚
CES 2024:三星发布“AI for All”愿景
CES 2024:三星发布“AI for All”愿景
特斯拉Model Y创历史:首次登顶全球最畅销车型,力压丰田卡罗拉
特斯拉Model Y创历史:首次登顶全球最畅销车型,力压丰田卡罗拉
上汽大众2024款ID.3极智版新登场,科技与舒适并存
上汽大众2024款ID.3极智版新登场,科技与舒适并存
热门内容
  • 2024湖南卫视元旦跨年晚会即将开启 跨年当天京东真便宜直播间海量京东E卡等你领!
  • 定了!12月31日19时30分,来华为视频看2023-2024湖南卫视芒果TV跨年晚会
  • 2024年跨年晚会直播软件哪个好?当贝X5投影仪看跨年直播方法汇总
  • 2024跨年晚会直播怎么看?当贝F6看跨年晚会直播超方便
  • 2024年客厅投影仪最值得买推荐:当贝X5 Ultra最值得入手的客厅投影
  • 星纪元ES、极氪001、智界S7、阿维塔12都来了,究竟谁是智能车之王?
  • 懂车帝冬测公开日续航成绩公布,领克08和问界M7依旧倒数
  • 懂车帝举报多个抹黑造谣冬测自媒体,将追究法律责任
  • 谁说游戏手机没有IP68级防尘防水?ROG8新机这次秀翻了
  • 跨年晚会直播观看攻略:当贝F6投影仪大屏看跨年晚会更精彩
  • 已开启春节预订 一嗨租车大规模上新车保障2024年春运
  • 网易游戏与华为达成鸿蒙合作
  • AG超玩会上九游会师成王者荣耀世界冠军杯选拔赛,表演卓绝
  • 2023年五千元投影仪买哪个牌子好?当贝F6投影仪带来明亮清晰画面
  • 2023抖音汽车年终狂欢节来袭,打造汽车种草IP,赋能营销新模式
本栏最新
CES 2024:三星发布“AI for All”愿景
CES 2024:三星发布“AI for All”愿景
MORROR ART R2:复古未来主义的美学音箱
MORROR ART R2:复古未来主义的美学音箱
报名亚洲第一商学院香港科技大学MBA,助你成为亚洲前瞻商业领袖
报名亚洲第一商学院香港科技大学MBA,助你成为亚洲前瞻商业领袖
中欧互联领航者论坛在京开幕,华为云发布“双百”计划助力中国企业出海欧洲
中欧互联领航者论坛在京开幕,华为云发布“双百”计划助力中国企业出海欧洲
绿源S90三年质保续航不减,啥黑科技挑战行业首个整车全性能极寒测试?
绿源S90三年质保续航不减,啥黑科技挑战行业首个整车全性能极寒测试?
三星电子推出 2024新品 Neo QLED、MICRO LED、OLED 和 Lifestyle产品,开启人工智能屏幕新时代,引领全新生活方式
三星电子推出 2024新品 Neo QLED、MICRO LED、OLED 和 Lifestyle产品,开启人工智能屏幕新时代,引领全新生活方式

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-3186-0.html字节与浙大联合推多模态大语言模型Vista-LLaMA 可解读视频内容

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 售价80万+,路特斯EMEYA纯电超跑发布会定档,性能惊艳值得期待

下一篇: 潮酷碰撞!联想拯救者联名魅族PANDAER,Y9000P电竞本即将震撼登场

标签:
  • 热门焦点
  • 元宇宙终究没火过两年

    元宇宙终究没火过两年

    来源:传播体操在ChatGPT快速破圈的同时,元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力,但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
  • AIGC产品测评TOP25丨谁能抢到下个十年的“船票”?

    AIGC产品测评TOP25丨谁能抢到下个十年的“船票”?

    Tech星球(微信ID:tech618) 文 | 何煦阳策划 | 杨晓鹤封面来源 | 图虫创意 2016年,李彦宏站在百度联盟峰会的讲台上,向所有人宣布:互联网的下一幕是人工智能。同年,Google 旗下 Dee
  • VR/AR迷失元宇宙“硝烟”

    VR/AR迷失元宇宙“硝烟”

    不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵,又随着元宇宙回归平静。1月份,微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员,其中负责混合现实硬件(MR)的Holo
  • 这场虚拟人争夺战,互联网巨头下场先赢一半?

    这场虚拟人争夺战,互联网巨头下场先赢一半?

    撰文/ 孟会缘 近两年间,要论引得无数互联网巨头竞折腰的一大热门产业,莫过于元宇宙领域中的数字人了。 作为继数字藏品之后,开发元宇宙的又一重点落地项目,互联网
  • 挖来Meta AR高管,难道苹果也要进军元宇宙?

    挖来Meta AR高管,难道苹果也要进军元宇宙?

    “被曝光”的才是最吸引人的产品,相信有关注过苹果硬件消息的朋友们都明白这样的道理。往近了说有苹果“即将发布”的iPhone SE 3和M2芯片,往远了说有“折叠屏iP
  • 保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷又出超跑了,不过这次不是在现实世界,而是在虚拟世界。这款Vision Gran Turismo概念车,由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造,将于202
  • 摩根大通:元宇宙市场预计每年收入超1万亿美元

    摩根大通:元宇宙市场预计每年收入超1万亿美元

    今日《元宇宙新鲜事》有:香港首届元宇宙艺博会将于5月举办;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虚拟现实平台Horizon Worlds月活跃用户在三个
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • 大厂打造元宇宙平台的业务重心是什么?

    大厂打造元宇宙平台的业务重心是什么?

    知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告,其中提出互联网大厂各自独立布局元宇宙平台。事实上,在2021年的最后一个季度,包括Meta、英伟达、

最新推荐

猜你喜欢

热门推荐

相关资讯

Top
Baidu
map