当前位置：首页 > 元宇宙 > AI

清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能

来源：责编：时间：2024-01-03 09:09:34 273观看

导读 12 月 29 日消息，大语言模型（LLM）的触角已经从单纯的自然语言处理，扩展到文本、音频、视频等多模态领域，而其中一项关键就是视频时序定位（Video Grounding，VG）。VG 任务的目的基于给定查询（一句描述），然后在目标视频段中

12 月 29 日消息，大语言模型（LLM）的触角已经从单纯的自然语言处理，扩展到文本、音频、视频等多模态领域，而其中一项关键就是视频时序定位（Video Grounding，VG）。

VG 任务的目的基于给定查询（一句描述），然后在目标视频段中定位起始和结束时间，核心挑战在于时间边界定位的精度。

清华大学研究团队近日推出了“LLM4VG”基准，这是一个专门设计用于评估 LLM 在 VG 任务中的性能。

此基准考虑了两种主要策略：第一种涉及直接在文本视频数据集（VidLLM）上训练的视频 LLM，第二种是结合传统的 LLM 与预训练的视觉模型。

在第一种策略中，VidLLM 直接处理视频内容和 VG 任务指令，根据其对文本-视频的训练输出预测。

第二种策略更为复杂，涉及 LLM 和视觉描述模型。这些模型生成与 VG 任务指令集成的视频内容的文本描述，通过精心设计的提示。

这些提示经过专门设计，可以有效地将 VG 的指令与给定的视觉描述结合起来，从而让 LLM 能够处理和理解有关任务的视频内容。

据观察，VidLLM 尽管直接在视频内容上进行训练，但在实现令人满意的 VG 性能方面仍然存在很大差距。这一发现强调了在训练中纳入更多与时间相关的视频任务以提高性能的必要性。

而第二种策略优于 VidLLM，为未来的研究指明了一个有希望的方向。该策略主要限制于视觉模型的局限性和提示词的设计，因此能够生成详细且准确的视频描述后，更精细的图形模型可以大幅提高 LLM 的 VG 性能。

总之，该研究对 LLM 在 VG 任务中的应用进行了开创性的评估，强调了在模型训练和提示设计中需要更复杂的方法。

附上论文参考地址：https://arxiv.org/pdf/2312.14206.pdf

本文链接：//www.dmpip.com//www.dmpip.com/showinfo-45-3110-0.html清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：广汽埃安2023年销量大放异彩，累计突破48万辆大关

下一篇：教 AI 入侵 AI，科学家研发 Masterkey 新方式

标签：

热门焦点

一份全面清单：Web3行业高薪酬的13种工作

来源：区块链骑士这可能会让许多人感到震惊，但除了成为开发人员之外，Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域，换句话说，它由许多个在不同领域中具有不同
冰墩墩NFT遇冷，价格跌80%，日成交仅3笔。

“两日上涨千倍”并不存在，且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日，获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
江西将探索成立元宇宙联盟，韩国将加强对NFT和元宇宙的监管

《元宇宙新鲜事》有：江西将探索成立元宇宙联盟，支持南昌规划建设元宇宙试验区；韩国金融监督局将加强对NFT和元宇宙的监管；任天堂社长表示暂时不打算加入元宇宙。【
超级碗的加密时刻：是主流信号还是“网络超级碗2.0”？

2 月 13 日，美东时间 18:30，有着“美国春晚”之誉的超级碗（Super Bowl）落下帷幕。超级碗是美国国家美式足球联盟（也称为国家橄榄球联盟）的年度冠军赛，胜者将成为“世
Web3 去中心化身份管理系统的历史、现状与展望

身份、数字资产和在线资料的映射最近在区块链行业获得了极大的关注。新技术正在形成架构，这将进一步为去中心化和以用户为中心的机制铺平道路。本文将讨论以下
2022年中国元宇宙系列报告：底层架构研究：虚拟引擎，擎动未来

“虚拟引擎是元宇宙平台搭建的基本工具。在这样的条件下，虚拟引擎拥有了广阔的市场空间。也需要虚拟引擎拥有拥有强大的处理能力，能够高效快速的实现大量交互场
韩国建立元宇宙生态系统，智度股份发布元宇宙社区Meta彼岸

财联社|区块链日报28日讯今日《元宇宙新鲜事》有：杭州第十三次党代会报告指出抓紧布局元宇宙等未来产业；韩国科学信息通信技术部宣布投资1.85亿美元建立元宇宙
百度虚拟人——AI手语主播首次亮相冬奥会！

除了火遍全国的冰墩墩，虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天
从NFT数字收藏，洞察数字音乐版权市场发展趋势

去年8月9日，腾讯音乐布局NFT数字收藏，在腾讯应用宝发布幻核app，腾讯音乐的提前布局示意着未来区块链技术将对数字音乐版权市场进行改造升级。作者从深层测分析为