当前位置：首页 > 科技 > 网络

阿里通义千问发布强视觉理解模型Qwen2-VL-72B！可理解20分钟以上长视频

来源：责编：时间：2024-08-31 08:33:27 49观看

导读快科技8月30日消息，阿里通义千问发布第二代视觉语言模型Qwen2-VL。其中，旗舰模型Qwen2-VL-72B的API已上线阿里云百炼平台。据了解，Qwen2-VL在多个权威测评中刷新了多模态模型的佳成绩，在部分指标上甚至超越了GP

快科技8月30日消息，阿里通义千问发布第二代视觉语言模型Qwen2-VL。其中，旗舰模型Qwen2-VL-72B的API已上线阿里云百炼平台。

据了解，Qwen2-VL在多个权威测评中刷新了多模态模型的佳成绩，在部分指标上甚至超越了GPT-4o和Claude3.5-Sonnet等闭源模型。

2023年8月，通义千问开源第一代视觉语言理解模型Qwen-VL，成为开源社区受欢迎的多模态模型之一。

短短一年内，模型下载量突破1000万次。目前，多模态模型在手机、车端等各类视觉识别场景的落地正在加速，开发者和应用企业也格外关注Qwen-VL的升级迭代。

相比上代模型，Qwen2-VL的基础性能全面提升。可以读懂不同分辨率和不同长宽比的图片，在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试创下全球领先的表现。

此外，Qwen2-VL可以理解20分钟以上长视频，支持基于视频的问答、对话和内容创作等应用。同时，具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推理和决策的能力，Qwen2-VL可以集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作。

该模型还能理解图像视频中的多语言文本，包括中文、英文，大多数欧洲语言，日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评估了模型能力，包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。

Qwen2-VL-72B 在大部分的指标上都达到了优，甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型，在文档理解方面优势尤其明显，仅在综合的大学题目方面与GPT-4o 存在差距。

用户可通过阿里云百炼平台调用Qwen2-VL-72B的API：https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

阿里通义千问发布强视觉理解模型Qwen2-VL-72B！可理解20分钟以上长视频

本文链接：//www.dmpip.com//www.dmpip.com/showinfo-17-110747-0.html阿里通义千问发布强视觉理解模型Qwen2-VL-72B！可理解20分钟以上长视频

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：美国从中国大量进口餐废油脂：旨在生产航空燃料

下一篇：市场监管总局督导阿里巴巴集团完成三年整改：全面停止二选一垄断行为

标签：

热门焦点

俄罗斯：将审查iPhone等外国公司设备保数据安全

iPhone和特斯拉都属于在各自领域领头羊的品牌，推出的产品也也都是数一数二的，但对于一些国家而言，它们的产品可靠性和安全性还是在限制范围内。近日，俄罗斯联邦通信、信息技术
中兴AX5400Pro+上手体验：再升级双2.5G网口+USB 3.0这次全都有

2021年11月的时候，中兴先后发布了两款路由器产品，中兴AX5400和中兴AX5400 Pro，从产品命名上就不难看出这是隶属于同一系列的，但在外观设计上这两款产品可以说是完全没一点关系
2023 年的 Node.js 生态系统

随着技术的不断演进和创新，Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统，可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
分享六款相见恨晚的PPT模版网站, 祝你做出精美的PPT!

1、OfficePLUSOfficePLUS网站旨在为全球Office用户提供丰富的高品质原创PPT模板、实用文档、数据图表及个性化定制服务。优点：OfficePLUS是微软官方网站，囊括PPT模板、Word模
一篇文章带你了解 CSS 属性选择器

属性选择器对带有指定属性的 HTML 元素设置样式。可以为拥有指定属性的 HTML 元素设置样式，而不仅限于 class 和 id 属性。一、了解属性选择器CSS属性选择器提供了一种简单而
国行版三星Galaxy Z Fold5/Z Flip5发布售价7499元起

2023年8月3日，三星电子举行Galaxy新品中国发布会，正式在国内推出了新一代折叠屏智能手机三星Galaxy Z Fold5与Galaxy Z Flip5，以及三星Galaxy Tab S9
Android 14发布：首批适配机型公布

5月11日消息，谷歌在今天凌晨举行了I/O大会，本次发布会谷歌带来了自家的AI语言模型PaLM 2、谷歌Pixel Fold折叠屏、谷歌Pixel 7a手机，同时发布了Androi
滴滴违法违规被罚80.26亿共存在16项违法事实

滴滴违法违规被罚80.26亿存在16项违法事实开始于2121年7月，历经一年时间，网络安全审查办公室对“滴滴出行”网络安全审查终于有了一个暂时的结束。据“网信
荣耀Magic4 至臻版首创智慧隐私通话强劲影音系统

2022年第一季度临近尾声，在该季度内，许多品牌陆续发布自己的最新产品，让大家从全新的角度来了解当今的手机技术。手机是电子设备中，更新迭代十分迅速的一款产品，基