当前位置:首页 > 科技  > 软件

阿里云推出大规模视觉语言模型Qwen-VL 已在ModeScope开源

来源: 责编: 时间:2023-08-29 10:40:01 2535观看
导读 阿里云今日推出了大规模视觉语言模型Qwen-VL,目前已经在ModeScope开源,IT之家早前曾报道,阿里云此前已经开源通义千问70 亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。据悉,Qwen-VL是一款支持

阿里云今日推出了大规模视觉语言模型Qwen-VL,目前已经在ModeScope开源,IT之家早前曾报道,阿里云此前已经开源通义千问70 亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。iqV28资讯网——每日最新资讯28at.com

据悉,Qwen-VL是一款支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。iqV28资讯网——每日最新资讯28at.com

Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的LVLM模型通常仅支持224分辨率。iqV28资讯网——每日最新资讯28at.com

官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。iqV28资讯网——每日最新资讯28at.com

此外,在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。iqV28资讯网——每日最新资讯28at.com

通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于GPT-4打分机制的测试集 “试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。iqV28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-26-6759-0.html阿里云推出大规模视觉语言模型Qwen-VL 已在ModeScope开源

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 资损防控技术体系简介及实践

下一篇: TikTok已开始将欧洲用户数据转移到爱尔兰一个新建数据中心

标签:
  • 热门焦点
Top
Baidu
map