当前位置：首页 > 元宇宙 > AI

苹果新突破！300亿参数AI大模型MM1.5，能识图懂语

来源：责编：时间：2024-10-13 14:15:53 9观看

导读【ITBEAR】苹果公司近期宣布，其多模态AI大模型MM1.5正式推出，该模型基于前代MM1架构进行升级，拥有高达300亿的参数规模。MM1.5模型继续坚持数据驱动的训练原则，深入探索了不同训练周期中混合数据对模型性能的影响，相关模型

【ITBEAR】苹果公司近期宣布，其多模态AI大模型MM1.5正式推出，该模型基于前代MM1架构进行升级，拥有高达300亿的参数规模。

MM1.5模型继续坚持数据驱动的训练原则，深入探索了不同训练周期中混合数据对模型性能的影响，相关模型文档已在Hugging Face平台发布。

此次推出的MM1.5模型提供了从10亿到300亿的多种参数规模选择，具备图像识别与自然语言推理的能力。

在新版本中，苹果研发团队对数据混合策略进行了优化，显著提升了模型在多文本图像理解、视觉引用与定位以及多图像推理等方面的性能。

据相关论文介绍，MM1.5在持续预训练阶段引入了高质量的OCR数据和合成图像描述，大幅提高了模型对包含大量文本的图像的理解能力。

研究人员在监督式微调阶段对不同数据类型对模型表现的影响进行了深入分析，优化了视觉指令微调数据的混合方式，使得即便是小规模的模型版本也能展现出出色的性能，实现了更高的效率。

苹果公司还推出了专门用于视频理解的MM1.5-Video模型以及专门处理移动设备用户界面（UI）理解的MM1.5-UI模型。

MM1.5-UI模型未来有望成为iOS背后的核心AI技术，能够处理各种视觉引用与定位任务，总结屏幕上的功能，甚至通过与用户的对话进行交互。

本文链接：//www.dmpip.com//www.dmpip.com/showinfo-45-8577-0.html苹果新突破！300亿参数AI大模型MM1.5，能识图懂语

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： AI医疗建议靠谱吗？22%的回答可能致命！

下一篇：中美无人驾驶竞速赛，萝卜快跑VS特斯拉，谁将更胜一筹？

标签：

热门焦点

《从营销AIGC化到AIGC营销化》报告发布

来源：清元宇宙7月2日上午，清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中，清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
元宇宙带来沉浸式智能登录？你学会了吗？

备受资本市场宠爱的元宇宙概念，正掀起一番番波澜。元宇宙作为虚实相融的互联网应用和社会形态，与沉浸式体验紧密相关。多重路径，打造无感知沉浸式智能登录《设计
城市数字孪生标准化白皮书（2022版）

当前，城市数字孪生已经发展成为支撑智慧城市的重要技术手段。城市数字孪生通过在数字空间对城市物理空间和社会空间进行全要素表达、全过程呈现、全周期可溯，实
好莱坞：一股新的电影制作加密浪潮将颠覆这个行业

在Moviecoin.com平台上，有一部电影设定了一个前所未有的目标，即通过预售NFT获得100%的全额融资，这部电影就是马克·奥康纳(Mark O’connor)执导的《Oui Cannes》，
Meta正在研发元宇宙语音助手；广东省462家企业申请元宇宙商标

今日《元宇宙新鲜事》有：扎克伯格透露正在为元宇宙研发语音助手；完美世界声明称不会以“元宇宙投资项目”等名义吸收资金。广东省申请元宇宙商标的企业达462家位
花旗集团前高管加入Provenance区块链，担任CEO

No.1 花旗集团前高管加入Provenance区块链，担任CEO3月1日消息，Provenance区块链基金会已任命花旗集团前高管摩根·麦肯尼（Morgan McKenney）为新任首席执行官。麦肯
我们为什么需要Web3，距离Web3的实现还有多远？

当今技术正在经历着重要的变革，许多公司正在改变他们的经营模式以求变得更加的灵活，其中有很大一部分公司采用了不同的方式来发展自己的业务。其中之一就是Web3，
从概念到落地 Web3.0初具雏形

加密资产热潮催生出的链上应用中，除了DeFi、NFT、链游GameFi等场景外，还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年，由以太坊联合创始人及波卡创建者
Ceramic：为Web3.0社交应用打造的中间件

大家关注老雅痞公众号这么久，对Web3的概念不陌生吧？让我们做一个简短的回顾，Web3主要被描述为去中心化的网络，旨在实现无服务器、去中心化的互联网，即用户掌握自己