当前位置:首页 > 元宇宙 > AI

Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B

来源: 责编: 时间:2024-09-13 09:33:00 12观看
导读 9 月 11 日消息,科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。针对 AI 模型基准测试结果

9 月 11 日消息,科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。qh428资讯网——每日最新资讯28at.com

qh428资讯网——每日最新资讯28at.com

针对 AI 模型基准测试结果不佳,Reflection 公司首席执行官马特・舒默(Matt Shumer)表示,上传模型权重至 Hugging Face 时遇到问题,所使用的权重是多个不同模型的混合体,而他们内部托管的模型则显示出更佳的结果。qh428资讯网——每日最新资讯28at.com

舒默随后向部分用户提供了独家访问内部模型的权限,Artificial Analysis 重做了测试,并报告结果优于公开 API,只是他们无法确认所访问的具体是哪个模型。qh428资讯网——每日最新资讯28at.com

qh428资讯网——每日最新资讯28at.com

Reflection 在 Hugging Face 已上传了新的模型,不过这些模型在测试中的表现明显逊于之前通过私有 API 提供的模型。qh428资讯网——每日最新资讯28at.com

查询公开资料,有用户还发现了证据,表明 Reflection API 有时会调用 Anthropic Claude 3.5 Sonnet以及OpenAI。qh428资讯网——每日最新资讯28at.com

qh428资讯网——每日最新资讯28at.com

舒默旗下公司 OthersideAI 此前已宣布计划于本周发布一款基于 LLaMA 3.1 450B 的更大、更强大的模型。qh428资讯网——每日最新资讯28at.com

舒默对这一即将发布的版本做出了大胆声明,称其不仅将成为最佳的开源模型,还将是有史以来最优秀的语言模型。qh428资讯网——每日最新资讯28at.com

官方回应:qh428资讯网——每日最新资讯28at.com

qh428资讯网——每日最新资讯28at.com

qh428资讯网——每日最新资讯28at.com

相关阅读:qh428资讯网——每日最新资讯28at.com

《开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集》qh428资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-7147-0.htmlReflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 消息称字节 AI 硬件团队首款自研产品为智能耳机,与豆包大模型联动

下一篇: AI 被连续否定 30 次:ChatGPT 越改越错,Claude 坚持自我,甚至已读不回

标签:
  • 热门焦点
  • 清华、北大等86所高校布局元宇宙,是风口还是噱头?

    清华、北大等86所高校布局元宇宙,是风口还是噱头?

    作者:徐赐豪来源:区块链日报据全国高校人工智能与大数据创新联盟元宇宙专委会不完全统计,截至2023年7月,全国共有86所高校战略布局元宇宙领域,其中本科院校73所,高职专科院校13所
  • 一份全面清单:Web3行业高薪酬的13种工作

    一份全面清单:Web3行业高薪酬的13种工作

    来源:区块链骑士这可能会让许多人感到震惊,但除了成为开发人员之外,Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域,换句话说,它由许多个在不同领域中具有不同
  • 中国虚拟数字人如何横向拓展市场需求,探索发展场景?

    中国虚拟数字人如何横向拓展市场需求,探索发展场景?

    通过5G、AI等新技术更新换代,虚拟数字人为诸多下游行业带来新的发展机会。虚拟数字人技术以其简化性和精品性持续拓展泛娱乐、金融、教育、政务、医疗、零售等
  • 冰墩墩还能火多久?

    冰墩墩还能火多久?

    作者:田巧云题图源自北京2022年冬奥会官方微博如果要问2022年的开年明星是谁,冰墩墩当仁不让。几乎所有人都被那个抖雪的动作实力圈粉。在社交媒体的助推,以及日
  • 2021年中国元宇宙行业用户行为分析热点报告

    2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • 元宇宙是数字共识生态的集成逻辑表达

    元宇宙是数字共识生态的集成逻辑表达

    作者: 李鸣元宇宙是数字共识生态的集成逻辑表达,是以区块链技术为核心的可信数字化价值交互网络,是基于Web3.0技术体系和运作机制支撑下的数字新生态。本体论是
  • NFT领域,我们是否应该遵守版权法

    NFT领域,我们是否应该遵守版权法

    NFTs中最有争议的因素之一是你是否真的 "拥有 "你所购买的艺术品。除此之外,围绕着NFT行业内的版权和知识产权盗窃的问题也同样重要,因为人们很容易误解这些事情
  • 以太坊面临来自Fantom的巨大挑战

    以太坊面临来自Fantom的巨大挑战

    众所周知,区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
  • 从概念到落地 Web3.0初具雏形

    从概念到落地 Web3.0初具雏形

    加密资产热潮催生出的链上应用中,除了DeFi、NFT、链游GameFi等场景外,还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年,由以太坊联合创始人及波卡创建者
Top
Baidu
map