当前位置:首页 > 科技  > 网络

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!

来源: 责编: 时间:2024-07-15 17:10:22 522观看
导读 大模型圈再曝抄袭大瓜,这回,“被告”还是大名鼎鼎的谷歌DeepMind。“原告”直接怒喷:他们就是把我们的技术报告洗了一遍!具体是这么个事儿:谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的

大模型圈再曝抄袭大瓜,这回,“被告”还是大名鼎鼎的谷歌DeepMind。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

“原告”直接怒喷:他们就是把我们的技术报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

具体是这么个事儿:RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了,瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

两篇论文探讨的都是一种规范模型文本生成结构的方法。RHx28资讯网——每日最新资讯28at.com

抓马的是,谷歌DeepMind这篇论文中确实明晃晃写着引用了“原告”的论文。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

然鹅,即便是标明了引用,“原告”的两位论文作者Brandon T. Willard(布兰登)和R?emi Louf(雷米)还是坚称谷歌抄袭,并认为:RHx28资讯网——每日最新资讯28at.com

谷歌对两者差异性的表述“简直荒谬”。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

而不少网友看过论文后也缓缓打出一个问号:CoLM是怎么审的稿?RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

唯一区别是换了概念?RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

赶紧瞅一眼论文对比……RHx28资讯网——每日最新资讯28at.com

两篇论文的比较RHx28资讯网——每日最新资讯28at.com

先浅看一眼两篇论文的摘要对比。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind的论文说的是,tokenization给约束语言模型输出带来了麻烦,他们引入自动机理论来解决这些问题,核心是避免在每个解码步骤遍历所有逻辑值(logits)。RHx28资讯网——每日最新资讯28at.com

该方法只需要访问每个token的解码逻辑值,计算与语言模型的大小无关,高效且易用于几乎所有语言模型架构。RHx28资讯网——每日最新资讯28at.com

而“原告”的说法大致是:RHx28资讯网——每日最新资讯28at.com

提出了一个高效框架,通过在语言模型的词汇表上构建索引,来大幅提升约束文本生成的效率。简单来说,就是通过索引避免对全部逻辑值的遍历。RHx28资讯网——每日最新资讯28at.com

同样“不依赖于具体模型”。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

方向上确实大差不差,我们还是接着来看看更多详细内容。RHx28资讯网——每日最新资讯28at.com

我们用谷歌Gemini 1.5 Pro分别总结了两篇论文的主要内容,并接着让Gemini来比较两者的异同。RHx28资讯网——每日最新资讯28at.com

对于“被告”谷歌这篇论文,Gemini总结其方法是将detokenization重新定义为有限状态转换器(FST)操作。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

将此FST与表示目标形式语言的自动机组合,这种自动机可以用正则表达式或语法来表示。RHx28资讯网——每日最新资讯28at.com

通过以上结合,生成一个基于token的自动机,用于在解码过程中约束语言模型,确保其输出的文本符合预设的形式语言规范。RHx28资讯网——每日最新资讯28at.com

此外,谷歌论文中还进行了一系列正则表达式扩展,这些扩展通过使用特别命名的捕获组来编写,显著提升了系统处理文本时的效率和表达能力。RHx28资讯网——每日最新资讯28at.com

而对于“原告”论文,Gemini总结其方法的核心是将文本生成问题重新定义为有限状态机(FSM)之间的转换。RHx28资讯网——每日最新资讯28at.com

“原告”的具体方法是:RHx28资讯网——每日最新资讯28at.com

利用正则表达式或上下文无关文法构建FSM,并将其用于指导文本生成过程。RHx28资讯网——每日最新资讯28at.com

通过构建词汇表索引,高效地确定每个步骤中的有效词,避免遍历整个词汇表。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

Gemini列出了两篇论文的共同点。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

至于两者的区别,有点像前头那位网友说的,简单总结就是:谷歌将词汇表定义为了一个FST。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

前面也说到了,谷歌在“Related work”中将原告论文列为“相关”的一项工作:RHx28资讯网——每日最新资讯28at.com

相关的研究是Outlines(Willard&Louf, 2023),该研究同样采用有限状态自动机(FSA)和下推自动机(PDA)作为约束手段——我们的方法是在2023年初独立开发的。RHx28资讯网——每日最新资讯28at.com

谷歌认为两者的差异在于,Outlines的方法基于一种特制的“索引”操作,需要手动扩展到新的应用场景。相比之下,谷歌使用自动机理论彻底重新定义了整个过程,使得应用FSA和泛化到PDA变得更加容易。RHx28资讯网——每日最新资讯28at.com

另一个区别是,谷歌定义了扩展以支持通配符匹配,并提高了可用性。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

谷歌紧接着在介绍下面的两项相关工作中,也都提到了Outlines。RHx28资讯网——每日最新资讯28at.com

一项是Yin等人(2024年)通过增加“压缩”文本段到预填充的功能,扩展了Outlines。RHx28资讯网——每日最新资讯28at.com

另一项是Ugare等人(2024年)近期提出的一个系统,名为SynCode。它也利用FSA,但采用LALR和LR解析器而非PDA处理语法。RHx28资讯网——每日最新资讯28at.com

与Outlines类似,该方法依赖于定制算法。RHx28资讯网——每日最新资讯28at.com

但吃瓜群众们显然不是很买账:RHx28资讯网——每日最新资讯28at.com

CoLM的评审们应该注意。我不认为这看上去是各自独立的“同期工作”。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

网友:这事儿不罕见…RHx28资讯网——每日最新资讯28at.com

这件事一发酵,不少网友都怒了,抄袭可耻,更何况“科技巨头剽窃小团队的工作成果不是第一次了”。RHx28资讯网——每日最新资讯28at.com

顺便一提,布兰登和雷米发布原告论文的时候都在给Normal Computing远程工作,这家AI Infra公司成立于2022年。RHx28资讯网——每日最新资讯28at.com

哦对了,Normal Computing的创始团队有一部分就来自Google Brain……RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

另外,布兰登和雷米现在合伙出来创业了,新公司名叫.txt,官网信息显示,其目标是提供快速可靠的信息提取模型。并且官网挂出的GitHub主页,就是Outlines仓库。RHx28资讯网——每日最新资讯28at.com

说回到网友这边,更让大家伙儿生气的是,“这种情况已经变得普遍”。RHx28资讯网——每日最新资讯28at.com

一位来自荷兰代尔夫特理工大学的博士后分享了自己的遭遇:RHx28资讯网——每日最新资讯28at.com

去年10月我们完成了一项工作,近有篇已被接收的论文采用了相同的思路和概念,但甚至没有引用我们的论文。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

还有一位美国东北大学的老哥更惨,这种情况他遭遇过两次,下手的还都是同一个组。并且对面那位第一作者还给他的GitHub加过星标……RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

不过,也有网友表达了不同的意见:RHx28资讯网——每日最新资讯28at.com

如果说发个博客文章或未经评估的预印本论文就算占坑了,那人人都会占坑,不是吗?RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

对此,雷米怒怼:RHx28资讯网——每日最新资讯28at.com

好家伙,发布预印本论文并开源代码 = 占坑;写篇数学论文,甚至不需要任何伪代码 = 好工作???RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

布兰登老哥也表示yue了:RHx28资讯网——每日最新资讯28at.com

开源代码并撰写相关论文是“占坑”,复制别人的工作却说“我更早有了这个想法”且投稿了会议反而不是啦?真恶心。RHx28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!RHx28资讯网——每日最新资讯28at.com

瓜就先吃到这里,对此你有什么想法?不妨在评论区继续讨论~RHx28资讯网——每日最新资讯28at.com

两篇论文戳这里:谷歌DeepMind论文:https://arxiv.org/abs/2407.08103v1原告论文:https://arxiv.org/abs/2307.09702RHx28资讯网——每日最新资讯28at.com

参考链接:RHx28资讯网——每日最新资讯28at.com

[1]https://x.com/remilouf/status/1812164616362832287?s=46RHx28资讯网——每日最新资讯28at.com

2]https://x.com/karan4d/status/1812172329268699467?s=46RHx28资讯网——每日最新资讯28at.com

[3]https://x.com/brandontwillard/status/1812163165767053772?s=46RHx28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接://www.dmpip.com//www.dmpip.com/showinfo-17-100922-0.html谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 马斯克自曝猛料!过去8个月被两次暗杀:曾称会努力活下去

下一篇: 董宇辉对话余承东!与辉同行今晚华为松山湖专场直播

标签:
  • 热门焦点
  • 官方承诺:K60至尊版将会首批升级MIUI 15

    官方承诺:K60至尊版将会首批升级MIUI 15

    全新的MIUI 15今天也有了消息,在官宣了K60至尊版将会搭载天玑9200+处理器和独显芯片X7的同时,Redmi给出了官方承诺,K60至尊重大更新首批升级,会首批推送MIUI 15。也就是说虽然
  • Raft算法:保障分布式系统共识的稳健之道

    Raft算法:保障分布式系统共识的稳健之道

    1. 什么是Raft算法?Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”(“可靠、可复制、可冗余、可容错”)的首字母缩写。Raft算法是一种用于在分布式系统
  • 摸鱼心法第一章——和配置文件说拜拜

    摸鱼心法第一章——和配置文件说拜拜

    为了能摸鱼我们团队做了容器化,但是带来的问题是服务配置文件很麻烦,然后大家在群里进行了“亲切友好”的沟通图片图片图片图片对比就对比,简单对比下独立配置中心和k8s作为配
  • 破圈是B站头上的紧箍咒

    破圈是B站头上的紧箍咒

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之每年的暑期档都少不了瞄准追剧女孩们的古偶剧集,2021年有优酷的《山河令》,2022年有爱奇艺的《苍兰诀》,今年却轮到小破站抓住了追
  • 本地生活这块肥肉,拼多多也想吃一口

    本地生活这块肥肉,拼多多也想吃一口

    出品/壹览商业 作者/李彦编辑/木鱼拼多多也看上本地生活这块蛋糕了。近期,拼多多在App首页“充值中心”入口上线了本机生活界面。壹览商业发现,该界面目前主要
  • 猿辅导与新东方的两种“归途”

    猿辅导与新东方的两种“归途”

    作者|卓心月 出品|零态LT(ID:LingTai_LT)如何成为一家伟大企业?答案一定是对“势”的把握,这其中最关键的当属对企业战略的制定,且能够站在未来看现在,即使这其中的
  • 品牌洞察丨服务本地,美团直播成效几何?

    品牌洞察丨服务本地,美团直播成效几何?

    来源:17PR7月11日,美团App首页推荐位出现“美团直播”的固定入口。在直播聚合页面,外卖“神枪手”直播间、美团旅行直播间、美团买菜直播间等均已上线,同时
  • 冯提莫签约抖音公会 前“斗鱼一姐”消失在直播间

    冯提莫签约抖音公会 前“斗鱼一姐”消失在直播间

    来源:直播观察提起“冯提莫”这个名字,很多网友或许听过,但应该不记得她是哪位主播了。其实,作为曾经的“斗鱼一姐”,冯提莫在游戏直播的年代影响力不输于现
  • 引领旗舰级影像能力向中端机普及 OPPO K11 系列发布 1799 元起

    引领旗舰级影像能力向中端机普及 OPPO K11 系列发布 1799 元起

    7月25日,OPPO正式发布K系列新品—— OPPO K11 。此次 K11 在中端手机市场长期被忽视的影像板块发力,突破性地搭载索尼 IMX890 旗舰大底主摄,支持 OIS
Top
Baidu
map