当前位置:首页 > 科技  > 网络

数据标注员什么时候会被AI替代?谷歌:现在就行

来源: 责编: 时间:2023-09-11 22:31:26 188观看
导读 似乎自ChatGPT进入大众视野起,需要依靠人工进行数据标注,就成为人们对大语言模型(LLM)根深蒂固的印象之一。从两个以上大模型针对同一个问题给出的不同回答里,找到当中的语病、逻辑和事实错误,标记不同的错误类型

似乎自ChatGPT进入大众视野起,需要依靠人工进行数据标注,就成为人们对大语言模型(LLM)根深蒂固的印象之一。lsS28资讯网——每日最新资讯28at.com

从两个以上大模型针对同一个问题给出的不同回答里,找到当中的语病、逻辑和事实错误,标记不同的错误类型,再对这些回答按照质量分别进行打分等,这些都是大模型数据标注员要干的事情。lsS28资讯网——每日最新资讯28at.com

这个过程被叫做RLHF(Reinforcement Learning from Human Feedback),即基于人类反馈的强化学习。RLHF也是被ChatGPT、Bard和LLaMA等新兴大模型带火的模型训练方法,它大的好处就在于能够将模型和人类的偏好对齐,让大模型给出更符合人类表达习惯的回答。lsS28资讯网——每日最新资讯28at.com

不过近发布在arXiv的一份论文表明,这份看起来只有人类能做的工作,也能被AI取代!lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com

AI也取代了RLHF中的“H”,诞生了一种叫做“RLAIF”的训练方法。lsS28资讯网——每日最新资讯28at.com

这份由谷歌研究团队发布的论文显示,RLAIF能够在不依赖数据标注员的情况下,表现出能够与RLHF相媲美的训练结果——lsS28资讯网——每日最新资讯28at.com

如果拿传统的监督微调(SFT)训练方法作为基线比较,比起SFT,1200个真人“评委”对RLHF和RLAIF给出答案的满意度都超过了70%(两者差距只有2%);另外,如果只比较RLHF和RLAIF给出的答案,真人评委们对两者的满意度也是对半分。lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com

这里的“胜率”体现了文中的“满意度”lsS28资讯网——每日最新资讯28at.com

需要说明的是,谷歌的这篇论文也是第一个证明了RLAIF在某些任务上能够产生与RLHF相当的训练效果的研究。lsS28资讯网——每日最新资讯28at.com

早提出让AI反馈代替人类反馈用于强化学习训练的研究,是来自2022年Bai et al. 发布的一篇论文。这篇论文也首次提出了RLAIF的概念,并发现了AI标注的“天赋”,不过研究者在当时还并没有将人类反馈和AI反馈结果进行直接比较。lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com

总之谷歌的这一研究成果一旦被更多人接受,将意味着不用人类指点,AI也能训练自己的同类了。lsS28资讯网——每日最新资讯28at.com

下面可以来看看RLAIF具体是怎么做的。lsS28资讯网——每日最新资讯28at.com

我们知道,RLHF的方法大致可以分为三个步骤:预训练一个监督微调LLM,收集数据训练一个奖励模型(RM),以及用强化学习(RL)方式微调模型。lsS28资讯网——每日最新资讯28at.com

从论文给出的图示看,AI和人类标注员发挥作用的环节,主要是在训练奖励模型(RM)并生成反馈内容这里。你可以把“奖励”理解为,让人/AI来告诉模型哪种回答更好,答得更好就能有更多奖励(所以也能理解人工标注存在的必要)。lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com

接着研究人员主要就“根据一段文字生成摘要”这一任务,展示了RLAIF的标记方法。lsS28资讯网——每日最新资讯28at.com

下面的表格比较完整地展示了RLAIF方法的输入结构:lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com

首先是序言(Preamble),用来介绍和描述手头任务的说明。比如描述说,好的摘要是一段较短的文字,具有原文的精髓…给定一段文本和两个可能的摘要,输出1或2来指示哪个摘要符合上述定义的连贯性、准确性、覆盖范围和整体质量。lsS28资讯网——每日最新资讯28at.com

其次是样本示例(1-Shot Exemplar)。比如给到一段“我们曾是超过四年的好朋友……”的文本,接着给到两个摘要,以及“摘要1更好”的偏好判断,让AI学着这个示例对接下来的样本做标注。lsS28资讯网——每日最新资讯28at.com

再者就是给出所要标注的样本(Sample to Annotate),包括一段文本和一对需要标记的摘要。lsS28资讯网——每日最新资讯28at.com

后是结尾,用于提示模型的结束字符串。lsS28资讯网——每日最新资讯28at.com

论文介绍到,为了让RLAIF方法中AI标注更准确,研究者也加入了其他方法以获取更好的回答。譬如为了避免随机性问题,会进行多次选择,其间还会对选项的顺序进行交换;此外还用到了思维链(CoT)推理,来进一步提升与人类偏好的对齐程度。lsS28资讯网——每日最新资讯28at.com

从原始prompt到输出的完整流程如下图所示:lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com

能看到,就像人类标注员会给不同的回答打分一样(比如满分5分),AI也会依据偏好给每个摘要打分,相加起来是1分。所以这个分数就可以理解为上文提到的奖励。lsS28资讯网——每日最新资讯28at.com

以上就是RLAIF方法大致会经历的过程。lsS28资讯网——每日最新资讯28at.com

而在评价RLAIF方法的训练结果到底好不好时,研究人员使用了三个评估指标,分别是AI标签对齐度(AI Labeler Alignment)、配对准确度(Pairwise Accuracy)和胜率(Win Rate)。lsS28资讯网——每日最新资讯28at.com

简单理解三个指标,AI标签对齐度指的就是AI偏好相对于人类偏好的精确程度,配对准确度指训练好的奖励模型与人类偏好数据集的匹配程度,胜率则是人类在RLAIF和RLHF生成结果之间的倾向性。lsS28资讯网——每日最新资讯28at.com

研究人员在依据评估指标进行了繁杂的计算之后,终得出了RLAIF和RLHF“打平手”的结论。lsS28资讯网——每日最新资讯28at.com

当然也有一些非量化的定性分析。譬如研究发现,RLAIF似乎比RLHF更不容易出现“幻觉”,下表所示几个例子中标红部分便是RLHF的幻觉,尽管看上去是合理的:lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com

而在另一些例子里,RLAIF的语法表现似乎又比RLHF差不少(标红为RLAIF的语法问题):lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com

尽管如此,RLAIF和RLHF整体来说生成高质量摘要的能力还是旗鼓相当的。lsS28资讯网——每日最新资讯28at.com

该论文的发布很快收获了不少关注。比如有从业者评论道,等到GPT-5可能就不需要人类数据标注员了。lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com

也有网友贴图打趣,用AI来训练同类的做法就好比是这张梗图。lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com

不过针对谷歌这篇论文中用到的研究方法,身为著名软件工程师、AI专家的Evan Saravia也认为,研究人员只在论文中分析了RLAIF和RLHF在“生成摘要”这一任务上的表现,其他更加泛化的任务表现如何还有待观察。lsS28资讯网——每日最新资讯28at.com

此外,研究人员也没有将人工标注和使用AI成本的因素考虑在内。lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com

其实以上网友预测未来的大模型将不再需要人类标注员,也侧面体现出目前RLHF方法因为过于依赖人工而遇到的瓶颈:大规模高质量的人类标注数据可能会非常难以获取——lsS28资讯网——每日最新资讯28at.com

大模型数据标注员往往是流动性非常高的工种,并且由于数据标注很多时候非常依赖标注员的主观偏好,也就更加考验标注员的自身素质。lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com

短期内也许会像这位从业者说的,“我不会说这(RLAIF)降低了人工标注的重要性,但有一点可以肯定,人工智能反馈的RL可以降低成本。人工标注对于泛化仍然极其重要,而RLHF+RLAIF混合方法比任何单一方法都要好。”lsS28资讯网——每日最新资讯28at.com

数据标注员什么时候会被AI替代?谷歌:现在就行lsS28资讯网——每日最新资讯28at.com


文章出处:品玩网

本文链接://www.dmpip.com//www.dmpip.com/showinfo-17-9219-0.html数据标注员什么时候会被AI替代?谷歌:现在就行

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 网约车老师傅们的“反击”

下一篇: 抢“.AI”域名 成了3000万美元的大生意

标签:
  • 热门焦点
  • 对标苹果的灵动岛 华为带来实况窗功能

    对标苹果的灵动岛 华为带来实况窗功能

    继苹果的灵动岛之后,华为也在今天正式推出了“实况窗”功能。据今天鸿蒙OS 4.0的现场演示显示,华为的实况窗可以更高效的展现出实时通知,比如锁屏上就能看到外卖、打车、银行
  • vivo TWS Air开箱体验:真轻 臻好听

    vivo TWS Air开箱体验:真轻 臻好听

    在vivo S15系列新机的发布会上,vivo的最新款真无线蓝牙耳机vivo TWS Air也一同发布,本次就这款耳机新品给大家带来一个简单的分享。外包装盒上,vivo TWS Air保持了vivo自家产
  • 6月iOS设备好评榜:第一蝉联榜首近一年

    6月iOS设备好评榜:第一蝉联榜首近一年

    作为安兔兔各种榜单里变化最小的那个,2023年6月的iOS好评榜和上个月相比没有任何排名上的变化,仅仅是部分设备好评率的下降,长年累月的用户评价和逐渐退出市场的老款机器让这
  • 2023 年的 Node.js 生态系统

    2023 年的 Node.js 生态系统

    随着技术的不断演进和创新,Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统,可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
  • .NET 程序的 GDI 句柄泄露的再反思

    .NET 程序的 GDI 句柄泄露的再反思

    一、背景1. 讲故事上个月我写过一篇 如何洞察 C# 程序的 GDI 句柄泄露 文章,当时用的是 GDIView + WinDbg 把问题搞定,前者用来定位泄露资源,后者用来定位泄露代码,后面有朋友反
  • 机构称Q2全球智能手机出货量同比下滑11% 苹果份额依旧第2

    机构称Q2全球智能手机出货量同比下滑11% 苹果份额依旧第2

    7月20日消息,据外媒报道,研究机构的报告显示,由于需求下滑,今年二季度全球智能手机的出货量,同比下滑了11%,三星、苹果等主要厂商的销量,较去年同期均有下
  • 苹果140W USB-C充电器:采用氮化镓技术

    苹果140W USB-C充电器:采用氮化镓技术

    据10 月 30 日 9to5 Mac 消息报道,当苹果推出新的 MacBook Pro 2021 时,该公司还推出了新的 140W USB-C 充电器,附赠在 MacBook Pro 16 英寸机型的盒子里,也支
  • onebot M24巧系列一体机采用轻薄机身设计,现已在各平台开售

    onebot M24巧系列一体机采用轻薄机身设计,现已在各平台开售

    onebot M24 巧系列一体机目前已在线上线下各平台同步开售。onebot M24 巧系列采用一体化轻薄机身设计,最薄处为 10.15mm,拥有宝石红、午夜蓝、石墨绿、雅致
  • SN570 NVMe SSD固态硬盘 价格与性能兼具

    SN570 NVMe SSD固态硬盘 价格与性能兼具

    SN570 NVMe SSD固态硬盘是西部数据发布的最新一代WD Blue系列的固态硬盘,不仅闪存技术更为精进,性能也得到了进一步的跃升。WD Blue SN570 NVMe SSD的包装外
Top
Baidu
map