当前位置:首页 > 科技  > 知识百科

模型难复现不一定是作者的错,研究发现模型架构要背锅

来源: 责编: 时间:2023-08-07 16:30:03 135观看
导读 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。在不同初始化条件下,同一神经网络经过两次训练可以得到相同的结果吗?CVPR 2022的一篇研究通过将决策边界 (Decis

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。iek28资讯网——每日最新资讯28at.com

在不同初始化条件下,同一神经网络经过两次训练可以得到相同的结果吗?iek28资讯网——每日最新资讯28at.com

CVPR 2022的一篇研究通过将决策边界 (Decision Boundary)可视化的方法,给出了答案——iek28资讯网——每日最新资讯28at.com

有的容易,有的很难。iek28资讯网——每日最新资讯28at.com

例如,从下面这张图来看,研究人员就发现,ViT比ResNet要更难复现(两次训练过后,显然ViT决策边界的差异更大):iek28资讯网——每日最新资讯28at.com

iek28资讯网——每日最新资讯28at.com

研究人员还发现,模型的可复现性和模型本身的宽度也有很大关联。iek28资讯网——每日最新资讯28at.com

同样,他们利用这种方法,对2019年机器学习最重要的理论之一——双下降 (Double Descent)现象进行了可视化,最终也发现了一些很有意思的现象。iek28资讯网——每日最新资讯28at.com

iek28资讯网——每日最新资讯28at.com

来看看他们具体是怎么做的。iek28资讯网——每日最新资讯28at.com

更宽的CNN模型,可复现性更高iek28资讯网——每日最新资讯28at.com

深度学习中的决策边界,可以用来最小化误差。iek28资讯网——每日最新资讯28at.com

简单来说,分类器会通过决策边界,把线内线外的点归为不同类。iek28资讯网——每日最新资讯28at.com

在这项研究中,作者从CIFAR-10训练集中选择了三幅随机图像,然后使用三次不同的随机初始化配置在7种不同架构上训练,绘制出各自的决策区域。iek28资讯网——每日最新资讯28at.com

iek28资讯网——每日最新资讯28at.com

从中我们可以发现:iek28资讯网——每日最新资讯28at.com

左边三个和右边四个差异很大,也就是说不同架构之间的相似性很低。iek28资讯网——每日最新资讯28at.com

再进一步观察,左边的全连接网络、ViT和MLP Mixer之间的决策边界图又不太一样,而右边CNN模型的则很相似。iek28资讯网——每日最新资讯28at.com

在CNN模型中,我们还可以观察到不同随机数种子之间明显的的重复性趋势,这说明不同初始化配置的模型可以产生一样的结果。iek28资讯网——每日最新资讯28at.com

作者设计了一种更直观的度量方法来衡量各架构的可复现性得分,结果确实验证了我们的直观感受:iek28资讯网——每日最新资讯28at.com

iek28资讯网——每日最新资讯28at.com

并发现更宽的CNN模型似乎在其决策区域具有更高的可复现性,比如WideRN30。iek28资讯网——每日最新资讯28at.com

以及采用残差连接结构的CNN模型(ResNet和DenseNet )的可复现性得分比无此连接的模型要略高(VGG)。iek28资讯网——每日最新资讯28at.com

此外,优化器的选择也会带来影响。iek28资讯网——每日最新资讯28at.com

在下表中,我们可以看到SAM比标准优化器(如SGD和Adam)产生了更多可重复的决策边界。iek28资讯网——每日最新资讯28at.com

不过对于MLP Mixer和ViT,SAM的使用不能总是保证模型达到最高的测试精度。iek28资讯网——每日最新资讯28at.com

iek28资讯网——每日最新资讯28at.com

有网友表示好奇,如果通过改善模型本身的设计,能改变这种现象吗?iek28资讯网——每日最新资讯28at.com

对此作者回应称,他们已经试着调整过ViT的学习率,但得到的结果仍然比ResNet差。iek28资讯网——每日最新资讯28at.com

iek28资讯网——每日最新资讯28at.com

可视化ResNet-18的双下降现象iek28资讯网——每日最新资讯28at.com

双下降(Double Descent)是一个有趣的概念,描述是测试/训练误差与模型大小的关系。iek28资讯网——每日最新资讯28at.com

在此之前,大家普遍认为参数太少的模型泛化能力差——因为欠拟合;参数太多的模型泛化能力也差——因为过拟合。iek28资讯网——每日最新资讯28at.com

iek28资讯网——每日最新资讯28at.com

而它证明,两者的关系没有那么简单。具体来说:iek28资讯网——每日最新资讯28at.com

误差会先随着模型的增大而减小,然后经过模型过拟合,误差又增大,但随着模型大小或训练时间的进一步增加,误差又会再次减小。iek28资讯网——每日最新资讯28at.com

作者则继续使用决策边界方法,可视化了ResNet-18的双下降现象。iek28资讯网——每日最新资讯28at.com

他们通过宽度参数(k:1-64)的改变来增加模型容量。iek28资讯网——每日最新资讯28at.com

训练出的两组模型,其中一组使用无噪声标签(label noise)的训练集,另一组则带有20%的噪声标签。iek28资讯网——每日最新资讯28at.com

最终,在第二组模型中观察到了明显的双下降现象。iek28资讯网——每日最新资讯28at.com

iek28资讯网——每日最新资讯28at.com

对此作者表示:iek28资讯网——每日最新资讯28at.com

线性模型预测的模型不稳定性也适用于神经网络,不过这种不稳定性表现为决策区域的大量碎片。iek28资讯网——每日最新资讯28at.com

也就说,双下降现象是由噪声标签情况下决策区域的过度碎片引起的。iek28资讯网——每日最新资讯28at.com

具体来说,当k接近/达到10 (也就是插值阈值)时,由于模型此时拟合了大部分训练数据,决策区域被分割成很多小块,变得“混乱和破碎”,并不具备可重复性;此时模型的分类功能存在明显的不稳定性。iek28资讯网——每日最新资讯28at.com

而在模型宽度很窄(k=4)和很宽(k=64)时,决策区域碎片较少,有高水平的可重复性。iek28资讯网——每日最新资讯28at.com

为了进一步证明该结果,作者又设计了一个碎片分数计算方法,最终再次验证上图的观察结果。iek28资讯网——每日最新资讯28at.com

iek28资讯网——每日最新资讯28at.com

模型的可复现性得分如下:iek28资讯网——每日最新资讯28at.com

iek28资讯网——每日最新资讯28at.com

同样可以看到,在参数化不足和过参数化的情况下,整个训练过程的可复现性很高,但在插值阈值处会出现“故障”。iek28资讯网——每日最新资讯28at.com

有趣的是,即使没有噪声标签,研究人员发现他们设计的量化方法也足够敏感,可以检测到可复现性的细微下降(上图蓝线部分)。iek28资讯网——每日最新资讯28at.com

目前代码已经开源,要不要来试试你的模型是否容易复现?iek28资讯网——每日最新资讯28at.com

论文地址:iek28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2203.08124iek28资讯网——每日最新资讯28at.com

GitHub链接:iek28资讯网——每日最新资讯28at.com

https://github.com/somepago/dbViiek28资讯网——每日最新资讯28at.com

 iek28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-119-2227-0.html模型难复现不一定是作者的错,研究发现模型架构要背锅

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 七句话让AI给我做了个小游戏,还是极简版塞尔达,一玩简直停不下来

下一篇: 微软智能云在华新增数据中心区域正式启用 看好中国市场机会

标签:
  • 热门焦点
  • 石头智能洗地机A10 Plus体验:双向自清洁治好了我的懒癌

    石头智能洗地机A10 Plus体验:双向自清洁治好了我的懒癌

    一、前言和介绍专为家庭请假懒人而生的石头科技在近日又带来了自己的全新旗舰新品,石头智能洗地机A10 Plus。从这个产品名上就不难看出,这次石头推出的并不是常见的扫地机器
  • 跑分安卓第一!Redmi K60至尊版8月发布!卢伟冰:目标年度性能之王

    跑分安卓第一!Redmi K60至尊版8月发布!卢伟冰:目标年度性能之王

    8月5日消息,Redmi K60至尊版将于8月发布,在此前举行的战略发布会上,官方该机将搭载搭载天玑9200+处理器,安兔兔V10跑分超177万分,是目前安卓阵营最高的分数
  • 线程通讯的三种方法!通俗易懂

    线程通讯的三种方法!通俗易懂

    线程通信是指多个线程之间通过某种机制进行协调和交互,例如,线程等待和通知机制就是线程通讯的主要手段之一。 在 Java 中,线程等待和通知的实现手段有以下几种方式:Object 类下
  • 企业采用CRM系统的11个好处

    企业采用CRM系统的11个好处

    客户关系管理(CRM)软件可以为企业提供很多的好处,从客户保留到提高生产力。  CRM软件用于企业收集客户互动,以改善客户体验和满意度。  CRM软件市场规模如今超过580
  • 这款新兴工具平台,让你的电脑效率翻倍

    这款新兴工具平台,让你的电脑效率翻倍

    随着信息技术的发展,我们获取信息的渠道越来越多,但是处理信息的效率却成为一个瓶颈。于是各种工具应运而生,都在争相解决我们的工作效率问题。今天我要给大家介绍一款效率
  • 阿里大调整

    阿里大调整

    来源:产品刘有媒体报道称,近期淘宝天猫集团启动了近年来最大的人力制度改革,涉及员工绩效、层级体系等多个核心事项,目前已形成一个初步的“征求意见版”:1、取消P序列
  • 阿里瓴羊One推出背后,零售企业迎数字化新解

    阿里瓴羊One推出背后,零售企业迎数字化新解

    作者:刘旷近年来随着数字经济的高速发展,各式各样的SaaS应用服务更是层出不穷,但本质上SaaS大多局限于单一业务流层面,对用户核心关切的增长问题等则没有提供更好的解法。在Saa
  • 华为和江淮汽车合作开发百万元问界MPV?双方回应来了

    华为和江淮汽车合作开发百万元问界MPV?双方回应来了

    8月1日消息,郭明錤今天在社交平台发文称,华为正在和江淮汽车合作,开发售价在100万元的问界MPV,预计在2024年第2季度量产,销量目标为上市首年交付5万辆。
  • 利用职权私自解除被封帐号 Meta开除20多名员工

    利用职权私自解除被封帐号 Meta开除20多名员工

    11月18日消息,据外媒援引知情人士表示,过去一年时间内,Facebook母公司Meta解雇或处罚了20多名员工以及合同工,指控这些人通过内部系统以不当方式重置用户帐号,其
Top
Baidu
map