当前位置:首页 > 科技  > 软件

gSASRec : 利用负采样降低序列推荐中的过度自信问题

来源: 责编: 时间:2024-04-03 09:11:17 125观看
导读编译 | 汪昊审校 | 重楼推荐系统能够给亚马逊和 TikTok 每年带来 30% - 40% 的流量或者销售额增量,因此毫无疑问,推荐系统是互联网和科技公司的摇钱树。许多懵懂青年在上大学或者刚工作的时候,非常向往从事互联网推荐行

编译 | 汪昊fkT28资讯网——每日最新资讯28at.com

审校 | 重楼fkT28资讯网——每日最新资讯28at.com

推荐系统能够给亚马逊和 TikTok 每年带来 30% - 40% 的流量或者销售额增量,因此毫无疑问,推荐系统是互联网和科技公司的摇钱树。许多懵懂青年在上大学或者刚工作的时候,非常向往从事互联网推荐行业。一方面,趋之若鹜的人才极大地推动了领域的发展;另一方面,该领域的发展给相关人才带来了丰厚的回报。fkT28资讯网——每日最新资讯28at.com

fkT28资讯网——每日最新资讯28at.com

在刚刚过去的2023 年的推荐系统领域权威会议 RecSys 2023 上,一篇题为 gSASRec: Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling 的论文(下载地址:https://arxiv.org/pdf/2308.07192.pdf)获得了最佳论文奖。fkT28资讯网——每日最新资讯28at.com

作者首先回顾了过度自信问题的由来:在负采样的过程中,推荐系统中的正样本的比例通常会增加。这一现象,就是所谓的过度自信问题。过度自信问题会带来如下隐患:1. 推荐系统偏重区分特别好和特别差的推荐,而差别不那么大的推荐结果得不到重视;2. 在某些情况下会导致严重的数值错误。我们在实际中发现,SASRec 算法会出现过度自信问题。并且常见的解决方案很难在深度学习的场景下适用。fkT28资讯网——每日最新资讯28at.com

基于 Transformer 的推荐算法通常在序列推荐的场景下表现更优。在这一领域,BERT4rec 和 SASRec 是两款经典算法。fkT28资讯网——每日最新资讯28at.com

两个最常用的序列推荐的损失函数是 BCE (Binary Cross Entropy) 和 Softmax Loss。BCE 的损失函数定义如下:fkT28资讯网——每日最新资讯28at.com

fkT28资讯网——每日最新资讯28at.com

其中:fkT28资讯网——每日最新资讯28at.com

fkT28资讯网——每日最新资讯28at.com

Softmax Loss 的定义如下:fkT28资讯网——每日最新资讯28at.com

fkT28资讯网——每日最新资讯28at.com

其中:fkT28资讯网——每日最新资讯28at.com

fkT28资讯网——每日最新资讯28at.com

Softmax Loss 不适合负采样场景下的推荐系统。因此有学者提出了 Sampled Softmax Loss :fkT28资讯网——每日最新资讯28at.com

fkT28资讯网——每日最新资讯28at.com

过度自信是指预测中物品出现的概率高于其先验分布。下图对比了几种算法的过度自信程度:fkT28资讯网——每日最新资讯28at.com

fkT28资讯网——每日最新资讯28at.com

通过观察,可以发现 SASRec 算法有严重的过度自信问题。fkT28资讯网——每日最新资讯28at.com

因为高频率的物品会导致 BCE 数值计算发生错误,因此作者定义了新的gBCE (generalized BCE)指标:fkT28资讯网——每日最新资讯28at.com

fkT28资讯网——每日最新资讯28at.com

作者证明了一列 gBCE 防止过度自信的定理,此处因为篇幅原因,不再罗列相关的定理。感兴趣的读者可以自行查阅原始论文。作者基于新的损失函数设计了推荐系统,被命名为 gSASRec 算法。作者随后进行了对照实验,该算法取得了优异的效果:fkT28资讯网——每日最新资讯28at.com

fkT28资讯网——每日最新资讯28at.com

这篇论文的核心在于证明了利用新的损失函数,可以得到缓解过度自信问题的若干定理,因此可以保证我们在使用新的损失函数设计算法之后,取得了远远优于先前推荐的效果。fkT28资讯网——每日最新资讯28at.com

这篇论文看似简单,但是作者在数学理论基础推导方面下足了功夫,是难得一见的好文章。值得读者认真收藏,细细品味。fkT28资讯网——每日最新资讯28at.com

作者介绍

汪昊,前 Funplus 人工智能实验室负责人。曾在 ThoughtWorks、豆瓣、百度、新浪等公司担任技术和技术高管职务。在互联网公司和金融科技、游戏等公司任职 13 年,对于人工智能、计算机图形学区块链和数字博物馆等领域有着深刻的见解和丰富的经验。在国际学术会议和期刊发表论文39 篇,获得IEEE SMI 2008 最佳论文奖、ICBDT 2020 / IEEE ICISCAE 2021 / AIBT 2023 / ICSIM 2024最佳论文报告奖。fkT28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-26-81065-0.htmlgSASRec : 利用负采样降低序列推荐中的过度自信问题

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 实战Spring Cloud Gateway自定义谓词及网关过滤器

下一篇: Python Reduce函数解密:优雅处理复杂数据聚合

标签:
  • 热门焦点
  • 6月安卓手机好评榜:魅族20 Pro蝉联冠军

    6月安卓手机好评榜:魅族20 Pro蝉联冠军

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年6月1日至6月30日,仅限国内市场。第一名:魅族20 Pro好评率:95%5月份的时候魅族20 Pro就是
  • 服务存储设计模式:Cache-Aside模式

    服务存储设计模式:Cache-Aside模式

    Cache-Aside模式一种常用的缓存方式,通常是把数据从主存储加载到KV缓存中,加速后续的访问。在存在重复度的场景,Cache-Aside可以提升服务性能,降低底层存储的压力,缺点是缓存和底
  • 三言两语说透设计模式的艺术-单例模式

    三言两语说透设计模式的艺术-单例模式

    写在前面单例模式是一种常用的软件设计模式,它所创建的对象只有一个实例,且该实例易于被外界访问。单例对象由于只有一个实例,所以它可以方便地被系统中的其他对象共享,从而减少
  • 十个简单但很有用的Python装饰器

    十个简单但很有用的Python装饰器

    装饰器(Decorators)是Python中一种强大而灵活的功能,用于修改或增强函数或类的行为。装饰器本质上是一个函数,它接受另一个函数或类作为参数,并返回一个新的函数或类。它们通常用
  • 一篇文章带你了解 CSS 属性选择器

    一篇文章带你了解 CSS 属性选择器

    属性选择器对带有指定属性的 HTML 元素设置样式。可以为拥有指定属性的 HTML 元素设置样式,而不仅限于 class 和 id 属性。一、了解属性选择器CSS属性选择器提供了一种简单而
  • 2023年,我眼中的字节跳动

    2023年,我眼中的字节跳动

    此时此刻(2023年7月),字节跳动从未上市,也从未公布过任何官方的上市计划;但是这并不妨碍它成为中国最受关注的互联网公司之一。从2016-17年的抖音强势崛起,到2018年的“头腾
  • 东方甄选单飞:有些鸟注定是关不住的

    东方甄选单飞:有些鸟注定是关不住的

    文/彭宽鸿编辑/罗卿东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一年多时间里,东方甄选要脱离抖音自立门户的传闻不绝于耳,“7
  • 阿里大调整

    阿里大调整

    来源:产品刘有媒体报道称,近期淘宝天猫集团启动了近年来最大的人力制度改革,涉及员工绩效、层级体系等多个核心事项,目前已形成一个初步的“征求意见版”:1、取消P序列
  • 三星显示已开始为AR设备研发硅基LED微显示屏

    三星显示已开始为AR设备研发硅基LED微显示屏

    7月18日消息,据外媒报道,随着苹果首款头显产品Vision Pro在6月份正式推出,AR/VR/MR等头显产品也就将成为各大公司下一个重要的竞争领域,对显示屏这一关
Top
Baidu
map