当前位置:首页 > 元宇宙 > AI

李飞飞团队实现“隔空建模”,透过遮挡物还原完整 3D 人体模型

来源: 责编: 时间:2024-01-15 09:18:10 196观看
导读 注意看,这个男人搬着一个长长的柜子,画面中半个人都被遮挡住了。但即使有这样的遮挡,男人的整个身体在 AI 面前依然是无所遁形。哪怕是蹲在椅子背后只露出头,依然可以被模型完整还原。从遮挡物背后把人“揪”出来

注意看,这个男人搬着一个长长的柜子,画面中半个人都被遮挡住了。i6628资讯网——每日最新资讯28at.com

但即使有这样的遮挡,男人的整个身体在 AI 面前依然是无所遁形。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

哪怕是蹲在椅子背后只露出头,依然可以被模型完整还原。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

从遮挡物背后把人“揪”出来的,是李飞飞团队推出的人体建模新工具 Wild2Avatar(本文简称 W2A)。i6628资讯网——每日最新资讯28at.com

只要一段 4 秒左右的单角度视频,就能构建出完整的 3D 模型,有遮挡也不怕。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

相比此前的 SOTA 方法,Wild2Avatar 在人体建模上可谓是实现了质的飞跃。i6628资讯网——每日最新资讯28at.com

建模效果完胜 Vid2Avatar

从下面的对比图中(从左到右依次为带遮挡原图、Vid2Avatar 提取结果和 W2A 提取结果)可以看到,作为 baseline 的 Vid2Avatar 方法只能大概描绘出人的轮廓,遮挡物直接被“拍扁”到了人物身上,而且轮廓看上去也不够准确。i6628资讯网——每日最新资讯28at.com

而 W2A 提取出的任务不仅轮廓更加精确,看上去也更具立体感,关键是遮挡物被完美地去除,显现出了完整的人物结构。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

对遮挡物的去除,W2A 操作得也更为彻底,没有留下多余的痕迹。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

而 baseline 中部分结构缺失的现象,在 W2A 中也没有发生,人物的结构十分完整。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

而且,W2A 的人物建模是动态的,视频画面中,就算整个人都藏在椅子后面,依然可以输出人物模型。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

和另一 baseline OccNeRF 相比,W2A 只需 100 帧的训练视频就能复原出完整干净的结构,但后者用了 500 帧的系列视频后不仅结构缺陷极大,还存在许多“鬼影”。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

测试数据也表明,对于陌生场景,W2A 的提取质量和完整性(comp.)都比 V2A 有所提升,特别是对遮挡(llm)部分,合成质量得分接近翻番。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

和 OccNeRF 相比,W2A 与 500 帧训练数据的 OccNeRF 整体成绩接近,但遮挡部分仍然是有明显增强。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

那么,Wild2Avatar 是如何实现的呢?i6628资讯网——每日最新资讯28at.com

人物与遮挡分层处理

工作过程中,W2A 将整个场景分成了遮挡物、人物本体和背景三部分。i6628资讯网——每日最新资讯28at.com

这三个部分由独立的 NeRF 网络分别预测特征,渲染图像时再将三个部分的输出拼合。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

这种做法的主要目的是为了避免遮挡被误当成人体的一部分,出现 Video2Avatar 那样把遮挡物合成进人物的情况。i6628资讯网——每日最新资讯28at.com

具体来说,李飞飞团队将图像映射到一个球空间,背景位于球外,人物和遮挡物则分别位于球空间内部的不同位置。i6628资讯网——每日最新资讯28at.com

遮挡空间是通过内部采样点的坐标和距离来构造的。用于遮挡部分的生成网络与背景共享,可以预测遮挡空间样本点的颜色和密度值。i6628资讯网——每日最新资讯28at.com

而人体部分的处理则是使用 SMPL 的参数化方式,通过正向和反向皮肤拟合,先将人体变形到一个姿态不变的坐标空间,再输入神经网络进行学习。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

为了增强任务模型的完整性,李飞飞团队还设计了新的损失计算方式。i6628资讯网——每日最新资讯28at.com

首先利用现成的分割模型输出人体的二值分割掩码,并掩码取反得到“非人体”区域的掩码,即为可能的遮挡区域。i6628资讯网——每日最新资讯28at.com

同时,从 W2A 渲染的三个部分中遮挡部分的密度图,然后根据提取结果再分离出人体部分。i6628资讯网——每日最新资讯28at.com

其中人体部分与前面得到的“非人体”掩码进行与非运算,得到的结果再和遮挡部分的密度图做二值交叉熵运算,就得到了遮挡解耦损失 Locc。i6628资讯网——每日最新资讯28at.com

i6628资讯网——每日最新资讯28at.com

Locc 会与像素重构损失、场景分解损失等其他损失参数一并纳入到整个网络的端到端训练过程,用于优化更新网络参数。i6628资讯网——每日最新资讯28at.com

论文地址:i6628资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2401.00431i6628资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:克雷西i6628资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-3196-0.html李飞飞团队实现“隔空建模”,透过遮挡物还原完整 3D 人体模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 更多作家起诉 OpenAI 和微软:“窃取”他们的作品训练 AI 模型

下一篇: 谷歌家务机器人单挑斯坦福炒虾机器人!端茶倒水逗猫,连甩三连弹开打

标签:
  • 热门焦点
Top
Baidu
map