当前位置：首页 > 元宇宙 > AI

一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原

来源：责编：时间：2023-12-18 17:35:12 216观看

导读新智元报道编辑：润好困【新智元导读】最近，来自南大等机构的研究人员开发了一个通用的框架，用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是嘴型都非常自然，看到很多不错的一段音频 + 一张照片，瞬间

新智元报道

编辑：润好困

【新智元导读】最近，来自南大等机构的研究人员开发了一个通用的框架，用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是嘴型都非常自然，看到很多不错的

一段音频 + 一张照片，瞬间照片里的人就能开始讲话了。

生成的讲话动画不但口型和音频能够无缝对齐，面部表情和头部姿势都非常自然而且有表现力。

而且支持的图像风格也非常的多样，除了一般的照片，卡通图片，证件照等生成的效果都非常自然。

再加上多语言的支持，瞬间照片里的人物就活了过来，张嘴就能飙外语。

这是由来自南京大学等机构的研究人员提出的一个通用框架 ——VividTalk，只需要语音和一张图片，就能生成高质量的说话视频。

论文地址：https://arxiv.org/ abs / 2312.01841

这个框架是一个由音频到网格生成，和网格到视频生成组成的两阶段框架。

在第一阶段，考虑面部运动和 blendshape 分布之间的一对多映射，利用 blendshape 和 3D 顶点作为中间表征，其中 blendshape 提供粗略运动，顶点偏移描述细粒度嘴唇运动。

此外，还采用了基于多分支 Transformer 网络，以充分利用音频上下文来建模与中间表征的关系。

为了更合理地从音频中学习刚性头部运动，研究人员将此问题转化为离散有限空间中的代码查询任务，并构建具有重建和映射机制的可学习头部姿势代码本。

之后，学习到的两个运动都应用于参考标识，从而产生驱动网格。

在第二阶段，基于驱动网格和参考图像，渲染内表面和外表面（例如躯干）的投影纹理，从而全面建模运动。

然后设计一种新颖的双分支运动模型来模拟密集运动，将其作为输入发送到生成器，以逐帧方式合成最终视频。

VividTalk 可以生成具有表情丰富的面部表情和自然头部姿势的口型同步头部说话视频。

如下表所示，视觉结果和定量分析都证明了新方法在生成质量和模型泛化方面的优越性。

框架实现方法

给定音频序列和参考面部图像作为输入，新方法可以生成具有不同面部表情和自然头部姿势的头部说话视频。

VividTalk 框架由两个阶段组成，分别称为音频到网格生成和网格到视频生成。

音频到网格生成

这一阶段的目标是根据输入音频序列和参考面部图像生成 3D 驱动的网格。

具体来说，首先利用 FaceVerse 来重建参考面部图像。

接下来，从音频中学习非刚性面部表情运动和刚性头部运动来驱动重建的网格。

为此，研究人员提出了多分支 BlendShape 和顶点偏移生成器以及可学习的头部姿势代码本。

BlendShape 和顶点偏移生成器

学习通用模型来生成准确的嘴部动作和具有特定人风格的富有表现力的面部表情在两个方面具有挑战性：

1）第一个挑战是音频运动相关性问题。由于音频信号与嘴部运动最相关，因此很难根据音频对非嘴部运动进行建模。

2）从音频到面部表情动作的映射自然具有一对多的属性，这意味着相同的音频输入可能有不止一种正确的动作模式，从而导致没有个人特征的面部形象。

为了解决音频运动相关性问题，研究人员使用 blendshape 和顶点偏移作为中间表征，其中 blendshape 提供全局粗粒度的面部表情运动，而与嘴唇相关的顶点偏移提供局部细粒度的嘴唇运动。

对于缺乏面部特征的问题，研究人员提出了一种基于多分支 transformer 的生成器来单独建模每个部分的运动，并注入特定于主题的风格以保持个人特征。

可学习的头部姿势密码本

头部姿势是影响头部说话视频真实感的另一个重要因素。然而，直接从音频中学习它并不容易，因为它们之间的关系很弱，这会导致不合理和不连续的结果。

受到之前研究的启发，利用离散码本作为先验，即使在输入降级的情况下也能保证高保真生成。

研究人员建议将此问题转化为离散且有限头部姿势空间中的代码查询任务，并精心设计了两阶段训练机制，第一阶段构建丰富的头部姿势代码本，第二阶段将输入音频映射到码本生成最终结果，如下图所示。

网格到视频生成

如下图所示，研究人员提出了双分支 motionvae 来对 2D 密集运动进行建模，该运动将作为生成器的输入来合成最终视频。

将 3D 域运动直接转换为 2D 域运动既困难又低效，因为网络需要寻找两个域运动之间的对应关系以更好地建模。

为了提高网络的性能并获得进一步的性能，研究人员借助投影纹理表示在 2D 域中进行这种转换。

如上图所示，在面部分支中，参考投影纹理 P T 和驱动的投影纹理 P Tare 连接并馈入编码器，然后输入 MLP，输出 2D 面部运动图。

为了进一步增强嘴唇运动并更准确地建模，研究人员还选择与嘴唇相关的标志并将其转换为高斯图，这是一种更紧凑、更有效的表示。

然后，沙漏网络将减去的高斯图作为输入并输出 2D 嘴唇运动，该运动将与面部运动连接并解码为密集运动和遮挡图。

最后，研究人员根据之前预测的密集运动图对参考图像进行变形，获得变形图像，该变形图像将与遮挡图一起作为生成器的输入，逐帧合成最终视频。

实验效果

数据集

HDTF 是一个高分辨率视听数据集，包含 346 个主题的超过 16 小时的视频。VoxCeleb 是另一个更大的数据集，涉及超过 10 万个视频和 1000 个身份。

研究人员首先过滤两个数据集以删除无效数据，例如音频和视频不同步的数据。

然后裁剪视频中的人脸区域并将其大小调整为 256×256。

最后，将处理后的视频分为 80％、10％、10％，这将用于用于培训、验证和测试。

实施细节

在实验中，研究人员使用 FaceVerse 这种最先进的单图像重建方法来恢复视频并获得用于监督的地面实况混合形状和网格。

在训练过程中，Audio-To-Mesh 阶段和 Mesh-To-Video 阶段是分开训练的。

具体来说，音频到网格阶段的 BlendShape 和顶点偏移生成器以及可学习头部姿势代码本也分别进行训练。

在推理过程中，研究人员的模型可以通过级联上述两个阶段以端到端的方式工作。

对于优化，使用 Adam 优化器，两个阶段的学习率分别为 1×10 和 1×10。在 8 个 NVIDIA V100 GPU 上的总训练时间为 2 天。

与 SOTA 的比较

可以看到，研究人员提出的方法可以生成高质量的头部说话视频，具有精确的唇形同步和富有表现力的面部运动。

相比之下：

SadTalker 无法生成准确的细粒度嘴唇运动，并且视频质量更低。

TalkLip 产生模糊结果，并将肤色风格改为略黄，在一定程度上丢失了身份信息。

MakeItTalk 无法生成准确的嘴形，尤其是在跨身份配音设置中。

Wav2Lip 倾向于合成模糊的嘴部区域，并在输入单个参考图像时输出具有静态头部姿势和眼球运动的视频。

PC-AVS 需要驱动视频作为输入，并努力保存身份。

定量比较

如下表所示，新方法在图像质量和身份保留方面表现更好，这通过较低的 FID 和较高的 CSIM 指标反映出来。

由于新颖的可学习密码本机制，新方法生成的头部姿势也更加多样化和自然。

虽然新方法的 SyncNet 分数低于 Wav2Lip，但可以驱动使用单个音频而不是视频的参考图像并生成更高质量的帧。

参考资料：

https://humanaigc.github.io/vivid-talk/

本文来自微信公众号：新智元（ID：AI_era）

本文链接：//www.dmpip.com//www.dmpip.com/showinfo-45-2938-0.html一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：深圳芯聚能科技发布全球首款64核心笔记本：云怪REV-9震撼登场

下一篇：北京互联网法院公开审理全国首例“AI 声音侵权案”

标签：

热门焦点

不同于传统数字经济，元宇宙赋予商业生态更多数字资产价值！

作者：中科基大数据元宇宙是一个去中心化的开放平台，而为了维护这样的平台，需要建立一个公平的游戏规则，确保每个元宇宙的参与者通过这个规则都可以挣到钱，他们的利益都可以得到保
文心一言排名垫底，却成为百度业绩增长杠杆

文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后，百度公司热度大幅提升，文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日，百度（NASDAQ：BIDU/09888.HK）公布了
风口已至，多领域平台融入社交元素！

在众多领域平台中，社交元素都扮演着重要角色，如直播营销带货、线上配对听歌、游戏局内互动等。随着元宇宙时代的来临，社交产品不断升级，社交元素推动流量变现，多平台领域融入社交
大厂元宇宙，又菜又爱玩

撰文 | 吴先之编辑 | 王潘当下所有大厂推出的元宇宙产品，所能带来的沉浸式体验并不多，好在国内外科技巨头在bug方面都处在同一水平线。以Meta为例，由于VR头显设
茅台的元宇宙App火了，也被骂惨了

元宇宙从概念走向大众生活，并不是一件简单的事情。技术、世界观、填充内容、载体形式，每一个环节都需要层层叠叠的逻辑。但正如赛博朋克奠基人威廉·吉布
元宇宙是推动NFT发展的初始家园

现在大家都知道了什么是NFT，但好像离自己的生活还有一定距离。随着我们与NFT 接触增加，该如何将这些数字资产带入我们的日常生活？NFT还是主流吗？如果我们将“主流
NFT 技术将传世之作带入博物馆

意大利四大博物馆已与一个项目合作，该项目将展示和销售达芬奇、卡拉瓦乔、拉斐尔和莫迪利亚尼等人的杰作的 NFT复制品。该计划采用了科技公司Cincello的国际专
以太坊面临来自Fantom的巨大挑战

众所周知，区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
超级账本Julian Gordon：联盟链与公链的竞争不是非此即彼

在2021年《福布斯》区块链50强榜单中，29家企业使用Hyperledger超级账本技术，占比近60%。同年，研究机构Blockdata发布了的调查报告显示，访问Top100上市公司中，有 81