当前位置:首页 > 元宇宙 > AI

让蒙娜丽莎唱饶舌,微软发布 VASA-1 模型:图 + 音频可生成短视频

来源: 责编: 时间:2024-04-26 08:44:07 97观看
导读 4 月 19 日消息,微软亚洲研究院(Microsoft Research Asia)近日发表论文,介绍了全新的 VASA-1 模型,用户只需要提供一张静态肖像图片和一段语音音频片段,该模型就能自动让图片中的人物自动说话。VASA-1 特别有趣的地

4 月 19 日消息,微软亚洲研究院(Microsoft Research Asia)近日发表论文,介绍了全新的 VASA-1 模型,用户只需要提供一张静态肖像图片和一段语音音频片段,该模型就能自动让图片中的人物自动说话。IjA28资讯网——每日最新资讯28at.com

IjA28资讯网——每日最新资讯28at.com

IjA28资讯网——每日最新资讯28at.com

VASA-1 特别有趣的地方在于,它能够模拟自然的面部表情、各种情绪和唇部同步,最重要的是几乎没有人工痕迹,如果不细看很难发现。IjA28资讯网——每日最新资讯28at.com

IjA28资讯网——每日最新资讯28at.com

研究人员承认,与所有其他模型一样,该模型目前还无法妥善处理头发等非刚性元素,但整体效果要比其它同类模型要更为优秀。IjA28资讯网——每日最新资讯28at.com

IjA28资讯网——每日最新资讯28at.com

研究人员还表示 VASA-1 支持离线 batch 处理模式下,以 45fps 生成分辨率为 512*512 的动态短视频,在线直播模式下可以达到 40 fps,且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。IjA28资讯网——每日最新资讯28at.com

附上参考地址IjA28资讯网——每日最新资讯28at.com

New VASA-1 model by Microsoft Research AsiaIjA28资讯网——每日最新资讯28at.com

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real TimeIjA28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-4111-0.html让蒙娜丽莎唱饶舌,微软发布 VASA-1 模型:图 + 音频可生成短视频

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 五粮液浓香酒:劳动节送礼的精致艺术

下一篇: 谷歌整合 Research 和 DeepMind 资源,全力发展 AI

标签:
  • 热门焦点
Top
Baidu
map