AI 提示词收集
经典论文解读
开源仓库推荐
<每日AI播客>
🙃MegActor:用于生成逼真且生动肖像动画的条件扩散模型
type
status
slug
summary
tags
category
icon
password
Date
MegActor: Harness the Power of Raw Video for Vivid Portrait Animation
GitHub项目:https://github.com/megvii-research/megactor论文地址:https://arxiv.org/abs/2405.20851
MegActor 是由旷视科技团队开发的一种先进的肖像动画生成模型,它利用原始视频(raw video)来生成生动、逼真的谈话头像动画。与传统的肖像动画技术相比,MegActor不依赖于中间特征表示,而是直接使用原始视频作为驱动因素,这使得它能够更准确地捕捉到视频中的面部表情和头部姿态变化。
.gif?table=block&id=f633bb49-56cc-48a9-8680-05d00a0df5e3&t=f633bb49-56cc-48a9-8680-05d00a0df5e3&width=480&cache=v2)
MegActor的特点在于其易用性、可复现性和效率。它能够在保证动作一致性的同时,使用视频对肖像进行动画化处理。作为一个完全开源的项目,MegActor在公共数据集上进行训练,确保了研究的透明度和可访问性。此外,MegActor在训练效率上表现出色,仅需200小时的V100训练即可在肖像上实现令人愉悦的动作效果。这些特点使得MegActor在肖像动画领域具有显著的竞争优势,为数字虚拟形象、AI基础的人际交流等应用提供了强大的技术支持。
技术解读
MegActor 通过两个UNets协同工作:一个用于提取源图像中的身份和背景特征,另一个则直接从原始视频中生成并整合运动特征。MegActor 的另一个创新之处在于其合成数据生成框架,这一框架通过创建动作和表情一致但身份不一致的视频来减少身份泄露问题。同时,模型通过分割参考图像的前景和背景,并使用CLIP编码背景细节,然后将编码信息通过文本嵌入模块整合到网络中,确保了背景的稳定性。进一步的风格迁移技术将参考图像的外观转移到驱动视频中,消除了驱动视频中面部细节的影响。这些技术的结合使得MegActor在生成高质量肖像动画的同时,还能够保持角色身份的一致性和背景的稳定性。
MegActor 的处理和生成过程步骤如下:
- 合成数据生成:为了解决身份泄露问题,MegActor采用了合成数据生成框架。这个过程包括AI换脸技术和风格化技术,通过这些技术,模型能够学习到与原始视频动作和表情一致但身份不一致的视频内容。
- 图像和视频的预处理:在训练之前,MegActor需要对参考图像和驱动视频进行预处理。这包括使用Face-Fusion进行AI换脸以改变视频中的人物身份,以及使用SDXL进行风格化处理,改变视频的风格而保持动作的连贯性。
- 特征提取:MegActor使用两个UNet网络来提取特征。ReferenceNet用于从参考图像中提取身份和背景特征,而DrivenEncoder则用于从驱动视频中提取运动特征。
- 背景和风格整合:CLIP的图像编码器用于处理参考图像的背景部分,将其编码为特征信息,并通过文本嵌入模块整合到网络中。此外,MegActor还会进行风格迁移,将参考图像的外观风格应用到驱动视频中,以消除不相关面部细节的影响。
- 时间层插入:为了增强生成帧之间的连贯性,MegActor在去噪UNet的每个Res-Trans层后插入一个时间模块,执行帧间的时间注意力机制。
- 训练技术:MegActor采用多种训练技术来减少训练和推理阶段之间的差异。模型训练分为两个阶段:第一阶段不包括时间层,主要训练Driven Encoder、Denoising UNet和ReferenceNet;第二阶段插入时间层并进行单独训练。
- 推理过程:在推理阶段,MegActor采用重叠滑动窗口方法来生成长视频。每次推断16帧,重叠8帧,并对重叠区域的两个生成结果取平均值作为最终结果。
- 结果生成:最终,MegActor能够生成与原始驱动视频动作一致,且具有丰富表情和头部姿态变化的动画,同时保留参考图像中人物的身份和背景信息。
整个过程是一个高度自动化和系统化的流程,它结合了多种先进的技术,包括深度学习、图像处理和风格迁移,以生成高质量且逼真的肖像动画。
论文解读
本文介绍了一个名为MegActor的创新条件扩散模型,用于生动的肖像动画生成。
以下是论文要点概括:
- 摘要:MegActor利用原始视频(raw driving videos)中的丰富信息来生成生动的肖像动画,解决了以往研究中存在的两个问题:身份泄露和不相关背景及面部细节影响性能。
- 引言:介绍了肖像动画的任务定义,以及使用原始视频作为驱动源的优势和挑战。
- 相关工作:
- 3.1节讨论了基于生成对抗网络(GAN)的肖像动画方法。
- 3.2节探讨了基于扩散模型的肖像动画,包括文本到视频(T2V)、图像到视频(I2V)和音频到视频(A2V)的控制信号方法。
- 数据集流程:描述了使用公共数据集VFHQ和CelebV-HQ进行训练的过程,包括AI换脸数据生成、风格化数据合成、数据筛选和数据增强。
- 方法:
- 5.1节介绍了实验的实现细节,包括数据集、训练细节和推理细节。
- 5.2节展示了模型在跨身份数据上的测试结果,并与现有最先进技术进行了比较。
- 5.3节讨论了模型的局限性和未来的工作方向。
- 结论:总结了MegActor的优势,包括使用合成数据生成框架解决身份泄露问题,以及从参考图像中提取前景和背景信息并注入到去噪模型中,以消除原始视频中不相关信息的影响。
- 参考文献:列出了与研究相关的文献。
MegActor的主要贡献在于提出了一种新颖的肖像动画方法,使用原始视频控制,并通过合成数据生成框架有效提高了动作一致性并减少了身份泄露问题。此外,通过风格化参考图像到原始驱动帧来增强对原始视频中不相关信息的鲁棒性。实验结果表明,该方法在公共数据集上训练,能够实现与商业模型相当的成果,证明了该方法的有效性。论文希望这项工作能够推动开源社区的研究。