热点追踪
论文解读
开源项目
🎑V-Express:通过逐步训练和条件性丢弃操作生成高质量人像视频
type
status
slug
summary
tags
category
icon
password
Date
V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation
介绍网站:https://tenvence.github.io/p/v-express/论文地址:https://arxiv.org/abs/2406.02511
V-Express 是一种创新的人像视频生成技术,由南京大学和腾讯AI实验室的研究人员共同开发。这项技术专门针对如何平衡不同强度的控制信号进行优化,尤其是在生成过程中音频信号往往因为其他强控制信号(如面部姿态和参考图像)的干扰而难以有效发挥作用的问题。
效果展示:
- 简单重定向
.gif?table=block&id=3da061cc-c3c9-487e-8474-63646cea95a4&t=3da061cc-c3c9-487e-8474-63646cea95a4&width=640&cache=v2)
- 头部偏移重定向
.gif?table=block&id=0fd1de4a-eec9-4ac9-ae14-f97557a19543&t=0fd1de4a-eec9-4ac9-ae14-f97557a19543&width=640&cache=v2)
- 面部固定
.gif?table=block&id=eeb269ba-f1df-494d-9c75-fc71d791f64a&t=eeb269ba-f1df-494d-9c75-fc71d791f64a&width=640&cache=v2)
V-Express 的实验结果表明,该技术能够有效地生成与音频同步的高质量人像视频。它不仅提升了视频的整体质量,还确保了更好的同步性和控制性。这项技术为实现更高级、更平衡的人像视频生成系统铺平了道路。
技术解读
V-Express 通过逐步训练和条件性丢弃操作,使得音频信号等较弱的条件能够在视频生成中发挥更为显著的作用,从而实现音频、面部姿态和参考图像等多种控制信号的综合利用。
V-Express 的特点在于其独特的训练策略和模型架构。它采用了Latent Diffusion Model (LDM)来生成视频帧,并且结合了ReferenceNet、V-Kps Guider和Audio Projection等模块来有效处理各种控制输入。这些模块分别针对参考图像、关键点图像和音频信号进行编码,确保生成的视频在保持面部身份和背景一致性的同时,还能够实现口型与音频的同步。此外,V-Express在训练过程中使用了条件性丢弃技术,以防止模型学习到直接复制参考图像的捷径,确保音频信号得到有效利用。
V-Express 的生成过程是一个精心设计的多阶段方法,主要流程如下:
- 预备阶段:首先,V-Express使用变分自编码器(VAE)将输入图像编码到潜在空间中。这个过程称为扩散过程,其中逐步向潜在表示中引入高斯噪声,直至完全退化为噪声。
- 模型架构:V-Express的模型基于去噪U-Net,该网络在条件控制下逐步去除噪声并生成清晰的视频帧。网络包含四个注意力层:自注意力层、参考注意力层、音频注意力层和运动注意力层。这些层分别处理时间序列内的视频帧之间的空间和时间关系。
- 逐步训练策略:
- 第一阶段:专注于单帧生成,只训练ReferenceNet、V-Kps Guider和去噪U-Net,而音频和运动注意力层的权重不更新。
- 第二阶段:进行多帧生成训练,只更新Audio Projection、音频注意力层和运动注意力层,其他模块参数保持固定。
- 第三阶段:全局微调,所有参数都进行更新。
- 训练技巧:
- 口部损失权重:为了加速唇部与音频同步的收敛,对嘴部区域的去噪损失赋予更大的权重。
- 条件性丢弃:为了避免模型直接复制参考图像,随机将某些帧的参考特征和V-Kps特征置零,迫使这些帧依赖运动注意力层的指导。
- 推理过程:在推理阶段,给定音频和预定义的视频帧率,V-Express生成相应数量的帧。如果提供的V-Kps序列与参考图像的关键点不匹配,V-Express会使用简单的重定向方法来调整V-Kps,以匹配参考图像。
- 生成过程:生成的视频帧以多个片段进行,相邻片段之间有一些重叠帧。这些重叠帧的潜在表示在解码前会被平均处理,以确保视频的连贯性。
- 控制信号的整合:V-Express通过调整不同控制信号(如音频、参考图像和V-Kps图像)的注意力权重,可以改变这些信号对生成过程的影响强度。例如,增加音频注意力权重可以使嘴部运动更加明显。
通过这些步骤,V-Express能够生成细节丰富、与音频同步且面部表情自然的人像视频,同时确保了视频的高质量和时间上的连贯性。
论文解读
本文提出了一个名为V-Express的新技术,用于人像视频生成中的条件性丢弃以实现逐步训练。
以下是论文内容要点概括:
摘要
- 人像视频生成领域中,使用单幅图像生成视频越来越普遍。
- 控制信号(如文本、音频、参考图像、姿势、深度图等)的强度不同,弱信号(如音频)常因强信号(如关键点和参考图像)的干扰而难以有效。
- 论文提出V-Express方法,通过逐步训练和条件性丢弃操作平衡不同控制信号,特别强调音频信号的有效控制。
- 实验结果表明,V-Express能有效地生成由音频控制的高质量人像视频。
1. 引言
- 近年来,扩散模型在图像生成领域占据主导地位,推动了生成质量和控制的提升。
- 人像视频生成尤其有价值,如虚拟化身、数字娱乐和个性化视频内容创作。
2. 方法
- V-Express旨在生成受参考图像、音频和一系列V-Kps图像控制的“说话头”视频。
- 使用Latent Diffusion Model (LDM)生成视频帧,结合ReferenceNet、V-Kps Guider和Audio Projection高效处理各种控制输入。
- 通过逐步训练和条件性丢弃策略减轻强信号的主导作用,让弱条件(尤其是音频)有更明显的影响。
2.1 预备知识
- 利用变分自编码器(VAE)在潜在空间内执行扩散和逆扩散过程。
- 训练模型时,给定潜在z0和条件c,使用去噪损失进行训练。
2.2 模型架构
- V-Express的骨干是一个去噪U-Net,包含四个注意力层,包括自注意力层、参考注意力层、音频注意力层和运动注意力层。
- 引入三个关键模块:ReferenceNet、V-Kps Guider和Audio Projection。
2.3 逐步训练策略
- 训练分为三个阶段:单帧生成、多帧生成和全局微调。
2.4 训练技巧
- 为了加速唇部同步的收敛,对嘴部区域的去噪损失赋予更大的权重。
- 使用条件性丢弃来平衡不同控制强度的条件。
2.5 推理
- 给定音频和预定义的视频帧率,生成相应数量的帧。
3. 实验
- 使用HDTF、VFHQ等视频训练V-Express,总训练数据约300小时。
- 实验中与Wav2Lip和DiffusedHeads两种方法进行比较。
4. 结论
- V-Express通过逐步训练和条件性丢弃操作,有效平衡了不同强度的控制信号,生成了与音频输入同步的高质量人像视频。
未来工作
- 计划解决的不足包括多语言支持、减少计算负担和显式面部属性控制。