V-Express 图生视频

发布日期：2024/6/4 8:47:36 浏览量：

V-Express 是一个在参考图像、音频和 V-Kps 图像序列的控制下生成一个会说话的头像视频的开源项目。

V-Express 能够从单张图像生成带有音频的肖像视频，通过平衡不同的控制信号(如音频、姿势和图像)来实现自然的嘴部和面部动作同步。例如，将一张静态照片转换成对话视频。V-Express 研究的重点在于，对于一般的视频生成来说，控制信号的强度各异，如文本、音频、图像参考、姿势、深度图等。在这些信号中，较弱的条件(如音频信号)往往难以发挥作用，因为它们容易被较强的条件(如姿势和原始图像)干扰。这就直接导致了生成效果不佳。V-Express 通过一系列渐进的丢弃操作来平衡不同控制信号，很好的解决了这个问题。

地址：https://github.com/tencent-ailab/V-Express