EchoMimic V2,从数字脸到数字人,输入图+音频+手势即可!
发布日期:2024/11/27 11:49:37 浏览量:
阿里巴巴开源了数字人技术:EchoMimic,可用于虚拟主播、视频编辑等
效果比SadTalker、MuseTalk好,表情更丰富动作更顺畅
EchoMimic是一个基于音频驱动的肖像动画生成工具,通过可编辑的特征点条件生成逼真、自然的动画,用户可以根据自己的需求调整动画细节
功能
1、音频驱动动画,可以根据音频生成人物肖像的动画,比如唱歌、说话视频等
2、姿势驱动动画,可以根据姿势数据生成人物肖像的动画
3、音频和姿势混合驱动动画,可以同时使用音频和姿势数据来生成动画
4、WebUI 和 GradioUI,提供图形界面,易于使用
安装
下载代码
git clone https://github.com/antgroup/echomimic_v2cd echomimic_v2
Python环境设置
-
测试的系统环境:Centos 7.2/Ubuntu 22.04,Cuda >= 11.7
-
测试的GPU:A100(80G) / RTX4090D (24G) / V100(16G)
-
测试的Python版本:3.8 / 3.10 / 3.11
创建conda环境(推荐):
conda create -n echomimic python=3.10 conda activate echomimic
使用pip安装软件包
pip install pip -Upip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124
pip install -r requirements.txt
pip install --no-deps facenet_pytorch==2.6.0
下载 ffmpeg-static
下载并解压ffmpeg-static ,然后
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
下载预训练权重
git lfs install
git clone https://huggingface.co/BadToBest/EchoMimicV2 pretrained_weights
pretrained_weights的组织方式如下。
./pretrained_weights/├── denoising_unet.pth├── reference_unet.pth├── motion_module.pth├── pose_encoder.pth├── sd-vae-ft-mse│ └── ...├── sd-image-variations-diffusers│ └── ...└── audio_processor└── tiny.pt
其中enoising_unet.pth /reference_unet.pth /motion_module.pth /pose_encoder.pth是EchoMimic的主要检查点。该中心的其他模型也可以从其原始中心下载,这要归功于他们的精彩作品:
演示推理
运行gradio:
python app.py
切片数据集:
bash ./EMTD_dataset/slice.sh
处理数据集:
python ./EMTD_dataset/preprocess.py
项目链接
https://github.com/antgroup/echomimic_v2

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生