EchoMimic V2，从数字脸到数字人，输入图+音频+手势即可！

发布日期：2024/11/27 11:49:37 浏览量：

阿里巴巴开源了数字人技术：EchoMimic，可用于虚拟主播、视频编辑等

效果比SadTalker、MuseTalk好，表情更丰富动作更顺畅

EchoMimic是一个基于音频驱动的肖像动画生成工具，通过可编辑的特征点条件生成逼真、自然的动画，用户可以根据自己的需求调整动画细节

功能

1、音频驱动动画，可以根据音频生成人物肖像的动画，比如唱歌、说话视频等

2、姿势驱动动画，可以根据姿势数据生成人物肖像的动画

3、音频和姿势混合驱动动画，可以同时使用音频和姿势数据来生成动画

4、WebUI 和 GradioUI，提供图形界面，易于使用

安装

下载代码

git clone https://github.com/antgroup/echomimic_v2cd echomimic_v2

Python环境设置

测试的系统环境：Centos 7.2/Ubuntu 22.04，Cuda >= 11.7
测试的GPU：A100(80G) / RTX4090D (24G) / V100(16G)
测试的Python版本：3.8 / 3.10 / 3.11

创建conda环境（推荐）：

 conda create -n echomimic python=3.10 conda activate echomimic

使用pip安装软件包

pip install pip -U 
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124 
pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124 
pip install -r requirements.txt 
pip install --no-deps facenet_pytorch==2.6.0

下载 ffmpeg-static

下载并解压ffmpeg-static ，然后

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

下载预训练权重

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimicV2 pretrained_weights

pretrained_weights的组织方式如下。

./pretrained_weights/├── denoising_unet.pth├── reference_unet.pth├── motion_module.pth├── pose_encoder.pth├── sd-vae-ft-mse│   └── ...├── sd-image-variations-diffusers│   └── ...└── audio_processor└── tiny.pt

其中enoising_unet.pth /reference_unet.pth /motion_module.pth /pose_encoder.pth是EchoMimic的主要检查点。该中心的其他模型也可以从其原始中心下载，这要归功于他们的精彩作品：

演示推理

运行gradio：

python app.py

切片数据集：

bash ./EMTD_dataset/slice.sh

处理数据集：

python ./EMTD_dataset/preprocess.py

项目链接

https://github.com/antgroup/echomimic_v2

业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询： 如果您有业务方面的问题或者需求，欢迎您咨询！我们带来的不仅仅是技术，还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人：石先生/雷先生