微立顶科技

新闻资讯

创新 服务 价值

  EchoMimic V2,从数字脸到数字人,输入图+音频+手势即可!

发布日期:2024/11/27 11:49:37      浏览量:

阿里巴巴开源了数字人技术:EchoMimic,可用于虚拟主播、视频编辑等

效果比SadTalker、MuseTalk好,表情更丰富动作更顺畅

EchoMimic是一个基于音频驱动的肖像动画生成工具,通过可编辑的特征点条件生成逼真、自然的动画,用户可以根据自己的需求调整动画细节

功能

1、音频驱动动画,可以根据音频生成人物肖像的动画,比如唱歌、说话视频等

2、姿势驱动动画,可以根据姿势数据生成人物肖像的动画

3、音频和姿势混合驱动动画,可以同时使用音频和姿势数据来生成动画

4、WebUI 和 GradioUI,提供图形界面,易于使用

安装

下载代码

git clone https://github.com/antgroup/echomimic_v2cd echomimic_v2

Python环境设置

  • 测试的系统环境:Centos 7.2/Ubuntu 22.04,Cuda >= 11.7

  • 测试的GPU:A100(80G) / RTX4090D (24G) / V100(16G)

  • 测试的Python版本:3.8 / 3.10 / 3.11


创建conda环境(推荐):

 conda create -n echomimic python=3.10 conda activate echomimic

使用pip安装软件包

pip install pip -U 
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124 
pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124 
pip install -r requirements.txt 
pip install --no-deps facenet_pytorch==2.6.0

下载 ffmpeg-static

下载并解压ffmpeg-static ,然后

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static


下载预训练权重

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimicV2 pretrained_weights

pretrained_weights的组织方式如下。


./pretrained_weights/├── denoising_unet.pth├── reference_unet.pth├── motion_module.pth├── pose_encoder.pth├── sd-vae-ft-mse│   └── ...├── sd-image-variations-diffusers│   └── ...└── audio_processor└── tiny.pt

其中enoising_unet.pth /reference_unet.pth /motion_module.pth /pose_encoder.pthEchoMimic的主要检查点。该中心的其他模型也可以从其原始中心下载,这要归功于他们的精彩作品:


演示推理

运行gradio:

python app.py

切片数据集:

bash ./EMTD_dataset/slice.sh

处理数据集:

python ./EMTD_dataset/preprocess.py

项目链接

https://github.com/antgroup/echomimic_v2



  业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     联系人:石先生/雷先生