语音驱动唇形技术栈

发布日期：2023/7/26 14:07:34 浏览量：

这几天把语音到唇形相关的一些开源项目大致都跑了一下，包括：
2D代码：https://github.com/Rudrabha/Wav2Lip
2.5D代码：https://github.com/OpenTalker/SadTalker
https://github.com/ashawkey/RAD-NeRF
3D代码：https://github.com/FACEGOOD/FACEGOOD-Audio2Face
还有清华的difftalk之类，目前不能实时的主要原因是在推理速度上，以colab使用的T4 16G显存来看，通常推理需要20秒左右（RAD-NeRF/wav2lip)，如果换高配置GPU 64G，大概能控制在5秒以内，硅基的现在基本上在4秒左右，商汤是用自己的AI芯片。

目前的主要解决思路是切片，将声音和视频都切成5秒左右的片段，最后合成的视频也是5秒一段，再以流式输出，形成一种伪实时的交互。这种也还是需要高配置的卡来减少推理时间。

转自一位大佬的可以参考

业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询： 如果您有业务方面的问题或者需求，欢迎您咨询！我们带来的不仅仅是技术，还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人：石先生/雷先生