微立顶科技

新闻资讯

创新 服务 价值

  语音驱动唇形技术栈

发布日期:2023/7/26 14:07:34      浏览量:

这几天把语音到唇形相关的一些开源项目大致都跑了一下,包括:
2D代码:https://github.com/Rudrabha/Wav2Lip
2.5D代码:https://github.com/OpenTalker/SadTalker
https://github.com/ashawkey/RAD-NeRF
3D代码:https://github.com/FACEGOOD/FACEGOOD-Audio2Face
还有清华的difftalk之类,目前不能实时的主要原因是在推理速度上,以colab使用的T4 16G显存来看,通常推理需要20秒左右(RAD-NeRF/wav2lip),如果换高配置GPU 64G,大概能控制在5秒以内,硅基的现在基本上在4秒左右,商汤是用自己的AI芯片。

目前的主要解决思路是切片,将声音和视频都切成5秒左右的片段,最后合成的视频也是5秒一段,再以流式输出,形成一种伪实时的交互。这种也还是需要高配置的卡来减少推理时间。


转自一位大佬的 可以参考



  业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     联系人:石先生/雷先生