语音驱动唇形技术栈
发布日期:2023/7/26 14:07:34 浏览量:
这几天把语音到唇形相关的一些开源项目大致都跑了一下,包括:
2D代码:https://github.com/Rudrabha/Wav2Lip
2.5D代码:https://github.com/OpenTalker/SadTalker
https://github.com/ashawkey/RAD-NeRF
3D代码:https://github.com/FACEGOOD/FACEGOOD-Audio2Face
还有清华的difftalk之类,目前不能实时的主要原因是在推理速度上,以colab使用的T4 16G显存来看,通常推理需要20秒左右(RAD-NeRF/wav2lip),如果换高配置GPU 64G,大概能控制在5秒以内,硅基的现在基本上在4秒左右,商汤是用自己的AI芯片。
目前的主要解决思路是切片,将声音和视频都切成5秒左右的片段,最后合成的视频也是5秒一段,再以流式输出,形成一种伪实时的交互。这种也还是需要高配置的卡来减少推理时间。
转自一位大佬的 可以参考
业务实施流程
马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生