Heygen的开源平替:TANGO
发布日期:2024/10/24 9:28:59 浏览量:
Heygen的开源平替:TANGO
TANGO作为一个由学术界和工业界合作开发的开源项目,在技术创新和应用灵活性上展现出了独特的优势。与Heygen主要专注于面部表情和上半身动作不同,TANGO野心勃勃地瞄准了全身动作生成这一更具挑战性的目标。想象一下,只需提供几十秒的样本视频,TANGO就能生成无限量的、与音频完美同步的全身动作视频,这无疑为内容创作者打开了一扇充满可能性的大门。
TANGO最大的优势可能在于其开源性质。这意味着开发者可以深入了解TANGO的工作原理,根据特定需求进行调整,甚至将其与其他开源项目(如快手的LivePortrait)结合,创造出更加强大和多样化的应用。
TANGO的核心技术
TANGO的技术优势主要体现在以下几个方面:
1、分层音频运动嵌入(AuMoCLIP)
AuMoCLIP是TANGO的核心技术之一,它通过对比学习方法创建了一个隐式的层次化音频-动作联合嵌入空间。这种方法的优势在于:
-
精确映射: 将语音音频和动作数据映射到一个共同的潜在空间。
-
距离关系: 确保匹配的音频和动作在空间中的距离更近。
-
高效检索: 实现快速、精准的动作检索。
与传统的基于规则的方法相比,AuMoCLIP能够捕捉更细微的音频-动作关系,从而生成更自然、更流畅的动作序列。
2、扩散插值网络(ACInterp)
ACInterp是TANGO用于生成高质量过渡帧的关键技术:
-
基础模型: 建立在现有的视频生成扩散模型之上。
-
参考运动模块: 确保生成的动作与参考视频保持一致。
-
单应背景流: 保持背景的连贯性,避免常见的视觉伪影。
ACInterp的优势在于它能有效消除传统基于光流的插值方法中常见的模糊和重影问题,生成更加真实、流畅的过渡动作。
3、动作图检索方法
TANGO采用了基于学习的动作图检索方法,这比简单的音频起始特征和关键词匹配更加先进:
-
灵活性: 能更好地处理不同说话者的动作与音频起始不同步的情况。
-
鲁棒性: 有效解决参考视频中缺少特定关键词的问题。
-
上下文理解: 通过学习理解更长时间序列的上下文关系。
4、图结构表示
TANGO使用有向图结构来表示视频内容:
-
节点: 代表视频帧。
-
边: 表示帧之间有效的转换。
-
子图检索: 根据目标音频提取时间特征,检索最佳的视频播放路径子集。
-
动态生成: 当原始参考视频中不存在转换边时,使用ACInterp生成平滑的过渡帧。
项目地址:https://pantomatrix.github.io/TANGO/
马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生