阿里的生成式 AI 模型EMO(Emote Portrait Alive)
发布日期:2024/3/3 0:28:03 浏览量:
阿里巴巴智能计算研究所发布了一款全新的生成式 AI 模型EMO(Emote Portrait Alive)。EMO 仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然。EMO 不仅能够生成唱歌和说话的视频,还能在保持角色身份稳定性的同时,根据输入音频的长度生成不同时长的视频。
EMO 的工作过程分为两个主要阶段:首先,利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征;然后,利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频。该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。
它能够仅通过一张参考图像和音频输入生成表情丰富的视频,捕捉到细腻的面部表情和头部移动。这个系统的关键特点包括基于音频的视频生成、高度表现力、无缝帧转换、身份一致性、稳定的控制机制、灵活的视频时长以及对不同语言和风格的适应性。系统的运作流程包括准备输入、提取特征、处理音频、将噪声扩散成连贯的视频帧,并控制移动速度,同时保持角色身份的一致性和提升视频稳定性。
这个系统为视频制作、虚拟现实、在线教育以及娱乐等领域提供了新的可能性,通过提升互动性和表达力,为用户创造更加丰富和个性化的体验。
EMO 利用先进的扩散模型和神经网络架构,提高了头部说话视频生成的能力,提供了以前无法达到的真实性和表现力。神态、表情、唱歌时头部动作、嘴型、都可以说十分逼真了。
----------------------------------------
EMO 可以拿来做什么?
EMO 提供了一个多功能工具,用于创建逼真的动画视频,扩展了个性化和富有表现力的内容创建的可能性,
唱歌:生成声音头像视频,具有与唱歌音频输入同步的富有表现力的面部表情。
语言和风格:支持多种语言和肖像风格,捕捉动态头像动画的色调变化。
快速节奏:确保角色动画与快节奏节奏同步。
说话:响应各种语言和风格的语音输入,制作肖像动画。
影视表演:在多语言和多文化背景下描绘电影或其他媒体中的角色。
--------------------
EMO 代表了一次重大飞跃,通过直接从音频提示捕捉细致入微的面部表情,克服了传统方法的限制,阿里巴巴集团智能计算研究院推出的EMO标志着图像和视频生成技术发展的关键时刻。
寻求创建逼真且富有表现力的头像视频一直是计算机图形和人工智能领域的一个长期挑战。传统方法往往存在不足,无法完全概括人类表情的广度或产生自然而细致的面部动作。这促使阿里巴巴集团的研究人员开发了一种能够将音频提示准确转化为真实面部表情的解决方案。
EMO 通过复杂的两阶段框架运行,该框架融合音频和视觉数据以生成富有表现力的肖像视频。该过程从帧编码开始,ReferenceNet 从参考图像和运动帧中提取基本特征,为随后的扩散过程奠定基础。此过程涉及用于音频嵌入的预训练音频编码器,将面部区域掩模与多帧噪声集成以指导面部图像创建。骨干网络结合了参考注意和音频注意机制,确保保留角色的身份及其运动的调节。时间模块通过调整运动速度进一步细化视频,使 EMO 能够根据音频输入创建任何持续时间具有表现力面部表情和头部姿势的声音化身视频。
除了生成头部说话视频之外,EMO 还引入了声音头像生成的创新概念。只需单个角色图像和音频输入,EMO 就可以制作声音化身视频,展示富有表现力的面部表情和头部动作。无论是复制名曲的演奏,还是用多种语言表达台词,EMO都表现出了非凡的准确性和表现力。
该技术不仅支持多语言和多文化表达,还擅长捕捉快节奏的节奏并传达与音频同步的富有表现力的动作。这为参与内容创作开辟了新的可能性,例如需要音乐和视觉元素之间详细同步的音乐视频或表演。
EMO 的功能不仅仅限于唱歌的化身。它可以用多种语言制作语音音频动画,使历史人物、艺术品甚至人工智能生成的角色的肖像栩栩如生。这种多功能性允许与标志性人物对话或跨演员表演,为跨不同媒体和文化背景的角色塑造提供新的创意途径。
EMO 框架标志着肖像视频生成的重大进步,避免了对中间 3D 模型或面部标志的需求,并确保平滑的帧过渡和一致的身份保留。该技术以庞大、多样化的音频视频数据集为基础,有助于 EMO 模型的训练,以捕捉各种人类表情和声音风格。
马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生