Sora技术架构(仅供参考)
发布日期:2024/3/3 22:59:17 浏览量:
Sora技术架构(仅供参考)
SORA 模型结构可以表示:SORA = [VAE encoder + DiT (DDPM) + VAE decoder]
SORA 模型训练流程:
•Step1:使用
DALLE 3(CLIP )
把文本和图像对 <text,image>
联系起来;
•Step2:视频数据切分为 Patches 通过
VAE 编码器压缩成低维空间表示;
•Step3:基于 Diffusion
Transformer 从图像语义生成,完成从文本语义到图像语义进行映射;
•Step4:DiT
生成的低维空间表示,通过 VAE 解码器恢复成像素级的视频数据;
业务实施流程
马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生