Sora模型成本评估(基于GPT仅供参考)
发布日期:2024/2/21 15:34:08 浏览量:
Sora模型成本评估(基于GPT仅供参考)
省流结论:
预计生成一段60秒的Sora视频的成本介于十几至数十美元之间。
成本预估逻辑详述:
一段60秒、每秒30帧、分辨率为1920x1280的视频,根据计算需求总计需要4423680000个tokens,这远超过当前大型模型能够处理的数据量。为了解决这一挑战,Sora采用了一个编码器(Encoder)将视频内容先压缩到隐空间,然后以小块(patch)的形式输入到扩散模型中。尽管采取了这种策略,一个大小为60*80的单个patch仍需要921600个tokens来完整表示一个视频,表明训练Sora模型需要巨大的计算资源。
以当前GPT-4的成本为例,每1000个tokens的成本为0.06美元,因此处理921600个tokens的成本大约为55美元。
关键参数:
视频生成的关键在于patch的大小。这涉及两个转换过程:视频到patch和patch到token。如果patch到token的转换比例是1:1,那么关键就在于视频到patch的转换效率。视频到patch的转换分为两个步骤:首先是视频到隐空间,然后是隐空间到patch。这可能是Sora模型核心技术之一。特别是视频到隐空间的转换步骤,OpenAI设计的tokenizer与传统的每帧压缩方法(如VAE)不同,它直接将视频序列的帧压缩到隐空间。文献中提到的patch大小为60*80,但具体计算方法和依据不明。进一步分析,patch作为一种"高度可扩展且有效的"表示方法,可能意味着它实现了高效的压缩率,这对于后续模型处理来说至关重要,以便更有效地处理大规模数据。
其他考量:
1、从资源角度考虑,Sora项目的主要研究人员是刚完成博士学位的研究者,OpenAI通常会为此类团队提供一定资源。尽管初始模型的参数量可能不大,但模型的设计允许未来的扩展。此外,考虑到即使在高效的压缩下,视频数据转换成tokens的数量依然庞大,这从根本上影响了生成视频的成本。因此,对于一段60秒的Sora视频,成本估算在十几至数十美元之间是合理的,考虑到所需的计算资源。
2、对比pika的视频,从长度到质量,对比价格,十几美元也更合理。
3、别忘了玩MJ和SD的你还需要抽卡,10个视频能够有一个视频满意就不错了。成本再乘以10倍。
马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生