微立顶科技

新闻资讯

创新 服务 价值

  Sora模型成本评估(基于GPT仅供参考)

发布日期:2024/2/21 15:34:08      浏览量:

Sora模型成本评估(基于GPT仅供参考)


省流结论:

预计生成一段60秒的Sora视频的成本介于十几至数十美元之间。

成本预估逻辑详述:

一段60秒、每秒30帧、分辨率为1920x1280的视频,根据计算需求总计需要4423680000个tokens,这远超过当前大型模型能够处理的数据量。为了解决这一挑战,Sora采用了一个编码器(Encoder)将视频内容先压缩到隐空间,然后以小块(patch)的形式输入到扩散模型中。尽管采取了这种策略,一个大小为60*80的单个patch仍需要921600个tokens来完整表示一个视频,表明训练Sora模型需要巨大的计算资源。

以当前GPT-4的成本为例,每1000个tokens的成本为0.06美元,因此处理921600个tokens的成本大约为55美元。

关键参数:

视频生成的关键在于patch的大小。这涉及两个转换过程:视频到patch和patch到token。如果patch到token的转换比例是1:1,那么关键就在于视频到patch的转换效率。视频到patch的转换分为两个步骤:首先是视频到隐空间,然后是隐空间到patch。这可能是Sora模型核心技术之一。特别是视频到隐空间的转换步骤,OpenAI设计的tokenizer与传统的每帧压缩方法(如VAE)不同,它直接将视频序列的帧压缩到隐空间。文献中提到的patch大小为60*80,但具体计算方法和依据不明。进一步分析,patch作为一种"高度可扩展且有效的"表示方法,可能意味着它实现了高效的压缩率,这对于后续模型处理来说至关重要,以便更有效地处理大规模数据。

其他考量:

1、从资源角度考虑,Sora项目的主要研究人员是刚完成博士学位的研究者,OpenAI通常会为此类团队提供一定资源。尽管初始模型的参数量可能不大,但模型的设计允许未来的扩展。此外,考虑到即使在高效的压缩下,视频数据转换成tokens的数量依然庞大,这从根本上影响了生成视频的成本。因此,对于一段60秒的Sora视频,成本估算在十几至数十美元之间是合理的,考虑到所需的计算资源。

2、对比pika的视频,从长度到质量,对比价格,十几美元也更合理。

3、别忘了玩MJ和SD的你还需要抽卡,10个视频能够有一个视频满意就不错了。成本再乘以10倍。



  业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     联系人:石先生/雷先生