Sora专家会议：模型技术、算力、应用分析（真假自辩）

发布日期：2024/2/20 12:26:55 浏览量：

Sora专家会议：模型技术、算力、应用分析（真假自辩）

1.技术原理与Sora模型影响深度剖析
-技术核心：OpenAl新近发布的"Sora"模型沿用了Diffusion与Transformer架构，结构上并无显著变化。
其创新点在于整合实时事件模拟和对初始文本的深层次运用，从而具备模拟现实世界事件的能力。然
而，关于该模型的实际表现，当前尚缺乏充足的证据支持，需待大规模公开测试后才能做出确切评
估。
-运行机制概述Sora首先将视频内容转化为基本视觉元素(patches),进而运用自身强大的语言模型能力
进行sequence-to-sequence处理。在此过程中，包括了视频数据降维、随机噪声注入等步骤，最终生
成高质量视频。值得注意的是，该模型训练输入不受特定格式限制，能吸收各类视频数据以学习连续
性，并通过将视觉信息转化为序列数据，有效应用seq2seq模型。
-成效关键因素：Sora模型可能得益于OpenAl提供的高质量训练数据、独特的模型架构设计以及大量的
计算资源投入，这些可能是其表现出色的核心驱动力。尽管如此，要判断Sora是否真正理解和掌握了
视频中物理世界的内在规律，还需进一步观察和验证，毕竟相较于真正的世界模拟器，目前所展现的
仅是表层效果。

2.训练素材与算力需求解析
-训练数据来源：据推测，在投资者会议上提及的Sora模型可能使用了大量高质量虚拟数据作为训练素
材，旨在让模型在真实视频与虚拟引擎合成数据之间进行差异学习，以实现更逼真的视频生成效果。
-为算力及参数量考量：虽然具体信息有限，但根据内部人士透露的数据初步估算，Sora模型可能需要
上千至数万个GPU卡级别的算力资源，并历经约两个月左右的训练周期。不过，这一估计较为粗略，
实际需求会受到多种因素(如输入信息复杂度、处理器优化程度等)的影响。
-市场对比分析：参会者普遍认为市场上的现有产品在视频生成方面与Sora存在明显的层级差距，这不
仅体现在视频长度，更在于视频质量、内容丰富度、逼真度及连贯性等多个维度。

3.Al创新带来的挑战与机遇
-OpenAl在多模态视频领域迅速推出Sora模型，此举紧跟在Google新产品发布之后，凸显出OpenAl意
图快速超越竞争对手的战略布局，给市场带来意外的速度冲击，并提升了自身的不可预测性和竞争优
势。
-Al创业公司如Runway和Picasso要在视频生成领域提出比肩或超越OpenAl的产品，则面临巨大挑战。
为应对挑战，他们可能会选择聚焦细分市场，通过找准特定应用场景并率先打造一两款成功案例来占
据市场份额，再逐步扩大应用范围和市场份额。
-大型视频社交平台密切关注新的视频生成技术进展，其中OpenAl的数据模型尤为引人关注。相比之
下，尽管谷歌的ChatGPT模型同样具有创新性和良好的实测表现，但在关注度上却相对较低，这显示
了OpenAl在Al数据模型领域的领先地位。

4.探讨Al应用落地面临的挑战与前景展望
-Al技术的落地应用不仅受限于技术本身，还受到人类接受度、社会环境、政策法规等诸多外部因素的
影响。共识达成速度的快慢取决于各方对Al的理解和期望值的一致性；而即便技术更新换代速度快，
也可能推动行业进步，比如现今的Al虽未全面落地，但已在全球范围内引发广泛关注，且尚未达到令
投资者失去信心的地步。

-对于像ChatGPT和视频生成模型这样的Al产品，商业化落地的过程中要考虑企业是否有尚未公布的强
大模型储备，否则必须缩小与领先者的性能差距以实现真正意义上的商业化。软件应用场景广泛，涉
及电商、娱乐、游戏开发、影视制作等领域，尽管已有应用端倪初现，但整体而言仍处于早期阶段。
-在讨论过拟合和数据质量问题时，即使拥有海量数据，Al模型依然存在无法准确捕捉实物运动等现
象，主要问题指向模型能力局限而非过拟合。

5.借助Sora模型探究Al的记忆与鲁棒性
-改进策略：针对Sora模型在物理场景处理中的不足，首要解决措施是对包含坠落、碰撞等物理事件的
训练数据进行加权优化，强化模型对此类场景的学习。其次，可通过调整模型结构，研发针对特定任
务的子模型或专家网络，以增强模型在这类问题上的处理效能。
-长视频生成与记忆鲁棒性：提升模型生成长时间不露破绽的视频能力，实质上要求模型具备更强的上
下文记忆功能。这意味着需要进行高效的长序列建模，增强对序列长度的记忆保持能力，确保模型能
够记住更多细节并维持长时间内的视觉一致性，这依赖于模型卓越的推理能力和计算强度。-Sora与
GPT-5的关系探讨：Sora模型底层架构被认为与GPT系列紧密相关，具备极强的文本理解能力，但由
于相关信息不明，无法确定其与GPT-5的具体关系版本。

Q&A
Q:有推测或者业界猜测Sora的训练语料和别人最大的不同是什么?是不是他的视频数据比较多，或者存
在一些其它的缺陷?
A:Sora的模型如果真的如此先进，他们的训练语料一定有特别之处。大家有猜测，比如说使用虚幻引
擎的虚拟数据去生成，是非常有可能的，或者说大概率是有可能的。如果仅用的是真实的视频，他可
能只学到真实的数据规律，没有学到真实数据和合成数据之间的差别。为了改善这种情况，他应该用
生成的数据和实际的数据进行对比和对抗学习，这样可以避免以往虚幻引擎生成的数据的错误。第
二，数据量仅是一方面，数据质量也非常重要。这包括视频的内容及其配套的文字描述，肯定是非常
准确、精确，且能被模型或计算机理解的语言。
Q:有关于Sora的模型算力的测算吗?他的算力的训练和推理要比过去提升到什么样的程度?
A:很难进行精准的测算，因为这取决于很多工程细节。在极粗糙的估算中，如果是基于像素和帧数的
数据输入，以及模型的参数，我认为可能需要千卡到万卡级别的训练，持续两个月左右。但这个数字
可能和实际需求有很大的差距，我们现在得到的信息太有限了。

Q:OpenAl的Sora模型和其它竞争者(比如皮卡)之间有多大的差距?这个差距主要表现在什么地方?
A:显然，从目前看，OpenAl的Sora和其它的模型之间是存在明显的断层式差距的。不仅仅体现在视频
的长度(3秒或60秒),更主要的是在视频的质量、一致性、逼真度、还原程度以及视觉效果等各个方面。
所以，我们认为，这个差距远大于视频长度的差距。这就意味着，别的模型想要达到Sora的效果，不
仅仅是生成更长的视频，更需要在内容和质量上做出重大的提升和改进。

Q:您之前对OpenAl的布局和发布有所疑惑，能具体解释一下吗?
A:我之前对OpenAl的布局和相关产品发布的速度感到十分惊讶。我早前预测OpenAl可能会在今年下半
年或年底提出一些重要产品，然而他们发布Sora的速度完全出乎我的意料。现在我无法判断OpenAl接
下来的计划及他们会提出怎么样的新物品。它在等待更好的时机去释放更重大的新闻。

Q:您如何看待Runway和PiCa等Al创新公司在视频生成基础赛道与OpenAl的竞争?
A:如果这些创业公司还想在Al视频生成的基础赛道上，去提出比OpenAl更好的模型，他们面临的挑战
是极大的。我觉得他们可能要找准一些具体的应用场景，做好一两个落地的产品，深入了解客户需
求，占据一部分市场份额，然后利用他们在这一块的优势拓展其他领域。并非一味地追求基础模型的
通用能力。

Q:关于短视频公司如何看待Al在视频生成应用中的使用，您有何看法?
A:从我了解的情况看，所有的短视频公司，对于Al视频生成都持非常谨慎的态度。一方面，Al视频生成
的技术会降低内容创作门槛，让更多的人能够生成符合网络标准的视频。但另一方面，如果大家都使
用Al生成逼真的视频，对于短视频的生态，包括用户经验可能会存在影响。一旦用户分不清这个是真
人还是Al生成的，他们可能会感到被欺骗。而且，Al生成的视频可能会带来一些道德伦理方面的风险。
因此，这些平台一方面在布局自己的创作工具，另一方面会在Al生成视频上面进行严格的监管和控
制。
Q:那对于短视频公司在大模型上的研发投入，他们有具体的产品雏形或计划吗?
A：他们现在主要的布局思路就是Alagent和Al创作工具。Alagent可以帮助用户在其他人不在线时与Al
进行交流或分享事情。Al创作工具可以帮助用户生成视频、美化视频、添加特效、背景或文案等。这
两个方向也是盖能最直接融入现有产品和业务的方向。

Q:有人评论说Google的Jimmee1.5表现有些夸大，您怎么看?
A:Jimmee1.5独特的是它提供了长达1000K的上下文模型能力，对于处理超长上下文数据如几千页的技
术报告或几万行的代码库等扮演着关键角色。如果它的实际性能能够达到宣称的水平，那么它确实有
一定的实际工业应用能力。尽管它和OpenAl的Sora并非直接竞品，我认为它仍然值得我们高度关注。

Q:有没有觉得SORA的发展可能带来一些明显的、更实际的业务应用?
A:对SORA具体的应用我并无法作出具体预测，因为Al和大模型技术的发展速度一直很快，我们期待它
的各种应用，但实际落地的大型应用并不多。虽然有一些小的玩具级应用，但我们希望看到的大型、
广泛使用的应用还没有出现，这也需要一段时间才能看到成果。

Q:对于Sora模型技术的大规模落地，即使在技术力量支持下，却仍然存在许多挑战。请问这些挑战具
体有哪些，以及您如何看待这种情况?
A:技术落地除了依赖于技术能力，还会受到许多技术以外的因素影响，如人类对Al的接受度和期望以及
社会认知等。许多人们对Al的迅猛发展持抗议态度，觉得Al有可能反噬人类。此外，政策制定者对Al的
态度若未在短时间内形成统一，可能会导致技术发展方向未能达成共识。若技术迭代过快，可能会带
来许多问题，如核武器一样，这是一种极具破坏性的武器，其审批和应用等监管需要十分严格。因
此，我个人认为Al技术的未能快速落地并非全是坏事。事实上，尽管OpenAl或其他公司的Al技术未能
快速落地，投资资金仍旺盛且全世界对Al领域的关注度仍十分高。这表明，对于Al短期无法落地这个问
题，并不会对其未来的发展造成较大影响。

Q:关于Sora模型短期无法产生实质性商业化落地的问题，您对此有何看法?
A:首先，对于新技术的商业化落地，一定会有期待其能带来惊艳效果和快速打开市场的厚望。但现实
情况往往并非如此，Sora模型也不例外。除非OpenAl还有隐藏的、强大的模型没有释放，否则以现在
的模型性能，我估计在电商、可控生成、游戏制作、娱乐产业、室内装修等领域的落地还需要弥补一定
的差距。过早地投入这个领域，可能并不十分合理。然而，我也能透露，且前已经有一些大公司正
在布局相关业务，比如Amazon就正在进行Alagent的开发，包括国内也有电商公司在进行相关工作。
此外，也有创业公司正在利用小型模型生成室内设计创意，解决人们的日常生活问题。尽管我们现在
并未看到令人非常兴奋的应用机会，但已经有了这样的端倪。因此，我认为，Al将应用于实际生活的
时代并不会太远。

Q:关键帧对于这个模型的重要性，可以具体解释一下在视频制作与渲染过程当中，关键帧的提取和其
所占比例吗?
A:关键帧的提取并不是一个新技术，以前就有成型技术用来提取关键帧。但是这只是从技术上说，确
定关键帧更多地依赖于关键帧本身包含的信息以及背后的物理知识。我们可以借助工具从全局和局部
的角度进行提取。比如通过视频中的物体运行轨迹、内容理解、颜色变化或者画面边界及物体位置等
方法。关键帧的提取并不那么容易以依赖于算法，一部分依赖于模型复杂度，一部分则依赖于大量的
数据，有许多这样的数据可以喂给模型，让它理解哪些帧是关键帧。

Q:您对于这种情况，有关键帧提取是不是关键所产生的疑问，能具体描述一下吗?
A：确实我现在的疑问主要是关于Sora是如何识别和生成关键帧的。我们看到视频里的很多现象，事实
上已经在训练数据里见过了，而且理应能学习到一些物理学的规则。但在实际输出时，像水流动或人
行走等规则却未被学到，令我疑惑它的真正原因是什么。我认为，这主要是因为虽然模型已经有了一
些弱视觉，但可能是在模型的部分通道中没有被赋予足够的权重，导致这些知识并没能在最终输出的
视频中得以体现。所以我们需要深入了解这个模型的更多细节来解决这个问题。

Q:刚才您也提到数据质量的问题，特别是关于过拟合问题，您能进一步阐述一下吗?
A:过拟合是学习问题中的一个基础问题，就是当模型过于复杂，又相对于训练数据过少时，可能就导
致模型过拟合。但从OpenAl的结果看来，并未看到明显的过拟合痕迹，反倒是模型对某些应当学到的
知识并未学到，这更像是模型表达能力的问题。我个人认为，虽然模型能力还有待提高，但是数据量
对于模型训练仍然是一个更重要的因素，而我并不认为OpenAl的训练数据中完全没有这些基础的物理
知识角色，所以我更认为这个是一个模型的问题，而不是数据的问题。以上就是整个问答的内容，这
是基于投资者会议上讲话者的讲话进行的提炼和整理。

Q:您能分析一下，为什么 Sora的模型在处理一些特定问题上表现不佳，比如在处理碰撞、破裂、爆裂
类的任务中表现欠佳，是因为训练数据的问题，还是模型的问题?
A:我认为，对于Sora的模型存在的问题，可能主要有两个来源。首先，训练数据可能不够全面，如果
训练数据中没有足够的与碰撞、破裂、爆裂相关的数据，模型的表现自然会受限。解决这个问题，一
种方法就是在训练数据中添加更多有这些过程的例子，并给这些例子增加权重，这样模型在训练过程
中就会把这些情况学得更好。另外一个可能的问题是模型结构本身，我们可能需要对模型的结构进行
改进，比如引入专门处理物理效应的子模型或者专家网络。但这些分析都是基于模型现有的问题，并
没有基于第一手的资料，所以只能作为一种大方向的讨论。

Q:关于Sora模型的鲁棒性，我看到它能生成长达一分钟的视频，这种长视频的生成的能力是如何被建
立起来的?为什么他能生成这么长的视频，还能保持一定的稳定性?
A:生成长视频需要更强的上下文记忆能力。如果你是生成一个一分钟的视频，在这个长序列中，模型
要记住更多具体的细节，保持视觉的稳定性，实际上就需要这个模型的推理能力和长期记忆能力更强。
这需要模型能在更长的时间窗口去做更多的attention,以及做长序列的建模。而长时间窗口保持视
觉稳定所依赖的记忆能力，我认为应该是模型迭代发展需要重点关注的方向。

Q:那么 Sora的这个模型是否跟GPT5有关联?对于GPT5的能力和进展，你有何看法?
A:我确定Sora模型的基础是GPT,因为GPT在文本理解能力方面非常强。无论是GPT的哪个版本，都提
供了强大的文本理解能力，这是Sora模型能实现其功能的关键。实际上，无论Sora的模型使用的是
GPT的哪一个版本，都是应该基于其强大的文本理解能力。至于指向GPT5,我确信它在技术层面上已
经准备就绪，但OpenAl可能在寻找合适的时机发布。

业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询： 如果您有业务方面的问题或者需求，欢迎您咨询！我们带来的不仅仅是技术，还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人：石先生/雷先生